Aus einer Gesamtschau der für Deutschland vorliegenden Daten und Eindrücke kristallisieren sich insbesondere drei übergreifende Herausforderungen für die Evaluation von Wissenschaftskommunikation heraus. (1) Es ergeben sich bereits vor Beginn der Evaluationen Probleme durch die fehlende strategische Planung von Wissenschaftskommunikation. (2) Es mangelt bei Evaluationen (insbesondere solchen, die Wirkungsaussagen treffen möchten) oft an passenden Evaluationsdesigns und geeigneten Datenerhebungsmethoden. (3) Das in der deutschen Wissenschaftskommunikationspraxis generell vorherrschende Bild von Evaluation erschwert einen kollektiven und konstruktiven Lernprozess für die Wissenschaftskommunikation.
2.1 Fehlendes strategisches Vorgehen in der Wissenschaftskommunikation
Klar formulierte Erwartungen an ein Projekt sind essentieller Bestandteil strategischer Projektplanung und bilden die Grundlage für aussagekräftige Evaluationen (Spicer
2017). Idealerweise werden zu Beginn eines Projekts sowohl die Ziele als auch die Zielgruppe des Projekts genau definiert, um anschließend ein möglichst passgenaues Format zu wählen (Besley et al.
2018), das Erfolg bei der Erreichung der Ziele und Zielgruppen verspricht. Evaluationen ermöglichen dann, diese Passgenauigkeit und die Erreichung von Zielen und Zielgruppen zu überprüfen. In der Praxis mangelt es jedoch an Genauigkeit bei jedem dieser Schritte (Phillips et al.
2018; Stilgoe et al.
2014).
Bei der Bestimmung von Zielen bietet die Forschung im Bereich strategischer Kommunikation eine wichtige Orientierung. Dort wird zwischen zwei verschiedenen Arten von Zielen unterschieden. Zum einen spricht die strategische Kommunikation von
goals, so bezeichnet werden generelle Richtlinien oder abstrakte und übergeordnete Ziele, die nicht notwendigerweise reine Kommunikationsziele sein müssen (Hon
1998, S. 105). Zum anderen ist die Rede von
objectives, definiert als konkrete Zielsetzungen der Kommunikation, die dazu geeignet sind, die formulierten
goals zu erreichen (Hallahan
2015, S. 247). In der Praxis wird diese Unterscheidung zwischen
goals und
objectives jedoch häufig nicht vorgenommen und es ergeben sich Ungenauigkeiten in der Formulierung der Ziele. Aus der Analyse von Evaluationsberichten im deutschsprachigen Raum ergibt sich der Eindruck, dass Praktiker:innen geübt darin sind, visionsartige
goals zu formulieren und ihre Projekte in einen größeren Rahmen einzuordnen (Ziegler und Hedder
2020, S. 16 ff.). In Gesprächsrunden mit den Praktiker:innen wurde weiterhin deutlich, dass die Schwierigkeit darin besteht, sich von der Ebene der Visionen wegzubewegen, konkrete
objectives zu formulieren und diese mit messbaren Indikatoren zu hinterlegen. Symptomatisch dafür ist auch, dass in den analysierten Berichten häufig allgemeine und vage Zielformulierungen wie „ein Bewusstsein zu schaffen“ oder auch „zum Handeln anzuregen“ zu finden sind. Die Erreichung von derart formulierten Zielen lässt sich nur schwer tatsächlich überprüfen und ein solches Vorgehen verleitet dazu, das Augenmerk auf die Identifizierung irgendeines Effekts zu legen, anstatt die gewünschte Größe dieses Effekts vorab zu definieren und dann zu prüfen (Ziegler und Hedder
2020, S. 19 f.).
Auch bei der Beschreibung der Zielgruppen von Wissenschaftskommunikationsaktivitäten zeigen sich diese Tendenzen zu vagen und ungenauen Formulierungen. In den analysierten Berichten werden meist einfache soziodemographische Merkmale, wie Geschlecht und Alter, zur Zielgruppendefinition herangezogen und nur selten persönlichkeitsbezogene Eigenschaften wie (Vor-)Einstellungen gegenüber Wissenschaft und Forschung (Ziegler und Hedder
2020, S. 19). Zudem gibt beispielsweise nur ein Viertel der Befragten in der Community-Befragung an, den sozioökonomischen Hintergrund zur Zielgruppenbeschreibung zu nutzen (n = 96, Impact Unit
2019, S. 16), obgleich die Forschung zeigt, wie bedeutend dieser für Voreinstellungen zu Wissenschaft und Forschung und damit für das Wirkpotenzial von Wissenschaftskommunikation sein kann (Rutjens et al.
2018). Selbst wenn genauere Zielgruppenbeschreibungen genutzt werden, wird durch Formulierungen wie „hauptsächliche Zielgruppe“ (Ziegler und Hedder
2020, S. 19) wiederum der Raum für weitere, nicht genauer definierte Zielgruppen geöffnet. Typisch sind umfassende Bezeichnungen wie
Schüler:innen oder
die breite Öffentlichkeit, womit die Chance vergeben wird, eine generische Masse durch Untergruppen zu spezifizieren, die gezielter angesprochen werden könnten (Schäfer und Metag
2021, S. 300).
Darüber hinaus fällt auch die Entscheidung für ein bestimmtes Kommunikationsformat in der Praxis nicht immer basierend auf einer vorherigen Definition von Zielen und Zielgruppen. In der Community-Befragung geben nur 27 % der Befragten an, Formate anhand vorher definierter Ziele auszuwählen, während 73 % ihre Formatwahl darauf zurückführen, „dass jemand eine Idee hat oder ein bestimmtes Format ausprobiert werden soll“ (n = 94, Impact Unit
2019, S. 19).
Eine genaue Definition von Zielen und Zielgruppen ist unabdingbar für die informierte Wahl eines Formats, das erfolgsversprechend für die Erreichung der Ziele erscheint. Solch ein strategisches Vorgehen bildet wiederum auch die Grundlage für eine aussagekräftige Evaluation, die überprüfen kann, ob die gewünschte Zielgruppe erreicht wurde und ob das Format tatsächlich geeignet war, die gesteckten Ziele zu erreichen. Doch um solche Einsichten zu ermöglichen, muss auch die Evaluation selbst adäquat geplant werden.
2.2 Defizite bei der Wahl von Evaluationsdesign und -methoden
Bei näherer Betrachtung der analysierten Berichte wird aus den häufig summativen Evaluationsdesigns, den gestellten Evaluationsfragen und den erhobenen Daten deutlich, dass es den Praktiker:innen der Wissenschaftskommunikation oft um die Evaluation von Wirkungen und den Nachweis von Effekten geht (Ziegler und Hedder
2020). Zentral ist hierbei, dass es für die Feststellung einer möglichen Wirkung oder einer erhofften Veränderung zwangsläufig Vergleichswerte braucht. Schließlich kann keine Veränderung – weder eine positive noch eine negative – durch eine Momentaufnahme nachgewiesen werden.
In der Praxis sehen wir jedoch in einigen Fällen eine Diskrepanz zwischen dem Anspruch der Evaluation und der Eignung der gewählten Evaluationsdesigns und -methoden, diesem Anspruch auch gerecht zu werden. Deutlich wird dies, wenn man sich vor Augen führt, dass selbst unter den analysierten Evaluationsberichten ein Viertel der 28 Evaluationen, die nach eigenen Angaben Wirkungen erheben wollen, nur eine einmalige Datenerhebung durchführt (Ziegler und Hedder
2020, S. 24).
Um ein besseres Verständnis von der Wirkung einer Aktivität zu bekommen, wären stattdessen Designs geeignet, die Vorher-Nachher-Vergleiche durchführen oder Kontrollgruppen heranziehen. Während letztere weder in der Community-Befragung noch in den Evaluationsberichten häufig Erwähnung finden, werden in beiden Fällen immerhin von circa einem Drittel Vorher-Nachher-Vergleiche durchgeführt (Ziegler und Hedder
2020, S. 24; Impact Unit
2019, S. 22).
Das in der Praxis übliche Vorgehen, nur einmalig Daten zu erheben, führt gelegentlich dazu, dass die Einschätzung von Veränderungen den Teilnehmenden oder Besucher:innen selbst überlassen wird. So werden diese selbst oder in einigen Fällen auch Dritte (bspw. im Falle von Kindern, deren Eltern oder Lehrkräfte) gefragt, ob sie das Gefühl haben, die Aktivität hätte eine Veränderung ausgelöst. Damit werden die Evaluationsergebnisse von der unrealistischen Annahme abhängig gemacht, dass die Befragten sich an ihr vorheriges Wissen oder ihre vorherigen Einstellungen (im zweiten Fall, den inneren Zuständen anderer Personen) erinnern, diese reflektieren und sinnvoll mit einem späteren Zustand vergleichen können (Jensen und Laurie
2016, S. 158).
Dieses Vorgehen mag auf organisatorischer Ebene ressourcensparend vorkommen, hat allerdings auf inhaltlicher Ebene Folgen für die Aussagekraft der Evaluationsergebnisse. Denn das Einsparen von Erhebungen führt nicht nur zu fehlenden Vergleichspunkten, sondern auch zu blinden Flecken, was die Perspektiven auf die Aktivitäten angeht: Häufig wird in Evaluationen von Wissenschaftskommunikation nur eine Gruppe von Informationsträger:innen herangezogen – selten mehrere (Ziegler und Hedder
2020, S. 23). Auch befassen sich Evaluationen von Wissenschaftskommunikation in der Regel mit den Perspektiven von Teilnehmenden, meist Bürger:innen, kaum stehen projektinterne Gruppen im Fokus der Evaluation (Ziegler und Hedder
2020, S. 23).
All die genannten Punkte wirken sich negativ auf die Qualität von Evaluationen in der Wissenschaftskommunikation aus. Auch Praktiker:innen sehen diese durchaus kritisch. Nur 6 % von ihnen stimmen laut der Community-Befragung zu, dass Evaluationen in der Wissenschaftskommunikation meistens von guter Qualität sind. Ein Drittel hingegen verneint diese Aussage. Wie eingangs bereits erwähnt, ist mit 39 % der größte Anteil unentschieden und weitere 23 % machen keine Angabe (n = 82, Impact Unit
2019, S. 29). In den Diskussionsrunden mit Praktiker:innen wurde immer wieder deutlich, dass die kurzfristige Planung und Umsetzung von Evaluationen für viele dieser Problematiken ausschlaggebend sein könnte. So kann ein Mangel an Zeit dazu führen, dass bekannte und scheinbar einfach umsetzbare Evaluationsdesigns und Erhebungsmethoden gewählt werden, anstelle komplexerer, aber inhaltlich passenderer. Das zeichnet sich auch in der Community-Befragung ab, in der zwar 93 % die Aussagekraft einer Methode wichtig für die eigene Methodenwahl finden, aber immerhin 87 % angeben, dass eine leichte Plan- und Umsetzbarkeit der Methode für sie ebenfalls hohe Priorität einnimmt. 77 % geben weiterhin an, auch danach auszuwählen, ob eine Methode schnell umsetzbar ist (n = 75, Impact Unit
2019, S. 31).
Auch fehlende Kenntnis und Überforderung können zu Entscheidungen für ungeeignete Methoden beitragen. So stimmen nur 37 % in der Community-Befragung zu, dass sie sich in der Lage sehen, gute Evaluationen für Wissenschaftskommunikationsprojekte zu gestalten (n = 82, Impact Unit
2019, S. 29). Nur 38 % stimmen explizit nicht zu, dass sie es schwierig finden, Interessantes und Relevantes mithilfe von Evaluationen zu erfassen, sodass sich hier wie eingangs erwähnt ein geteiltes Bild ergibt.
Dabei bedarf es keinesfalls in jeder Evaluation komplexer Experimentalstudien oder kostenintensiver Vorher-Nachher-Befragungen. Auch einfach gestaltete deskriptive Evaluationen mit einmaliger Datenerhebung können wichtige Informationen und Einblicke in ein Projekt bieten und beispielsweise für Projekte mit kleineren Budgets, kürzeren Laufzeiten oder experimentellem Charakter angemessener sein als komplexe Erhebungsabfolgen. Wichtig ist aber, dass Evaluationen so geplant werden, dass das Design und die verwendeten Methoden auch tatsächlich dazu geeignet sind, die Evaluationsfragen zu beantworten. Wenn es nicht möglich ist, ein entsprechendes Evaluationsdesign umzusetzen, gewinnt die Evaluation durch die Anpassung ihrer Fragen mehr Aussagekraft als durch den Versuch, die ursprünglichen Fragen mit dafür ungeeigneten Methoden zu beantworten. Was Praktiker:innen dennoch immer wieder dazu verleiten mag, wirkungsorientierte Fragen zu stellen, könnte sich teilweise durch das vorherrschende Verständnis von Evaluation erklären.
2.3 Verständnis von Evaluation
Bei der Zusammenführung der Ergebnisse aus den für diesen Beitrag herangezogenen Analysen ergibt sich folgender vermeintlicher Widerspruch: Zwar geben in der Community-Befragung 36 % der Befragten an, dass ihre Projekte (fast) immer evaluiert werden und nur 6 % geben an, dass ihre Projekte nie evaluiert werden (n = 96, Impact Unit
2019, S. 21). Gleichzeitig wurden in der Stichwortsuche zum Zweck der Analyse von Evaluationsberichten aus 68 Stichwortkombinationen im Zeitraum von 2000 bis 2019 gerade einmal eine Gesamtzahl von 51 öffentlich zugänglichen Berichten aufgefunden, die 55 Evaluationen vorstellen. Es stellt sich also die Frage, warum scheinbar nur so wenige Evaluationen verfügbar sind und wie mit den anderen Evaluationen nach ihrem Abschluss verfahren wird.
Zwei Interpretationen bieten sich an: Zum einen ist es möglich, dass Praktiker:innen ihre Ergebnisse nicht veröffentlichen, weil sie diese für wenig relevant für Externe halten. Dafür spricht, dass in der Community-Befragung 79 % der Befragten zustimmen, dass ihre Ergebnisse vor allem dazu genutzt werden, im Team die Zusammenarbeit und mögliche Verbesserungen zu reflektieren. Als weitere Verwertungsmöglichkeit darüber hinaus wurde in der Community-Befragung die Weitergabe der Daten zu Forschungszwecken abgefragt – hier stimmen nur 18 % zu (n = 72, Impact Unit
2019, S. 26).
Zum anderen wurde in den Diskussionsrunden mit Praktiker:innen deutlich, dass Evaluationen von vielen als Instrumente zum Erfolgsnachweis oder sogar als Druckmittel verstanden werden. Dazu passt das folgende Muster in den veröffentlichten Berichten: 51 Evaluationen ließen sich mit Blick auf ihre Gestaltung und Funktion im Projekt als summative oder wirkungsorientierte Evaluationen beschreiben, sie zeigen sich also an den Endresultaten des Projekts interessiert. Lediglich 16 Evaluationen behandeln projektinterne Fragen und zeigen sich damit an den Projektprozessen interessiert
5 (Ziegler und Hedder
2020, S. 21).
Evaluationen wurden in den Diskussionsrunden darüber hinaus immer wieder als langer Arm von Vorgesetzten oder Förderinstitutionen interpretiert, die zukünftige Finanzierung an Erfolge knüpfen. Auch für diese Vermutung finden sich einige Hinweise in der Community-Befragung. Die Hälfte der Befragten stimmt zu, dass Evaluationen manchmal dazu genutzt werden, um Erfolge zu belegen, obwohl dafür nicht die richtigen Daten vorliegen. 49 % stimmen zu, dass Evaluationen vor allem dazu dienen, die eigene Arbeit vor Anderen zu belegen. Demgegenüber stimmen nur 39 % zu, dass Evaluationsergebnisse in die Neu- und Weiterentwicklung von Projekten einfließen (n = 82, Impact Unit
2019, S. 30). So wäre es also durchaus möglich, dass Ergebnisse bewusst unter Verschluss gehalten werden, um Probleme oder ausbleibende Erfolge nicht öffentlich und das eigene Projekt damit angreifbar zu machen (Nothhaft und Stensson
2019).
Ein derartiges Verständnis von Evaluation scheint die Arbeitsrealität für Praktiker:innen der Wissenschaftskommunikation in Deutschland nachhaltig zu bestimmen. Evaluationen werden dabei aus verschiedenen Gründen angestoßen und ihre Ergebnisse sollen legitimerweise verschiedenen Zwecken dienen (siehe auch Niemann et al. in diesem Band; Volk in diesem Band) – was auch bedeuten kann, dass ihre Ergebnisse nicht in allen Fällen für die Öffentlichkeit bestimmt sind oder bestimmt sein können. Ergänzend ist auch anzuführen, dass beispielsweise externe Dienstleistende, die Evaluationen durchführen, häufig nicht die Entscheidung über die Ergebnisveröffentlichung treffen. Vielmehr endet deren Arbeit oftmals mit der Übergabe der Ergebnisse an die auftraggebende Person oder Einrichtung, welche die weitere Nutzung der Ergebnisse bestimmt.
Insgesamt ist eine Folge dieses Verständnisses aber, dass wichtige Erkenntnisse aus Evaluationen der weiteren Community von Praktiker:innen vorenthalten werden. So können Projekte nicht aus den Fehlern oder von den Erfolgsfaktoren Anderer lernen und Evaluation wird zu einem Schreckgespenst anstatt zu einem kollektiven und konstruktiven Lernprozess. Um Evaluation zu einem solchen Lernprozess zu machen, muss ein Umdenken stattfinden. Hoffentlich kann unter anderem dieser Band einen Beitrag dazu leisten und zu einer anderen Evaluationspraxis der Zukunft beitragen.