Bei der Rückfallvorhersage wird zwischen zwei wesentlichen Vorgehensweisen unterschieden, die sich jedoch in der Praxis gegenseitig ergänzen: die statistisch-aktuarische (nomothetische) und die klinische (ideographische) Methode. Bei der ideographischen Kriminalprognose handelt es sich um ein individuumszentriertes Vorgehen, das allgemeinen Leitlinien, aber keinen vorgeschriebenen Einzelschritten folgt und sich auf statische und dynamische Risikofaktoren („criminogenic needs“) von Straftätern stützt (Dahle 2007). Die nomothetische Einschätzung der Rückfallwahrscheinlichkeit beruht bei den etablierten Instrumenten zur Kriminalprognose hingegen weitgehend auf statischen Risikomerkmalen, die in einem empirisch gesicherten Zusammenhang mit erneuten Straftaten stehen (Dahle 1997). Die statistische Methode ist nach Dahle et al. (2007) transparenter und nachvollziehbarer als der klinische Ansatz und außerdem valider (Hanson und Morton-Bourgon 2009). Eine Kombination der beiden Ansätze ist darüber hinaus aber durchaus sinnvoll (Dahle 2007).

In der Forschung zur Kriminalrückfallprognose wurde der Zusammenhang zwischen der Rückfallvorhersage durch aktuarische Verfahren und der tatsächlichen Legalbewährung von Straftätern in den vergangenen Jahren immer wieder überprüft (Harris und Rice 2003; Rettenberger und Eher 2006). Die hier dargestellte Arbeit fokussiert auf den Static-99 als viel verwendetes und international bereits gut bewährtes Prognoseinstrument (Barbaree et al. 2001; Rettenberger et al. 2010), das im angloamerikanischen Sprachraum entwickelt wurde (Hanson und Thornton 1999). Für den Static-99 wurden in internationalen Validierungsstudien AUC-Werte zwischen 0,69 und 0,76 berichtet (Nunes et al. 2002; Sjöstedt und Långström 2001). Bei den Ergebnissen von Validierungsstudien aus verschiedenen Ländern ist immer mit einer gewissen Stichprobenabhängigkeit der Ergebnisse und möglicherweise auch mit substanziellen Unterschieden der Täterpopulation aufgrund unterschiedlicher Justizsysteme zu rechnen (Urbaniok et al. 2007).

Deshalb soll die vorliegende Literaturübersicht die Frage beantworten, wie valide die Kriminalrückfallvorhersage bei Sexualstraftätern durch den Static-99 im deutschsprachigen Raum ist. Dazu wurden alle empirischen Originalarbeiten aus Deutschland, Österreich und der Schweiz herangezogen, in denen die prädiktive Validität des Static-99 untersucht wurde. Neben den Ergebnissen zur prädiktiven Validität gibt die vorliegende Arbeit auch einen Überblick über wichtige Randbedingungen der ermittelten prädiktiven Validitäten wie die betrachteten Tätergruppen, die Art der Rückfallstraftat, die spezifischen Rückfallraten und den Beobachtungszeitraum („time at risk“). Zunächst werden die in der Arbeit verwendeten grundlegenden Begriffe geklärt.

FormalPara Sexualstraftaten

Unter Sexualstraftaten werden laut Strafgesetzbuch (StGB; 13. Abschnitt) alle Straftaten gefasst, bei denen die sexuelle Selbstbestimmung einer Person verletzt wird. Zu unterscheiden sind dabei Handlungen mit körperlichem Kontakt („hands on“), wie dies bei einer Vergewaltigung der Fall ist, von solchen ohne direkten Kontakt („hands off“), wie beispielsweise bei Exhibitionismus. Außerdem ist das Alter des Opfers zu beachten. Liegt dieses unter 14 Jahren, handelt es sich um Kindesmissbrauch (§176 StGB), bei Betroffenen bis 18 Jahren um Missbrauch an Jugendlichen (§182 StGB). Die Delikte sexueller Übergriff, sexuelle Nötigung und Vergewaltigung (§177, §178 StGB) beziehen sich auf erwachsene Opfer. Ebenfalls berücksichtigt wird die Beziehung zwischen Tätern und Opfern, da bei intra- und extrafamiliären Sexualstraftaten sowie bei Sexualstraftaten durch verwandte, bekannte oder fremde Täter stark unterschiedliche Rückfallraten festzustellen sind. Im Folgenden werden Personen, die wegen sexuellen Kindesmissbrauchs verurteilt wurden, mit PSK und Personen, die wegen eines Sexualdelikts gegen Erwachsene verurteilt wurden, mit PSE abgekürzt.

FormalPara Rückfälligkeit

Rückfälligkeit bezeichnet zunächst das Begehen einer erneuten Straftat durch einen bereits verurteilten Täter. Wird Rückfälligkeit als Kriterium erhoben, so gibt es mehrere Formen der Operationalisierung. Objektive Maße wie die Wiederverurteilung oder eine erneute Anzeige sind die am häufigsten benutzten Kriterien. Allerdings gibt es immer ein Dunkelfeld nichterfasster Straftaten, das zu einer systematischen Unterschätzung der tatsächlichen Rückfallquote führt.

Bei einer erneuten Straftat kann es sich um einen einschlägigen, d. h. sexuellen (Hands-on- oder Hands-off‑)Rückfall, um ein nichtsexuell motiviertes Gewaltdelikt oder um irgendeine andere Form erneuten rechtswidrigen Verhaltens handeln. Zu beachten ist, dass oftmals sexuelle Hands-on-Delikte in die Rückfallrate der Gewaltdelikte einbezogen werden und hier somit eine Überschneidung der Tatbereiche vorliegt. Dieses Vorgehen basiert auf der international geführten methodischen Diskussion zur bestmöglichen Vorhersagbarkeit erneuter Sexualstraftaten (Rice et al. 2006).

FormalPara Static-99

Der Static-99 wurde von Hanson und Thornton (1999) entwickelt und ist ein statistisch-aktuarisches Instrument zur Einschätzung der Rückfallwahrscheinlichkeit erwachsener, männlicher Sexualstraftäter. Dabei werden statisch-historische Risikomerkmale, die empirisch gesichert im Zusammenhang mit neuerlichen Gewalt- und Sexualdelikten stehen, auf Grundlage der Akten bereits einschlägig in Erscheinung getretener Täter ausgewertet (Dahle 1997).

Der Static-99 setzt sich zusammen aus Items des Rapid Risk Assessment for Sexual Offense Recidivism (RRASOR; Hanson 1997) und des Structured Anchored Clinical Judgement – Minimum (SACJ-Min; Grubin 1998). Der RRASOR umfasst 4 Items zu statischen Tätermerkmalen, die im Zusammenhang mit sexuell motivierten Rückfällen stehen (Hanson 1997). Der SACJ-Min ist eine Kurzform des SACJ und enthält Items zu sexueller Devianz und Vorstrafen (Grubin 1998). Daraus ergibt sich mit dem Static-99 ein Prognoseinstrument, bestehend aus 10 Items, wovon sich 2 auf demografische Angaben, 5 auf die kriminelle Vorgeschichte und 3 auf Charakteristika der Opfer beziehen. Im Anhang 1 sind die zu bearbeitenden Fragen im Einzelnen dargestellt. Bis auf das 5. Item zu früheren Anklagen und/oder Verurteilungen wegen sexuell motivierter Straftaten (0 bis 3 Punkte) weisen alle Items ein dichotomes Antwortformat (0, 1) auf, sodass ein Gesamtsummenwert von maximal 12 Punkten erreicht werden kann. Dieser kann anschließend mit bestehenden Normwerten in Verbindung gebracht und einer von 4 Risikogruppen zugeordnet (0–1: niedrig, 2–3: niedrig-mittel, 4–5: mittel-hoch, 6 und mehr: hoch) werden. Aktuell wird nun die Verwendung des Fünfkategoriensystems empfohlen (Eher et al. 2019).

Jedoch sollte der Static-99 nicht als alleiniges Verfahren zur Einschätzung des Risikos dienen, sondern als Ergänzung zu einem umfassenden Prognoseprozess der Rückfallwahrscheinlichkeit genutzt werden. Da es sich hierbei um ein statistisches Verfahren handelt, das sich auf Tätergruppen bezieht, sollte keine Aussage ohne Berücksichtigung des konkreten Einzelfalls und dynamischer Faktoren getroffen werden (Eher et al. 2012b).

Der Static-99 wurde aus dem Englischen in mehrere Sprachen übersetzt und hat sich international bewährt (Noll et al. 2006; Rettenberger und Eher 2006). Dabei liegt die Vorhersagegüte neuerlicher Sexualstraftaten zwischen AUC = 0,62 (Harris et al. 2003) und AUC = 0,76 (Kingston et al. 2008). Durch die klaren Kodierungsregeln des 2003 revidierten Manuals (Harris et al. 2003) wird zudem eine hohe Interrater-Reliabilität von ICC = 0,98 erreicht (Rettenberger et al. 2013). Ebenfalls nachgewiesen ist die konvergente Validität zu anderen Einschätzungsverfahren der Rückfälligkeit wie SVR-20, PCL‑R und SORAG (Rettenberger und Eher 2006; Rettenberger et al. 2010).

Kontrovers diskutiert wird das Item zum Alter des Täters. Die revidierte Fassung (Static-99R) räumt diesem Item deshalb eine größere Gewichtungsmöglichkeit ein (Helmus et al. 2009). Jedoch konnten Rettenberger et al. (2013) keine signifikant verbesserte Vorhersagekraft des Static-99 durch die erweiterte Altersvariable feststellen. Zudem wurde mit dem Static-2002 eine mit insgesamt 13 Items ausgestattete erweiterte Form entwickelt (Hanson und Thornton 2003), welche eine ähnliche Prognosegüte wie der Static-99 aufweist (Martens et al. 2017).

FormalPara Prädiktive Validität

Die prädiktive Validität eines Instruments zeigt sich in der Korrelation des Testergebnisses mit einem bestimmten, vorherzusagenden Außenkriterium. Sie gibt somit an, wie gut das gemessen wird, was gemessen werden soll (Mokros 2015). Demnach lässt sich die Validität mit dem Korrelationskoeffizienten r darstellen. Häufig wird im forensischen Kontext jedoch die Fläche („area under the curve“ [AUC]) unter einer Grenzwertoptimierungskurve („receiver operating characteristics“ [ROC]) angegeben. Diese hat den Vorteil, dass sie unabhängig von Unterschieden in der Basisrate ist (Helmus und Babchishin 2017; Rice und Harris 2005). Der AUC-Wert gibt die Wahrscheinlichkeit an, mit der eine zufällig gezogene rückfällige Person im Prognoseverfahren einen höheren Risikowert erhalten hat als eine nichtrückfällig gewordene Person (Mokros 2015). Bei einem AUC-Wert von 0,50 liegt die Wahrscheinlichkeit einer zutreffenden Prognose demnach auf dem Zufallsniveau. Nach Dahle et al. (2007) zeichnen AUC-Werte von 0,72 und mehr eine hohe Vorhersagegüte des Instruments aus. AUC-Werte ≥0,64 gelten als moderat, und darunter liegt eine schwache Vorhersagegüte vor.

Methode

Die Literaturrecherche erfolgte bis einschließlich August 2018. Artikel, welche lediglich in einer anderen Sprache publiziert wurden, jedoch dieselben Studienergebnisse darstellten, wurden aus den erzielten Treffern herausgenommen. Nicht in die Literaturliste eingebunden wurden außerdem Artikel, die keine Angaben zur Validität machten oder aber andere Prognoseinstrumente als den Static-99 verwendeten. Ausgeschlossen wurde dabei auch Forschungsliteratur zum Static-99R und Static-2002, die als revidierte Fassungen des Static-99 vorliegen, aber andere Items bzw. Gewichtungen aufweisen. Ebenso wurden Metaanalysen nicht berücksichtigt.

Als Ausgangspunkt der Literaturrecherche diente die Bibliografie auf der Webseite www.static99.org, auf der 4 Originalarbeiten im deutschsprachigen Raum aufgeführt waren, von denen 3 in die Literaturübersicht aufgenommen wurden. Anschließend wurde in verschiedenen Suchmaschinen mit der Begriffskombination „static-99 AND validity“ recherchiert, die jeweils mit „AND germany“, „AND austria“ und „AND switzerland“ ergänzt wurde, um die Suche auf die deutschsprachigen Länder einzugrenzen. Infolgedessen wurden bei PsycINFO, PsycARTICLES, PubMed, google scholar und über das Suchportal der Universitäts- und Landesbibliothek Bonn (ULB) die in Tab. 1 dargestellte Trefferanzahl zu dem jeweiligen Suchbegriff erzielt. Hierbei handelte es sich mehrheitlich um die gleichen Artikel, wodurch sich die Zahl der Ergebnisse deutlich reduzierte.

Tab. 1 Anzahl der Suchergebnisse (n) nach Suchportal und Suchbegriff

Bei Verwendung der deutschen Variante „static-99 AND Validität“ mit nach Zeitschriftenaufsatz und Zeitungsartikel gefiltertem Format wurden über die ULB n = 22 Treffer erzielt. Diese doppelten sich jedoch ebenfalls mit den bereits gefundenen Artikeln. Durch Sichtung der Artikel konnten außerdem dort bereits zitierte Autoren und Publikationen gezielt gesucht und in die Literaturliste einbezogen werden. Die Literatursuche ergab eine Liste von 18 Originalartikeln aus den Jahren 2006–2018, auf die sich die folgende Übersicht bezieht.

Ergebnisse

Allgemeine Angaben zu den 18 ausgewählten Publikationen stellt Tab. 2 dar, wobei sich die Mehrheit der Artikel auf Stichproben aus Österreich stützt. Vier Studien beziehen sich auf deutsche Stichproben (u. a. Dahle et al. 2008; Stadtland et al. 2006), und 2 Studien wurden in der Schweiz erhoben (Endrass et al. 2009a, 2009b). Zum Teil wurden die Datensätze vorheriger Studien für eine darauffolgende erneut verwendet und mit weiteren Straftätern ergänzt (u. a. Etzler et al. 2018). Bei allen Stichproben handelte es sich um männliche Sexualstraftäter.

Tab. 2 Übersicht über die verwendeten Artikel der Literaturrecherche

Bis auf 3 Studien mit Stichproben mit n < 100 (Endrass et al. 2009a, 2009b; Rettenberger und Eher 2006) weisen alle Publikationen ein n im mindestens 3‑stelligen Bereich auf, wobei 3 Studien jeweils mehr als 1000 Datensätze umfassen (Dahle et al. 2009; Eher et al. 2012b; Rettenberger et al. 2013). Zu berücksichtigen ist, dass meist das durchschnittliche Alter bei Haftentlassung angegeben wird, sich jedoch auch Studien unter den Suchergebnissen befinden, die das Alter bei Begehung des Indexdelikts benennen oder zum Zeitpunkt der rechtskräftigen Verurteilung. Insgesamt ist das Durchschnittsalter der in den Studien erfassten Täter ähnlich.

Bezüglich des Nachbeobachtungszeitraums gab es deutliche Unterschiede. Die Studie von Stadtland et al. (2006) ist die einzige, bei der auch solche Datensätze berücksichtigt wurden, deren Follow-up weniger als ein Jahr (jedoch mindestens einen Monat) betrug. Gleichzeitig liegt hier die längste mittlere Nachbeobachtungszeit mit 9 Jahren vor. Mehrere Artikel berichten zusätzlich fixe Fünfjahresdaten (Eher et al. 2013, 2012b; Janka et al. 2012; Martens et al. 2017).

Die Studien legten ihren Fokus außerdem auf verschiedene Fragestellungen, sodass sich die Stichproben hinsichtlich der aufgenommenen Sexualstraftäter unterscheiden. Bei Endrass et al. (2009a) weisen 94 % der begutachteten Täter eine ICD-Diagnose auf, bei Stadtland et al. (2006) wird hingegen die Teilnahme an bzw. der Abbruch der Sozialtherapie berücksichtigt. Eine andere Stichprobe enthält lediglich pädosexuelle Täter (Rettenberger et al. 2011), deren Opfer zum Deliktzeitpunkt jünger als 14 Jahre alt waren. Ebenfalls nur PSK wurden bei Turner et al. (2016) berücksichtigt. Die Studie von Dahle et al. (2008) weist hingegen einen großen Anteil jugendlicher Sexualstraftäter auf.

Unterschiede ergaben sich dadurch auch im beobachteten mittleren Static-99-Wert. Innerfamiliäre PSK wiesen das geringste Rückfallrisiko auf (M = 0,88 bzw. M = 1,73), während außerfamiliäre PSK deutlich höhere Risikowerte erzielten (M = 3 bzw. M = 4,06; Eher et al. 2009; Turner et al. 2016). Der höchste durchschnittliche Static-99-Wert von M = 4,47 ergab sich bei den Maßregelpatienten (Eher et al. 2013) und auch bei Tätern mit ICD-Diagnose (M = 4; Endrass et al. 2009a).

Rückfälligkeit

Bei den meisten Studien wurde das Kriterium der Rückfälligkeit als erneuter Eintrag ins Strafregister bzw. als Wiederverurteilung operationalisiert. In den beiden Artikeln von Dahle et al. (2008, 2009) wurden erneute polizeiliche Erkenntnisse im Raum Berlin als Rückfallkriterium genutzt, wobei eingestellte Verfahren mangels Beweisen und gerichtliche Freisprüche nicht als Rückfall gewertet wurden. Endrass et al. (2009b) bezogen lediglich Wiederverurteilungen mit einer Freiheitsstrafe von mindestens 10 Monaten in die Rückfallraten ein.

In den betrachteten Studien wurde die Art der erneuten Straftaten unterschieden. Dabei stehen neuerliche sexuell motivierte Taten im Vordergrund, die z. T. noch in sexuelle Hands-on- und Hands-off-Delikte unterteilt wurden. Sexuelle Hands-off-Delikte machen i. Allg. den geringeren Anteil der erneuten Sexualstraftaten aus (Etzler et al. 2018; Stadtland et al. 2006). Die geringste sexuelle Rückfallrate berichteten Eher et al. (2009) mit 3,82 % in einem durchschnittlichen Beobachtungszeitraum nach Entlassung von fast 4 Jahren. Stadtland et al. (2006) hingegen fanden nach einem mittleren Beobachtungszeitraum von 99 Jahren einen Rückfall mit einem sexuellen Hands-on-Delikt bei 27,6 % der entlassenen Täter. So hohe Zahlen wurden sonst nur bei kleinen Stichproben (Endrass et al. 2009a; Rettenberger und Eher 2006) oder im Raum Berlin (Dahle et al. 2008, 2009) gefunden. In diesen Studien war die allgemeine Gesamtrückfallrate ebenfalls am höchsten mit Werten zwischen 46 und 57,5 %. Dass über die Hälfte der Täter mit einer erneuten Straftat auffällig wurde, berichteten außerdem noch Janka et al. (2012).

Neben der Gesamtrückfälligkeit enthält Tab. 3 Angaben zu neuerlichen nichtsexuell motivierten Gewaltdelikten und zu Gewaltdelikten i. Allg., die ebenfalls sexuelle Hands-on-Delikte beinhalten. Die Rückfallraten der nichtsexuellen Gewalttaten sind hier in einigen Fällen höher als die der Sexualstraftaten. So beobachteten Eher et al. (2008) bei 6,2 % der Täter einen Rückfall mit einer erneuten Sexualstraftat, jedoch 14,6 % mit einem nichtsexuell motivierten Gewaltdelikt. Auch bei Etzler et al. (2018) waren Rückfälle mit nichtsexuellen Gewalttaten (18,8 %) häufiger als erneute Sexualstraftaten (11 %). Es wurden allerdings auch gegenteilige Befunde berichtet (u. a. Endrass et al. 2009a; Rettenberger und Eher 2006).

Tab. 3 Rückfallraten der Stichproben in Prozent je nach Rückfallstraftat

Außerdem kann, wie in Tab. 6 dargestellt, ein Unterschied im rückfälligen Tatverhalten beim Vergleich des Tätertypus festgestellt werden (Eher et al. 2008). Während PSK häufiger mit einem erneuten Sexualdelikt auffällig wurden, begingen PSE eher eine nichtsexuelle Gewalttat. Rückfälle mit sexuellen Hands-off-Delikten wurden von Eher et al. (2008) lediglich bei der Gruppe der PSK beobachtet (5,2 %). Die beiden Studien von Rettenberger et al. (2010) und Turner et al. (2016) ermöglichen außerdem einen Vergleich zwischen inner- und außerfamiliären PSK. Demnach wurden innerfamiliäre PSK insgesamt seltener rückfällig (14,8 % bzw. 18,3 %) als außerfamiliäre PSK (22,8 % bzw. 43,9 %). Eine erneute sexuelle Straftat begingen nur 0,9 % bzw. 2,4 % der innerfamiliären PSK. Die spezifische Rückfälligkeit lag bei außerfamiliären PSK mit 12 % bzw. 25,8 % ebenfalls deutlich höher.

Insgesamt besteht ein positiver Zusammenhang zwischen dem in den Originalarbeiten berichteten mittleren Static-99-Score der Stichprobe und der Rückfallrate. Je höher der Mittelwert der Risikoprognose, desto mehr Rückfälle wurden beobachtet. So ist der durchschnittliche Static-99-Wert bei innerfamiliären PSK relativ klein, die Rückfallereignisse sind aber auch dementsprechend selten (Turner et al. 2016; Rettenberger et al. 2010). Wohingegen die Stichprobe der Maßregelpatienten eine im Mittel hohe Risikoeinschätzung erhielt und diese auch „erfüllt“ wurde (Eher et al. 2013).

Prädiktive Validität des Static-99

Eine Übersicht über die Gültigkeit der Rückfallprognosen anhand des Static-99 mit Angabe der jeweiligen AUC-Werte gibt Tab. 4, da diese in allen Studien angegeben wurden und sich somit die Ergebnisse vergleichen lassen. Zudem wurde der anhand der Stichprobengröße gewichtete AUC-Mittelwert über alle Studien hinweg berechnet. In Abb. 1 und 2 ist die prädiktive Validität zudem mit den 95 %-Konfidenzintervallen dargestellt.

Tab. 4 Prädiktive Validität des Static-99 als „area under the curve“ (AUC) je nach Rückfallstraftat
Abb. 1
figure 1

Prädiktive Validität (AUC) des Static-99 im Hinblick auf die Gesamtrückfälligkeit, mit über die Stichprobengröße gewichtetem Mittel und 95 %-Konfidenzintervallen

Abb. 2
figure 2

Prädiktive Validität (AUC) des Static-99 im Hinblick auf die Rückfälligkeit mit einem erneuten Sexualdelikt, mit über die Stichprobengröße gewichtetem Mittel und 95 %-Konfidenzintervallen

Wenn es um die allgemeine Vorhersage einer erneuten Straftat geht, wurden in den Studien AUC-Werte zwischen 0,64 und 0,76 erreicht. Das gewichtete AUC-Mittel liegt bei 0,71, bei der Prognose von neuerlichen Sexualdelikten bei 0,72. Dort erreichte die Validität Werte zwischen AUC = 0,66 und AUC = 0,83 und bewegt sich somit im Bereich der moderaten bis hohen Vorhersagegüte. Eine Ausnahme bildet die Studie von Endrass et al. (2009a), bei der lediglich eine Vorhersagegenauigkeit auf Zufallsniveau (AUC = 0,50; n.s.) erreicht wurde. Die prädiktive Validität des Static-99 zur Prognose von Gewaltstraftaten konnte in ähnlichem Maß bestätigt werden, sowohl für nichtsexuell motivierte (AUC = 0,68) als auch für Gewalttaten i. Allg. (AUC = 0,72). Etzler et al. (2018) berichten zusätzlich die Gültigkeit der Vorhersage für sexuelle Hands-off-Delikte mit einem AUC-Wert von 0,84 (p < 0,01). Die prädiktive Validität des Static-99 zur Vorhersage erneuter sexueller Hands-on-Delikte liegt bei einer mittleren AUC von 0,70. Auch die Risikokategorien des Static-99 erwiesen sich zur Prognose sexueller Straftaten als höchst valide (AUC = 0,82; p < 0,01; Rettenberger et al. 2011).

Validität nach Alter

Drei der im deutschsprachigen Raum durchgeführten Studien untersuchten die Validität des Static-99 in Abhängigkeit vom Alter der Täter (Dahle et al. 2008, 2009; Janka et al. 2012). Bei Dahle et al. (2008, 2009) wurden keine signifikanten Unterschiede zwischen den 3 untersuchten Altersgruppen festgestellt, weder bei der Prognose erneuter Sexualstraftaten noch für nichtsexuell motivierte Gewaltdelikte (Tab. 5). Janka et al. (2012) fanden den höchsten AUC-Wert von 0,87 (p < 0,001) in der 4. Altersgruppe der mindestens 50-Jährigen bei der Vorhersage einer neuerlichen Sexualstraftat. Der Static-99 erwies sich in dieser Stichprobe auch für die jüngste Gruppe als sehr valide (AUC = 0,80; p < 0,01). Die Ergebnisse ähnlicher Altersgruppen in den Studien von Dahle et al. (2008, 2009) zeigten eine prädiktive Validität der Vorhersage weiterer sexueller Delikte zwischen AUC = 0,64 und AUC = 0,69 für Jugendliche und Heranwachsende auf. Demnach ist die moderate bis hohe Güte des Static-99 auch in verschiedenen Altersgruppen empirisch bestätigt.

Tab. 5 Prädiktive Validität des Static-99 als „area under the curve“ (AUC) in Abhängigkeit von Alter und Rückfallstraftat

Validität nach Tätertypus

Einige Studien überprüften die Anwendbarkeit des Static-99 bei verschiedenen Tätergruppen wie PSK oder PSE. Drei Artikel unterschieden zudem zwischen inner- und extrafamiliären PSK (Eher et al. 2009; Rettenberger et al. 2010; Turner et al. 2016). Die Ergebnisse sind in Tab. 6 und 7 zu finden. Es zeigt sich, dass die Vorhersagegüte bei PSK höher ausfiel als bei PSE (u. a. Martens et al. 2017). Insbesondere die Wahrscheinlichkeit für Rückfälle mit Sexualstraftaten konnte bei PSK höchst valide angegeben werden (AUC-Werte zwischen 0,79 und 0,82; u. a. Etzler et al. 2018; Rettenberger et al. 2013).

Tab. 6 Rückfälligkeit in Prozent (%) und prädiktive Validität (AUC) getrennt nach Rückfallstraftat und Tätertypus: PSK vs. PSE
Tab. 7 Prädiktive Validität des Static-99 als „area under the curve“ (AUC) je nach Rückfallstraftat und Tätertypus

Stadtland et al. (2006) befassten sich hingegen mit der Vorhersagegültigkeit des Static-99 bei Tätern, die eine Sozialtherapie absolvierten, im Gegensatz zu solchen, die diese abbrachen. Die Validität bezüglich der Vorhersage erneuter Gewaltdelikte inklusiver solcher, die sexuell motiviert waren, unterschied sich jedoch nicht signifikant zwischen den beiden Gruppen und war jeweils sehr gut (AUC = 0,72 ohne Abbrecher, p < 0,001; AUC = 0,71 mit Abbrechern, p < 0,001). In der Studie von Eher et al. (2013) wurden die Daten von Maßregelpatienten berücksichtigt. Dabei wurde für die Rückfallprognose irgendeiner weiteren Straftat die höchste Validität mit einem AUC-Wert von 0,86 (p < 0,001) erreicht. Im Vergleich zu den Untergebrachten ergab sich bei den Strafgefangenen ein Wert von AUC = 0,73 (p < 0,001), was ebenfalls einer hohe Vorhersagegüte entspricht.

Validität nach Risikogruppen

Da dem Static-99-Wert jeweils eine Risikogruppe zugeordnet werden kann, stellt sich die Frage, inwieweit diese die beobachteten Rückfallereignisse valide vorhersagt. Hierzu finden sich ebenfalls zahlreiche Ergebnisse in der Literatur. Einig sind sich die Forscher mehrheitlich darüber, dass die Anzahl der erneut bekannt gewordenen Sexualdelikte mit zunehmender Risikokategorie steigt (u. a. Dahle et al. 2009; Eher et al. 2013). Endrass et al. (2009b) gaben hierzu eine „odds ratio“ von 3057 bezüglich der Rückfälle pro Anstieg der Risikogruppe an. Auch die Rückfallrate für allgemeine weitere Straftaten oder Gewaltdelikte war umso größer, je höher die Risikoeinstufung ausfiel (Eher et al. 2009; Endrass et al. 2009a).

Eher et al. (2008) untersuchten die Tätergruppen PSK und PSE getrennt, wobei sie jedoch bei den PSE keinen Zusammenhang zwischen der zugewiesenen Risikogruppe und den sexuell motivierten Rückfallereignissen feststellen konnten. Bei den erneuten Gewaltstraftaten durch PSE wurde hingegen ein kontinuierlicher prozentualer Anstieg beobachtet. In der Gruppe der PSK war auffällig, dass selbst in der höchsten Risikokategorie mit einem Static-99-Wert ≥6 „nur“ 19,05 % mit einem Gewaltdelikt, inklusive sexueller Hands-on-Delikte, rückfällig wurden.

In der Studie von Rettenberger et al. (2013) wurde außerdem die Gültigkeit der Risikokategorien für 5 verschiedene Altersgruppen betrachtet. Hier stieg die Rückfallrate der Sexualdelikte mit zunehmender Risikoeinschätzung – außer in der jüngsten (18- bis 29-Jährige) und ältesten Gruppe (ab 60 Jahren), in denen für Täter der höchsten Risikogruppe nur sehr wenige sexuell motivierte Rückfälle vermerkt wurden (3,2 % bzw. 9,1 %). Die Rückfallrate von Gewalttaten konnte in allen Altersbereichen anhand der Risikokategorien fast ausnahmslos mit kontinuierlich ansteigenden Deliktzahlen vorhergesagt werden.

Diese Ergebnisse zur zunehmenden Rückfälligkeit weisen bereits auf die prädiktive Validität der Risikogruppen des Static-99 hin. Bestätigt wird diese Annahme durch Endrass et al. (2009b), die eine hohe Vorhersagegüte der Risikokategorien von AUC = 0,76 berichteten. Zwei weitere Artikel unterstützen die prädiktive Validität der Risikogruppen bei PSK (Etzler et al. 2018; Rettenberger et al. 2011). Ersichtlich wird, dass die Prognose erneuter Sexualdelikte (AUC = 0,79 bzw. 0,82, p < 0,01) oder auch irgendeiner weiteren Straftat (AUC = 0,71 bzw. 0,66, p < 0,01) anhand der Zuordnung zu einer Risikogruppe im moderaten bis hohen Bereich gültig ist. Jedoch wurden keine signifikanten Werte für nichtsexuell motivierte Gewalttaten gefunden (AUC = 0,62 bzw. 0,60, n.s.).

Prognostische Bedeutung einzelner Items

Dahle et al. (2008, 2009) beschrieben neben der prädiktiven Validität des Static-99 als Ganzes auch die prognostische Bedeutung der einzelnen Items. In beiden Studien stand Item Nr. 5 „frühere Anklagen oder Verurteilungen wegen sexuell motivierter Taten“ im größten Zusammenhang mit der Vorhersage einschlägiger Rückfälle (Phi = 0,37, p < 0,01 bzw. r = 0,27, p < 0,001). Wichtig für die Gültigkeit der Prognose waren daneben auch Items Nr. 4 (Phi = 0,15, p < 0,01 bzw. r = 0,11, p < 0,001) und 6 (Phi = 0,22, p < 0,01 bzw. r = 0,19, p < 0,001), die sich ebenfalls auf vorherige Taten beziehen, sowie Item Nr. 10, das angibt, ob es je ein männliches Opfer gab (Phi = 0,24, p < 0,01 bzw. r = 0,13, p < 0,001).

Diskussion

Die dargestellten Ergebnisse zeigen, dass die prädiktive Validität des Static-99 auch im deutschsprachigen Raum moderat bis sehr hoch ist und ähnliche Werte aufweist wie in internationalen Studien (Eher et al. 2008; Noll et al. 2006). Dabei ist der Static-99 gleichermaßen für die Vorhersage von neuerlichen Sexual- sowie Gewaltstraftaten geeignet (u. a. Rettenberger et al. 2013). Ebenso sind Prognosen zur allgemeinen Rückfälligkeit valide (u. a. Eher et al. 2012a). Die erfassten Rückfallraten für erneute Sexualdelikte liegen mit 3,8–23 % ebenfalls im internationalen Durchschnitt (Nunes et al. 2002). Zu beachten sind hierbei immer die Operationalisierung des Konstrukts sowie die bestehende Dunkelziffer. Trivial ist, dass die Rückfallrate geringer ausfällt, wenn lediglich erneute Inhaftierungen berücksichtigt, aber weitere Verurteilungen ohne Haftstrafe nicht als Rückfall gezählt werden (Endrass et al. 2009b). Hierdurch kann es zu Verzerrungen kommen, die auch die Erfassung der prädiktiven Validität beeinflussen. Zudem haben die geringen Rückfallbasisraten den Effekt, dass die Wahrscheinlichkeit steigt, das Rückfallrisiko zu überschätzen (Hood et al. 2002). Es kommt zu vielen „Falsch-positiv“-Fällen, also Einschätzungen, bei denen Tätern ein hohes Risiko zugesprochen wird, die aber tatsächlich nicht rückfällig wurden. Diese Fehlprognosen schränken den tatsächlichen praktischen Nutzen eigentlich valider Instrumente ein (dazu auch ausführlich: Eher et al. 2008).

Die Ergebnisse zeigen, dass die prädiktive Validität im deutschsprachigen Raum zwischen AUC-Werten von 0,67 und 0,76 variiert. Im Durchschnitt liegt sie bei AUC = 0,71. Demnach hat ein rückfälliger Sexualstraftäter mit einer Wahrscheinlichkeit von 71 % einen höheren Risikowert im Static-99 als eine nicht wieder auffällige Person. Dies bedeutet jedoch, dass in knapp einem Drittel aller Fälle ein nichtrückfälliger Täter einer höheren Risikogruppe zugeordnet wird als ein rückfälliger Täter. Ebenfalls problematisch ist, dass selbst in der Hochrisikogruppe nur ca. 50 % der Täter rückfällig wurden (u. a. Eher et al. 2008) und somit das Verhalten der anderen Hälfte nicht der Vorhersage entspricht. Dies ist in Anbetracht weniger Opfer als erwartet zwar positiv und wünschenswert, zeigt aber, dass ein moderater bzw. hoher Validitätsindex nicht ohne Weiteres fehlerfreie Prognosen versprechen kann. Dennoch sind die Vorhersagegüte und der Static-99 als Instrument zur Erstellung von Kriminalprognosen sehr bedeutend, da sie einen wichtigen Beitrag zur empirisch gesicherten, forensischen Entscheidungsfindung leisten.

Weiterhin sind bei der Gegenüberstellung der Forschungsergebnisse die unterschiedlich langen Beobachtungszeiträume von im Mittel 3 bis 9 Jahren zu bedenken. Fixe Fünfjahresdaten wären besser geeignet, da die AUC-Werte die Unterschiede in den variierenden Follow-up-Perioden nicht berücksichtigen (Helmus und Babchishin 2017). Außerdem stellen feste Beobachtungszeiträume bei Vergleichen sicher, dass Unterschiede in den Rückfallraten nicht durch zeitlich gegebene oder genommene Möglichkeiten zu neuem kriminellen Verhalten zustande kommen. Eine kurze „time at risk“ hat zur Folge, dass Täter nicht erfasst werden, die erst später rückfällig bzw. verurteilt werden. Deshalb wird diskutiert, inwieweit längere Zeitspannen mehr Rückfälle beinhalten (Hanson 2018). Stadtland et al. (2006) stellen heraus, dass die meisten Täter bereits in den ersten Jahren erneut auffällig werden, aber die Rate der Rückfallereignisse erst nach etwa 12 Jahren deutlich abnimmt. Hanson et al. (2014) weisen ebenfalls darauf hin, dass das Rückfallrisiko nicht zeitlich stabil ist, sondern sich alle 5 Jahre um ca. 50 % verringert. Demnach erscheint es sinnvoll, fixe Beobachtungszeiträume von 10 Jahren anzustreben, um Rückfälle zu erfassen. Methodisch werden die meisten Studien zur prädiktiven Validität retrospektiv durchgeführt, da ein prospektives Vorgehen sehr viel aufwendiger ist. Um die Bestätigungstendenz („confirmation bias“) des retrospektiven Vorgehens zu vermeiden, waren die Beurteiler in den vorliegenden Studien bei der Einschätzung der Static-99-Werte der Täter hinsichtlich der tatsächlichen Rückfallereignisse blind.

Die Validität des Static-99 zeichnete sich bereits in dem bestehenden positiven Zusammenhang zwischen den mittleren Static-99-Scores und der Rückfallrate der Stichproben ab. Bei sich erhöhender Risikokategorie wurde ebenfalls wie erwartet eine steigende Rückfallrate beobachtet. Dies konnte sowohl für verschiedene Indextaten (u. a. Endrass et al. 2009b) als auch verschiedene Altersgruppen bestätigt werden (Rettenberger et al. 2013).

Dass der Static-99 sowohl für PSK als auch für PSE geeignet ist, konnte hier mehrfach gezeigt werden. Besonders valide Aussagen lassen sich nach derzeitigen Erkenntnissen v. a. über sexuell motivierte Rückfalltaten bei PSK treffen (u. a. Etzler et al. 2018). Für die Gruppe der PSE konnten Eher et al. (2008) allerdings keine unterstützenden Ergebnisse berichten (AUC = 0,54, n.s.), wobei dieser Wert zunächst als alleinige Ausnahme gegen die ansonsten hypothesenbestätigenden Artikel steht (u. a. Martens et al. 2017). Da in der Gruppe der PSE die geringste prädiktive Validität zu finden war, ist diese Gruppe in der zukünftigen Forschung näher zu betrachten.

An dieser Stelle sei außerdem auf eine Studie von Hill et al. (2012) hingewiesen, bei der eine deutschsprachige Stichprobe von Sexualmördern betrachtet wurde. Für diese spezifische Stichprobe konnten keine signifikant validen Aussagen hinsichtlich der Rückfälligkeit getroffen werden (AUC zwischen 0,54 und 0,60). Der sonst valide Static-99 kann demnach nicht uneingeschränkt für jede Täterkategorie im gleichen Maße genutzt werden.

Positiv ist, dass die meisten Erhebungen zwischen den verschiedenen Rückfallstraftaten unterscheiden und somit eine Differenzierung der prädiktiven Validität bezüglich neuerlicher Sexual- oder Gewaltdelikte möglich ist. Auch Erkenntnisse zur allgemeinen Rückfallprognose konnten auf diese Weise abgegrenzt werden. Anzuregen ist die vermehrte Unterteilung von Sexualdelikten in Hands-on- und Hands-off-Straftaten im deutschsprachigen Raum, da insbesondere zu sexuell motivierten Taten ohne körperlichen Kontakt kaum Untersuchungen vorliegen. Dies ist häufig auf die geringen Basisraten dieser Gruppe zurückzuführen. Allerdings macht es einen Unterschied, ob ein Täter „nur“ mit Exhibitionismus wieder auffällig wird oder es zu einer weiteren Sexualstraftat mit direktem Opfer kommt.

Auffällig sind die niedrigen AUC-Werte der Risikokategorien hinsichtlich der Vorhersage nichtsexueller Gewalttaten, die in 2 Artikeln berichtet wurden (Etzler et al. 2018; Rettenberger et al. 2011). Jedoch sei hier auf die Autoren Hanson und Thornton (1999) verwiesen, die in ihrer Arbeit schreiben: „Static-99 was designed to predict sex offence recidivism [… and] may not be the instrument of choice when the goal is predicting any violent recidivism“ (S. 17). Prinzipiell gilt, dass diagnostische Instrumente dann die validesten Aussagen ermöglichen, wenn sie für ihren definierten Rahmen genutzt werden (Hanson und Morton-Bourgon 2009). Beim Static-99 sind dies dementsprechend sexuell motivierte Rückfallstraftaten. Für gewalttätige Rückfälle wurde hingegen beispielsweise der Violence Risk Appraisal Guide – Revised (VRAG‑R; Rice et al. 2013) konzipiert, welcher zur Prognose genau dieses Tatbereichs angezeigt ist.

Darüber hinaus kann das Zusammenfassen der Static-99-Scores zu den Risikokategorien durchaus zu niedrigeren AUC-Werten führen (Howard 2017). Denn das Bündeln der Daten zu Gruppen geht mit einem Informationsverlust einher, der sich auf die Validität auswirkt (Cohen 1983).

Zudem sei auf die Stichprobenabhängigkeit von Kriminalprognoseinstrumenten hingewiesen (Urbaniok et al. 2007). Diese hat Einfluss auf Art und Anzahl der Rückfälle und daraus abgeleitete Normwerte, was sich wiederum auf die prädiktive Validität auswirkt. Bereits beim Vergleich der beiden Stichproben aus der Schweiz wird ersichtlich, dass es deutliche Abweichungen in den Ergebnissen gibt. Endrass et al. (2009a) konnten lediglich eine Vorhersage neuerlicher Sexualstraftaten mit einer Gültigkeit auf Zufallsniveau treffen, während dies bei der zweiten Täterpopulation (Endrass et al. 2009b) mit einem AUC-Wert von 0,76 möglich war. Da beide Stichproben aber recht klein sind, kann diese Differenz zufälligen Stichprobenfehlern geschuldet sein. Ansonsten wurden über die Ländergrenzen hinweg bis auf wenige Ausnahmen relativ homogene Ergebnisse gefunden. Allerdings ist anzumerken, dass zwei Drittel der Studien aus Österreich stammen und deutlich weniger Untersuchungen aus Deutschland oder der Schweiz. Ebenso wurden sie mehrheitlich von den gleichen Autoren durchgeführt und z. T. dieselben Stichproben erneut genutzt (Etzler et al. 2018; Rettenberger et al. 2013). Dadurch kann das Bild einheitlicher Ergebnisse positiv verzerrt sein. Nichtbekannte oder kaum kontrollierte Angaben sind zudem vorliegende Diagnosen bei den Tätern und v. a. Auskünfte zu angefangenen oder abgebrochenen Therapien. Ihr Einfluss auf die Rückfallrate wird nur in sehr wenigen Studien thematisiert (Eher et al. 2013; Stadtland et al. 2006), sie sollten jedoch als Variable mehr Beachtung finden. Leider sind diese Informationen für die empirische Forschung häufig nicht oder nur mit großem Aufwand zugänglich.

Die Publikationen zeigen, dass der Static-99 für alle Altersgruppen valide anwendbar ist, auch wenn Harris et al. (2003) von der Anwendung bei Jugendlichen abraten. In den deutschen Stichproben von Dahle et al. (2008, 2009) sprach die Vorhersagegüte jedoch nicht dagegen. Allerdings ist dies natürlich noch kein allgemein ausreichender Nachweis, zumal die nötigen Normstichproben für die Anwendung in dieser Altersgruppe fehlen und der Static-99 insofern angepasst wurde, dass Item Nr. 2 zu längeren partnerschaftlichen Beziehungen entfiel. Diese Studien deuten aber darauf hin, dass der Static-99 als Prognoseinstrument auch für Jugendliche weiterentwickelt werden kann, zumal Studien, die ältere Kohorten betrachteten, ebenfalls eine gute prädiktive Validität für alle Altersgruppen feststellen konnten (Janka et al. 2012). Der Frage nach der Relevanz des Alters für die Rückfallvorhersage wurde bereits in einigen internationalen Untersuchungen nachgegangen (Barbaree und Blanchard 2008; Hanson 2002) und war maßgeblicher Bestandteil der Revidierung des Instruments (Static-99R, Helmus et al. 2012).

Wenige Forschungsergebnisse gibt es bislang zur Bedeutung der einzelnen Items des Static-99. Die dazu gefundenen Studien im deutschsprachigen Raum beziehen sich auf Sexualstraftäter in Berlin (Dahle et al. 2008, 2009). Sie kamen zu dem Schluss, dass insbesondere Informationen zu vorherigen Taten relevant für die Prognose weiterer Delikte sind. Immerhin machen solche Angaben zur kriminellen Vorgeschichte die Hälfte der Items des Static-99 aus. Wünschenswert wären hierzu weitere Untersuchungen, auch um Erkenntnisse über ggf. weniger bedeutsame Items zu erhalten.

Ausblick

Publikationen aus Deutschland sind derzeit wenig vertreten und beschränken sich hauptsächlich auf Berlin. Ob Daten aus dieser Großstadt dabei repräsentativ für das Land stehen können, ist fraglich. Deshalb ist hier mehr Forschung notwendig. Die in den dargestellten Studien gezogenen Stichproben beinhalteten in der Mehrheit aus der Haft entlassene Täter, wobei auf Bewährung verurteilte Täter aus den Erhebungen herausfielen. Interessant wäre zu untersuchen, inwiefern sich die Rückfallraten und die prädiktive Validität des Static-99 bei inhaftierten Tätern von lediglich Verurteilten unterscheiden. Sind Sexualstraftäter ohne Freiheitsstrafe tatsächlich weniger rückfallgefährdet? Wie valide können mit einem Kriminalprognoseinstrument wie dem Static-99 hier Einschätzungen abgegeben werden?

Ein aufgrund sehr kleiner Basisraten wenig untersuchtes Feld sind weibliche Sexualstraftäterinnen. Dabei ist diese Tätergruppe deutlich größer als bisher angenommen (Cortoni et al. 2017; Elliott 1994), und die Folgen für die Opfer sind nicht weniger schwerwiegend als bei männlichen Tätern. Männliche Sexualstraftäter stellen zwar den größeren Anteil dar, jedoch könnten Überlegungen zur Rückfallvorhersage bei Frauen ebenfalls zu weiterführenden Erkenntnissen anregen. Inwiefern der Static-99 in einer modifizierten Form hier eine Möglichkeit darstellt, bleibt abzuwarten.

Für die Praxis stellen sich vielmehr die Fragen, welches Tatverhalten bei Sexualstraftätern tatsächlich vorhersehbar ist, und ab welchem Risikowert eine Entscheidung (beispielsweise zur Maßnahmenlockerung im Rahmen der Besserung und Sicherung) erneut überdacht werden sollte. Ein großes Risiko bedeutet in vielen Fällen, dass es zu einem allgemeinen Rückfall, nicht jedoch zu einer weiteren Sexualstraftat kommt. Wie soll damit umgegangen werden? Sollen prinzipiell erneute Straftaten verhindert werden, oder soll der Fokus auf Gewalt- und Sexualdelikten liegen? Eine neue Perspektive kann ein Verfahren bieten, das im Vorhinein zwischen schweren und leichteren Rückfalltaten unterscheidet. Allerdings wäre auch eine erneute leichtere Tat gesellschaftlich nur schwer zu akzeptieren, wenn diese vorhersehbar war.

Fazit

Um ein umfassendes Bild über die Validität des Static-99 im deutschsprachigen Raum zu schaffen, wurden in dieser Arbeit die Ergebnisse einer umfangreichen Literaturrecherche in mehreren Schritten gegenübergestellt. Dabei konnte die Anwendbarkeit des Static-99 zur Unterstützung rechtskräftiger Entscheidungen mit zufriedenstellenden Validitätsindizes in verschiedenen Täterpopulationen bestätigt werden. Die Notwendigkeit weiterführender Forschung wurde dargelegt. Außerdem ist zu beachten, dass trotz moderater bis hoher Vorhersagegüte Fehleinschätzungen möglich sind. Diese sind der Tatsache geschuldet, dass bei Wahrscheinlichkeitsangaben nie alle Umstände und Umwelteinflüsse berücksichtigt werden können. Es sei deshalb darauf hingewiesen, dass auch ein valides aktuarisches Kriminalprognoseinstrument wie der Static-99 nie durch Laien oder als einziges Einschätzungsverfahren in einem Begutachtungsfall angewendet werden sollte.