Skip to main content
Top
Published in:

Open Access 29-08-2022 | Originalarbeit

Vorhersage von hydrologischen Abflusskennwerten in unbeobachteten Einzugsgebieten mit Machine Learning

Authors: DI Christoph Klingler, DI Dr. Moritz Feigl, DI Dr. Florian Borgwardt, DDI Dr. Carina Seliger, Univ.-Prof. DI Dr. Stefan Schmutz, DI Dr. Mathew Herrnegger

Published in: Österreichische Wasser- und Abfallwirtschaft | Issue 11-12/2022

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

Im Rahmen dieser Arbeit wurden Abflusskennwerte für Hochwasser (MJHQ), Mittelwasser (MQ) sowie Niederwasser (MJNQ, MJNQ7, Q95, Q98) für alle topografischen Einzugsgebiete der österreichischen Oberflächenwasserkörper inklusive der ausländischen hydrologischen Oberlieger-Regionen vorhergesagt. Die Regionalisierung der Abflusskennwerte wurde mit dem Machine-Learning-Modell XGBoost durchgeführt. Zentrale Grundlage für das Training von XGBoost war der LamaH-Datensatz, welcher für 859 beobachtete Einzugsgebiete in Zentraleuropa über 70 aggregierte Einzugsgebietseigenschaften und 15 meteorologische Zeitreihen umfasst. Anthropogene Beeinflussungen wie z. B. Jahresspeicher oder Überleitungen wurden durch zusätzlich erstellte Attribute bei der Vorhersage berücksichtigt. Die Testergebnisse haben gezeigt, dass bei der Vorhersage der Abflusskennwerte in unbeobachteten Einzugsgebieten mit einer Abweichung von rund 20 % zu rechnen ist, wobei diese Schätzung auch stark anthropogen beeinflusste Gebiete beinhaltet. Darüber hinaus wurden auch 90-%-Konfidenzintervalle der Vorhersagen mit einem Quantile-Random-Forest-Modell geschätzt und klassifiziert. Die Ergebnisse werden der Öffentlichkeit in Form von Shapefiles unter https://​doi.​org/​10.​5281/​zenodo.​6523372 kostenlos zur Verfügung gestellt.
Notes
Die Autoren C. Klingler und M. Feigl trugen zu gleichen Teilen zur Genese dieser Arbeit bei.

Datenverfügbarkeit

Es werden zwei Shapefiles unter https://​doi.​org/​10.​5281/​zenodo.​6523372 kostenlos und barrierefrei der Öffentlichkeit zur Verfügung gestellt: 1) „LamaH_observations“ enthält die sechs aus den beobachteten Zeitreihen berechneten Abflusskennwerte für 859 EZG des LamaH-Datensatzes. 2) In „OWK_predictions“ sind neben den sechs vorhergesagten Abflusskennwerten auch jeweils das 5. und 95. Perzentil sowie die daraus resultierende Unsicherheitsklasse für die OWK (9533 EZG) enthalten. Nähere Informationen zu den Attributen der Shapefiles sind in den beiliegenden Metadaten vorhanden. Darüber hinaus können auch für das Projekt aufbereitete Datengrundlagen (aggregierte Einzugsgebietseigenschaften) auf Anfrage zur Verfügung gestellt werden.

Anmerkungen

Wir haben mit größtmöglicher Sorgfalt sowie nach aktuellem Stand der Datenaufbereitung und -prozessierung gearbeitet und die Outputs laufend auf Plausibilität überprüft. Haftung für die bereitgestellten Daten wird aber weder von uns noch von den Providern der Datengrundlagen übernommen. Die Verwendung der zur Verfügung gestellten Daten erfolgt daher auf eigenes Risiko.

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

1 Einleitung

Hydrologische Abflusskennwerte beschreiben die Charakteristik eines Einzugsgebiets (EZG) und bilden die Basis für zahlreiche wasserwirtschaftliche und wissenschaftliche Anwendungen (Olden und Poff 2003). Neben der Planung und Bewirtschaftung von Wasserressourcen oder der Dimensionierung von Infrastruktur und Schutzbauten stellen Abflusskennwerte auch für die Einzugsgebietsklassifizierung (Sawicz et al. 2011; Wagener et al. 2007), Erkennung von zeitlichen Änderungen in EZG (Juston et al. 2014; Lebiedzinski und Fürst 2018; Sawicz et al. 2014), Modellvalidierung (Hrachowitz et al. 2014; Refsgaard und Knudsen 1996; Wesemann et al. 2018a, b) sowie die Diagnose der Modellstruktur (Coxon et al. 2014; Gupta et al. 2008; McMillan et al. 2011) eine essenzielle Informationsgrundlage dar.
Die Abflusskennwerte können dabei in jene für die Beschreibung der Abflussverteilung (z. B. MQ, Q95) sowie jene für die Abflussdynamik (z. B. Steigung der Abflussdauerlinie) eingeteilt werden. Die Ermittlung dieser Abflusskennwerte erfolgt standardmäßig aus einer beobachteten Abflusszeitreihe, womit die direkte Berechnung auf beobachtete EZG beschränkt ist. Da Informationen über hydrologische Abflusskennwerte aber oftmals an unbeobachteten Standorten (kein Abflusspegel) notwendig sind, besteht die Notwendigkeit einer Regionalisierung (Blöschl et al. 2013; Hrachowitz et al. 2013) – also der Transfer von lokal beobachteten Werten in unbeobachtete Gebiete, z. B. mit Hilfe von Prädiktoren wie Einzugsgebietseigenschaften.
Für die Regionalisierung von Abflusskennwerten wurden neben konzeptionellen bzw. prozessbasierten hydrologischen Modellen (Biondi und de Luca 2017; Donnelly et al. 2016; Westerberg et al. 2014; Zhang et al. 2014) auch lineare Regression unter anderem mit Clustering (Grandry et al. 2013; Laaha und Blöschl 2007; Nathan und McMahon 1992; Qamar et al. 2016; Shu und Ouarda 2012; Visessri und McIntyre 2016; Zhang et al. 2014, 2018), lineare Regression mit Ähnlichkeits- bzw. Pooling-Ansätzen (Burn 1990; Hannaford et al. 2013; Holmes et al. 2002; Kjeldsen et al. 2014; Oppel und Schumann 2020), oder geostatistische Verfahren (Blöschl et al. 2022; Pugliese et al. 2014; Viglione et al. 2013) verwendet. Zhang et al. (2018) verwendeten Regressionsbäume und konnten damit eine Steigerung der Prognosequalität gegenüber hydrologischen Modellen und der multiplen (log-normierten) linearen Regression erzielen. Prieto et al. (2019) regionalisierten Abflusskennwerte ebenfalls mithilfe von Regressionsbäumen, wobei die Abflusskennwerte in weiterer Folge bei der Parametrisierung eines hydrologischen Modells einbezogen wurden und so zu einer Steigerung der Modellgüte in unbeobachteten EZG führten. Grundsätzlich sind zur Vorhersage von Abflusscharakteristika (nicht‑)lineare Regressionsansätze meist besser als hydrologische Modelle geeignet, da Regressionsansätze ausschließlich für die Vorhersage eines einzelnen Abflusskennwerts trainiert werden, während hydrologische Modelle die gesamte kontinuierliche Abflusssituation abbilden (Zhang et al. 2018).
Unsicherheiten stellen bei jeder (hydrologischen) Vorhersage ein intrinsisches Element dar, welches für die Plausibilisierung der Modellergebnisse auch quantifiziert werden sollte. Bei der Regionalisierung von Abflusscharakteristika sind sowohl die beobachteten Zeitreihen, und dadurch auch die Zielgrößen, die Regressoren bzw. Prädiktoren genauso wie das Regionalisierungsverfahren selbst mit Unsicherheiten behaftet. Westerberg et al. (2016) haben die Unsicherheiten der beobachteten Abflusszeitreihen mittels eines Monte-Carlo-Stichprobenverfahrens abgeschätzt und die Unsicherheiten der Regionalisierung selbst mit einem gewichteten Gruppenansatz berücksichtigt. Die Ergebnisse zeigen, dass bei Nichtberücksichtigung der Unsicherheiten in den Abflusszeitreihen das Risiko einer Verzerrung der Regionalisierung besteht. Westerberg et al. (2016) zeigten weiters, dass die Unsicherheiten bei den Abflusskennwerten zur Abflussverteilung geringer sind als bei jenen zur Abflussdynamik, und dass bei Abflusskennwerten für Mittelwasser geringere Unsicherheiten zu erwarten sind als bei jenen für Hoch- oder Niederwasser. Yadav et al. (2007) haben durch regionalisierte Abflusskennwerte die Grenzwerte der festzulegenden Parameter von hydrologischen Modellen in unbeobachteten Einzugsgebieten einschränken können. Klima‑, Topografie- wie auch hydrogeologische Einzugsgebietseigenschaften waren bei der Regionalisierung der Abflusskennwerte die maßgebenden Prädiktoren. Zudem konnte festgestellt werden, dass die Güte der Regionalisierung stark von den einzelnen Abflusskennwerten abhängig ist. Laaha und Blöschl (2007) berücksichtigen die Unsicherheiten bei der österreichweiten Niederwasserabschätzung für Q95 durch die Ausgabe eines Konfidenzintervalls (Schätzwert ± Regressionsstandardfehler) anstelle eines Vorhersagewerts. Poggio et al. (2021) führten eine Regionalisierung inklusive Unsicherheitsabschätzung von Bodeneigenschaften auf globaler Ebene durch (SoilGrids 2.0). Dabei erfolgte die Vorhersage mit einem Quantile Random Forest (QRF; Meinshausen 2006), wobei im Gegensatz zu einem standardmäßigen Random Forest nicht nur der Vorhersagewert, sondern auch Quantile bereitgestellt werden. Anhand dieser Quantile lässt sich in weiterer Folge eine robuste Aussage über die Modellunsicherheit des Regionalisierungsverfahrens treffen.
Im Rahmen des Forschungsprojekts „aquaZoom“ – finanziert durch den Europäischer Meeres- und Fischereifonds (EMFF) bzw. das Bundesministerium für Landwirtschaft, Regionen und Tourismus (BMLRT) – wird das Produktionspotenzial von Aquakultur-Durchflussanlagen in ausgewählten Regionen detailliert abgeschätzt (siehe Artikel von Seliger et al. in der vorliegenden Ausgabe). Da für den Betrieb einer Durchflussanlage die Verfügbarkeit von frischem Wasser einen sehr wichtigen Faktor darstellt, sind Abflusskennwerte eine entscheidende Planungs- und Betriebsgrundlage (Buchart 2012). Im Rahmen dieser Arbeit werden daher Abflusskennwerte für Hochwasser (MJHQ), Mittelwasser (MQ) sowie Niederwasser (MJNQ, MJNQ7, Q95, Q98) mithilfe von Machine Learning (ML) für die topografischen EZG der österreichischen Oberflächenwasserkörper (UBA 2015) quantifiziert, damit diese in der Potenzialabschätzung berücksichtigt werden können.
Während die in der Hydrologie oft verwendeten prozessbasierten Modelle eine Struktur und Parametrisierung aufweisen, die ein physikalisches System widerspiegeln soll, bestehen ML-Modelle aus flexiblen mathematischen Strukturen. ML-Modelle weisen initial keine physikalisch interpretierbare interne Strukturen auf, haben aber den Vorteil, dass sie durch ihre Flexibilität komplexe Zusammenhänge, Strukturen und Muster in Daten sehr gut abbilden können (Klingler et al. 2022). Für eine umfassendere Einführung in die Anwendung von ML in der Hydrologie möchten wir auf die Beiträge in der ÖWAW-Ausgabe 7‑8/2021 (OEWAW 2021) verweisen.
Grundlage für diese Regionalisierung ist der LamaH-Datensatz, welcher für 859 beobachtete EZG in Zentraleuropa Abflusszeitreihen, über 70 Einzugsgebietseigenschaften und Zeitreihen für 15 verschiedene meteorologische Variablen enthält (Klingler et al. 2021a, b, c). Mit dieser außerordentlich umfassenden Datengrundlage erfolgt das Training des ML-Modells eXtreme Gradient Boosting (XGBoost; Chen und Guestrin 2016), wobei dies für alle Abflusskennwerte individuell erfolgt. Anschließend werden die gelernten Zusammenhänge auf die unbeobachteten OWK übertragen und schließlich die Unsicherheiten des Regionalisierungsverfahrens mit QRF quantifiziert.
Zusammenfassend ergibt sich die Originalität dieser Arbeit aus der Entwicklung einer robusten Methodik zur Vorhersage von sechs Abflusskennwerten in zahlreichen unbeobachteten EZG unter Quantifizierung der assoziierten Unsicherheiten. Die Ergebnisse werden der Öffentlichkeit in Form von Shapefiles kostenlos und barrierefrei zur Verfügung gestellt, damit auch weitere Forschungs- und Anwendergruppen Zugriff auf eine vollständig dokumentierte Datengrundlage haben. Der vorliegende Artikel ist als umfassende Dokumentation zu den bereitgestellten Shapefiles gedacht.

2 Datengrundlage und -aufbereitung

2.1 LamaH (Large-SaMple Data for Hydrology and Environmental Sciences for Central Europe)

Der LamaH-Datensatz umfasst für 859 EZG in Österreich sowie dessen ausländischen hydrologischen Oberlieger-Regionen (Abb. 1) ein Ensemble an Abflusszeitreihen, meteorologische Zeitreihen sowie über 70 verschiedene Einzugsgebietseigenschaften (Klingler et al. 2021a, b, c). Aus den täglichen Abflusszeitreihen (BAFU 2020; CHMI 2020; GKD 2020; HZB 2020; LUBW 2020) werden die sechs Abflusskennwerte (1) MJHQ (mittleres jährliches Hochwasser), (2) MQ (Mittelwasser), (3) MJNQ (mittleres jährliches Niederwasser), (4) MJNQ7 (mittleres niedrigstes 7‑Tages-Mittel), (5) Q95 (Abfluss welcher an 95 % der Zeit überschritten wird) sowie (6) Q98 (Abfluss welcher an 98 % der Zeit überschritten wird) für die hydrologischen Jahre 2003 bis 2017 (01.10.2002 bis 30.09.2017) als Zielgrößen für die Modellierung ermittelt.
Die Vielzahl der bereits in LamaH einheitlich berechneten statischen Attribute der Kategorien Topografie, Klimatologie, Hydrologie, Landbedeckung, Vegetation, Boden, Geologie sowie anthropogene Beeinflussung stellen eine umfassende Charakterisierung der hydrologischen Eigenschaften der EZG dar. Für dieses Projekt wurde auch das akkumulierte (Nutz‑)Volumen der verschiedenen Reservoir-Typen (z. B. Jahresspeicher) sowie die Einzugsgebietsflächenänderung durch anthropogene Wasserüberleitungen für alle EZG quantifiziert. Aus den ERA5-Land Zeitreihen (ERA5L 2020) berechneten wir darüber hinaus 30 meteorologische Kennwerte für die hydrologischen Jahre 2003 bis 2017 (Anhang A). Damit steht eine hohe Anzahl an Prädiktoren (90) für das Training der ML-Modelle zur Verfügung.

2.2 Oberflächenwasserkörper

Ein Oberflächenwasserkörper ist gemäß § 30a Abs. 3 WRG 1959 ein „einheitlicher und bedeutender Abschnitt eines Oberflächengewässers“ und stellt somit per definitionem einen homogenen Gewässerabschnitt dar. Die Oberflächenwasserkörper (Gesamtheit aller einzelnen Oberflächenwasserkörper) sind eine zentrale Grundlage für die wasserwirtschaftliche Kommunikation, Planung und Berichtslegung in Österreich (z. B. für die Zustandsbewertung nach der Wasserrahmenrichtlinie). Die Oberflächenwasserkörper umfassen zahlreiche Detailinformationen, wovon der Hauptteil im Nationalen Gewässerbewirtschaftungsplan (NGP) enthalten ist.
Die vorliegende Arbeit baut auf den rund 8000 Polygonen des Datensatzes OWK-Version NGP15 (UBA 2015) auf, welche die (Teil‑)EZG der Oberflächenwasserkörper darstellen. Diese Polygone decken dabei ausschließlich österreichisches Staatsgebiet ab, wodurch wichtige ausländische hydrologische Oberlieger-Regionen (z. B. Inn, March, Donau) nicht inkludiert sind. Da die Abflusskennwerte für das gesamte topografische EZG zu ermitteln sind, würde bei der Berechnung der Prädiktoren (z. B. topografische Einzugsgebietsfläche) von EZG mit staatsübergreifender Ausdehnung fundamentale Information aus dem Ausland fehlen. Daher werden die österreichischen (Teil‑)EZG der Oberflächenwasserkörper mit 1408 (Teil‑)EZG aus den Datensätzen „digitaler Hydrologischer Atlas Österreich“ (BMLRT 2007) sowie HydroATLAS (Linke et al. 2019) zusammengeführt, welche die ausländischen hydrologischen Oberlieger-Regionen abdecken. Bei der Zusammenführung der (Teil‑)EZG werden, wo notwendig (z. B. an den Grenzflächen der unterschiedlichen Datensätze), auch die Attribute für das Routing (upstream-downstream-Beziehung) angepasst. Darauf aufbauend erfolgt die Aggregierung der (Teil‑)EZG der verschiedenen Datensätze zu topografischen EZG – deshalb spielt auch die Auflösung der unterschiedlichen Datensätze keine Rolle. Im weiteren Textverlauf ist zwecks einer vereinfachten Kommunikation unter „OWK“ die Gesamtheit der topografischen EZG aller österreichischen Oberflächenwasserkörper sowie aller EZG der ausländischen Oberlieger-Regionen zu verstehen. Anschließend erfolgt für die OWK die Berechnung jener Attribute, welche beim Training des ML-Modells als Prädiktoren herangezogen werden. Dabei werden dieselben Datengrundlagen und Algorithmen wie bei der Berechnung der LamaH-Einzugsgebietseigenschaften herangezogen. Dadurch wird Konsistenz zwischen Trainings- (LamaH) und Vorhersagedatensatz (OWK) bewahrt.

3 Methoden

3.1 Modellierungs-Workflow

In diesem Abschnitt wird der individuell für jeden Kennwert angewandte Workflow beschrieben (Abb. 2), während Details zu den verwendenden ML-Modellen in den folgenden Abschnitten erläutert sind. Der Workflow unterteilt sich in zwei Modellanwendungen: I. Vorhersage und II. Unsicherheiten. Bei I. wird ein ML-Modell mit den beobachteten EZG aus LamaH für die Vorhersage des jeweiligen Kennwerts trainiert. Darauffolgend wird bei II. ein Quantil-Regressions-Modell mit den Vorhersagen von Modell I sowie den EZG aus LamaH trainiert, um dadurch die 5‑%- und 95-%-Quantile der Vorhersagen zu quantifizieren. Schlussendlich werden beide Modelle auf die unbeobachteten OWK angewendet, um den jeweiligen Kennwert und das dazugehörige 90-%-Konfidenzintervall vorherzusagen.
Vor dem Training werden aus den Abflusskennwerten Abflussspenden berechnet, um dieses unabhängig von der Einzugsgebietsgröße durchführen zu können. Die EZG aus LamaH werden in einen Trainings- (680 EZG) und Testdatensatz (170 EZG) unterteilt. Die Testdaten kommen dabei nicht beim Training zur Anwendung, sondern werden ausschließlich zur Quantifizierung der Modellgüte in Gebieten außerhalb der Trainingsgebiete herangezogen. Damit diese Testgebiete eine repräsentative Stichprobe darstellen, werden diese basierend auf einem stratifizierten Sampling zufällig ausgewählt. Dabei werden die EZG von LamaH basierend auf dem jeweiligen Kennwert in zehn Gruppen mit ähnlichen Werten eingeteilt und daraus jeweils 17 zufällig als Test-EZG ausgewählt. Nach Quantifizierung der Modellgüte anhand der unabhängigen Testdaten (Abschn. 4.1) werden die Modelle mit allen EZG aus LamaH trainiert (850 EZG). Schließlich erfolgt die Anwendung der trainierten Modelle auf die unbeobachteten OWK.

3.2 ML-Modell zur Vorhersage der Abflusskennwerte

Durch initiale Versuche, bei denen mehrere ML-Modelltypen miteinander verglichen wurden, konnten wir feststellen, dass sich eXtreme Gradient Boosting (XGBoost; Chen und Guestrin 2016) gut zur Vorhersage der Abflusskennwerte eignet. XGBoost ist ein auf Regressionsbäumen basiertes Ensemble-Modell. Dabei werden die einzelnen Regressionsbäume sukzessive trainiert, um die Residuen des Ensembles der jeweils vorhergehenden Regressionsbäume vorherzusagen und somit zu minimieren. Jeder Regressionsbaum erhält nur eine zufällig ausgewählte Teilmenge an Prädiktoren. Die Wichtigkeit einzelner Prädiktoren kann dabei durch die Ermittlung der durchschnittlichen Verbesserung der Vorhersage durch die Verwendung dieses Prädiktors abgeschätzt werden. Für eine genauere Beschreibung verweisen wir auf Feigl et al. (2021), wo eine Reihe an ML-Verfahren zur Vorhersage von Fließgewässertemperaturen in Österreich angewendet und getestet wurde.
XGBoost besitzt mehrere Hyperparameter (d. h. Parameter, welche nicht mithilfe der Daten automatisch angepasst werden), die vor dem eigentlichen Training festzulegen sind. Da diese eine große Auswirkung auf die Modellgüte haben können (Feigl et al. 2021) wird eine Bayes’sche Optimierung (Močkus et al. 1978; Snoek et al. 2012) zur Festlegung angewandt.
Die Bayes’sche Optimierung basiert auf Schätzung der Posterior-Verteilung der Modellgüte mittels eines Gauß-Prozesses. Anhand dieser Schätzung können die Hyperparameter bei jeder Iteration mit dem Ziel einer Maximierung der Modellgüte festgelegt werden. Anhang B beinhaltet eine Auflistung der festgelegten Bandbreite der einzelnen Hyperparameter sowie die Anzahl der Iterationen und weitere Spezifikationen bei der Optimierung von XGBoost. Zusätzlich zur Festlegung der Hyperparameter wird eine Auswahl an Prädiktoren durchgeführt, um eine mögliche Überanpassung an die Trainingsdaten auszuschließen. Dafür wird zuerst jeweils ein Modell mit allen Prädiktoren (Anhang A) trainiert und anschließend in drei unabhängigen Versuchsläufen die Prädiktorenauswahl verringert. Dabei verbleiben beim entsprechenden Modelltraining jene Prädiktoren in der Auswahl, welche mind. 1 %, 5 % oder 10 % der maximalen Feature Importance (Wichtigkeit eines Prädiktors) beim Versuch mit allen Prädiktoren aufgewiesen haben. Zur Anwendung kommt schlussendlich jene reduzierte Prädiktorenauswahl, welche die höchste Kreuzvalidierungs-Modellgüte zur Folge hat. Als Zielfunktion beim Training sowie zur Quantifizierung der Modellgüte wird der RMSE (Wurzel des mittleren quadratischen Abstandes, Gl. 1) verwendet:
$$RMSE=\sqrt{\frac{1}{n}{\sum }_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}$$
(1)
Dabei stellt n die Stichprobengröße (Anzahl der EZG), yi den vorhergesagten sowie \(\hat{y}_{i}\) den aus den beobachteten Zeitreihen berechneten Abflusskennwert des EZG i dar. Da es beim Training auch zu Überanpassungen kommen kann, wird die Modellgüte mittels einer 10-fachen Kreuzvalidierung (CV) mit 5‑facher Wiederholung geschätzt.

3.3 Machine-Learning-Modell zur Quantifizierung der Unsicherheit

Um die Unsicherheiten abschätzen zu können, wird eine Quantilsregression mit Random Forest durchgeführt (Breiman 2001; Meinshausen 2006). Random Forest (RF, Breiman 2001) ist wie XGBoost ebenfalls ein auf Regressionsbäumen basiertes Klassifikations- und Regressionsverfahren. Allerdings erfolgt das Training der einzelnen Regressionsbäume im Gegensatz zu XGBoost nicht sukzessive, sondern unabhängig und parallel. Dadurch ist meist ein deutlich schnelleres Training möglich. Für eine genauere Beschreibung von RF sei an dieser Stelle wieder auf Feigl et al. (2021) verwiesen. Bei einem Quantile Random Forest (QRF; Meinshausen 2006) werden neben dem Mittel der Ausgabewerte der einzelnen Regressionsbäume (Vorhersagewert eines RF) auch Quantile ausgegeben. Anhand dieser Quantile lässt sich die aus dem Regionalisierungsverfahren bedingte Unsicherheit abschätzen. Eine Aussage über die aus den Abflusszeitreihen sowie den Prädiktoren resultierenden Unsicherheiten ist damit jedoch nicht möglich. Der QRF verwendet dieselben Prädiktoren wie das XGBoost-Modell und darüber hinaus auch dessen Vorhersagewert. Dadurch kann die Information vom Vorhersagemodell verwendet und zugleich eine empirische Verteilung für diese geschätzt werden.

3.4 Klassifizierung der Unsicherheiten

Die Klassifizierung der Unsicherheiten erfolgt durch Berechnung der relativen Abweichung zum Vorhersagewert nach Gl. 2:
$$p_{\mathrm{diff}}=max\left[\frac{Q_{ub}-Q_{\mathrm{pred}}}{Q_{\mathrm{pred}}}{,}\frac{Q_{\mathrm{pred}}-Q_{lb}}{Q_{\mathrm{pred}}}\:\right]\cdot 100$$
(2)
Dabei stellt Qpred den vorhergesagten Abflusskennwert, Qlb das 5‑%-Quantil der Wahrscheinlichkeitsverteilung des QRF und Qub das 95-%-Quantil dar. Der Untersicherheitsgrad „sehr gering“ wird zugeteilt, wenn pdiff kleiner oder gleich 25 % beträgt. Ein „geringer“ Grad der Unsicherheit liegt vor, wenn pdiff größer als 25 % aber kleiner oder gleich 50 % ist. Ein „mittlerer“ Grad wird zugeteilt, falls pdiff größer als 50 % und kleiner oder gleich 100 % ist und ein hoher Unsicherheitsgrad ist bei über 100 % vorliegend. Falls der vorhergesagte Abflusskennwert die Schwelle von 10 l s−1 unterschreitet, erfolgt aufgrund der potenziell hohen relativen Abweichungen keine Zuweisung des Unsicherheitsgrads, sondern der Hinweis durch ein entsprechendes Attribut.

4 Ergebnisse

4.1 Modellgüte der Kennwertvorhersage

Die Modellgüte bei der Regionalisierung der Abflusskennwerte kann anhand der Ergebnisse in den Test-EZG abgeschätzt werden. Abb. 3 zeigt dabei die Boxplots des Betrags der relativen Abweichung (|Vorhersage-Beobachtung|*100/Beobachtung) für die sechs genannten Abflusskennwerte. Die Darstellung der Modellgüte mittels der relativen Abweichungen erlaubt eine Abschätzung der Modellgüte unabhängig von der Einzugsgebietsgröße. Gleichzeitig ist zu beachten, dass sich bei sehr geringen Abflüssen (z. B. 0,1 m3 s−1) potenziell sehr große prozentuelle Abweichungen bei relativ geringen absoluten Abweichungen ergeben können (z. B. ein Vorhersagewert von 0,2 m3 s−1 entspricht dort einer relativen Abweichung von 100 %). Dies trifft auf die meisten Ausreißer in den dargestellten Boxplots zu. Mit Medianwerten von 16 und 16,6 % weist die Vorhersage des MQ bzw. MJHQ die geringsten relativen Abweichungen auf. Die Modelle zur Vorhersage der Niederwasserkennwerte weisen im Vergleich dazu mit Medianwerten von 18,3 bis 22,2 % eine geringere Modellgüte auf, was primär auf die geringeren absoluten Abflusskennwerte zurückzuführen ist. Zusammenfassend zeigen die Ergebnisse, dass mit einer medianen relativen Abweichung von rund 20 % bei der Vorhersage der Abflusskennwerte in unbeobachteten EZG zu rechnen ist.
Zusätzlich wurde auch die Wichtigkeit der Prädiktoren der Modelle überprüft, um einen besseren Einblick in die Genese der Vorhersagen zu gewinnen. Eine Übersicht der jeweils fünf wichtigsten Prädiktoren für die sechs Modelle zur Vorhersage der einzelnen Abflusskennwerte ist in Anhang C aufgelistet – wobei die Auflistung dort unser hydrologisches Grundverständnis gut widerspiegelt. Prädiktoren mit einem hohen Einfluss auf die Vorhersage sind vor allem Niederschlagskenngrößen, Information, die Karstgebiete indizieren kann (Anteil Karbonatgestein), Topografie (Fläche, Flussdichte), Einfluss von Überleitungen und zusätzliche hydro-meteorologische Informationen (Temperatur, Schneewasseräquivalent, Evapotranspiration). Interessant ist bei der Auflistung in Anhang C, dass beim Modell zur Vorhersage des Hochwasserkennwerts MJHQ der Prädiktor MPmin (minimales Monatsmittel des Niederschlags) am zweithöchsten gewichtet wurde, wohingegen bei allen Vorhersagemodellen für die vier Niederwasserkennwerte der Prädiktor MPmax (maximales Monatsmittel des Niederschlags) unter den fünf wichtigsten Prädiktoren ist. Diese Reihung bzgl. MPmax und MPmin ist aus hydrologischer Sicht auf den ersten Blick kontraintuitiv. Eine mathematisch/statistische Erklärung dafür ist mitunter die höhere Pearson-Korrelation zwischen MPmax und den beobachteten Niederwasserspenden (Rmittel = 0,66), welche durchgehend höher ist als zwischen MPmin und den Niederwasserspenden (Rmittel = 0,62). Bei den beobachteten Hochwasserabflussspenden ist die Korrelation mit MPmin (R = 0,61) hingegen höher als mit MPmax (R = 0,56). Zudem muss beachtet werden, dass MPmin bzw. MPmax monatliche, die Abflusskennwerte hingegen tägliche Mittelwerte darstellen. Der abflussreichste Tag muss nicht im niederschlagsreichsten Monat liegen und vice versa. Hinsichtlich Anhang C ist schließlich anzumerken, dass sich die Reihenfolge bei einem abweichenden Modellierungs-Setting (z. B. Hyperparameter, Vorauswahl der Prädiktoren) auch (geringfügig) ändern kann.
Des Weiteren wurde auch die Güte der Unsicherheitsabschätzung in den Test-EZG überprüft. Der Übersichtlichkeit halber werden hier nur die Ergebnisse der Vorhersage von MQ dargestellt, welche repräsentativ für die Ergebnisse aller Abflusskennwerte sind. Abb. 4 beinhaltet die Darstellung der beobachteten und vorhergesagten MQ-Werte samt der geschätzten 90-%-Konfidenzintervalle. Abb. 4a zeigt die Ergebnisse aller Test-EZG, während in Abb. 4b nur jene EZG mit einem beobachteten MQ bis 400 m3 s−1 dargestellt werden. Die Ergebnisse in Abb. 4 zeigen, dass die Vorhersage im Test meist recht gut mit der Beobachtung übereinstimmt. Einzelne Beobachtungen (z. B. Gebiet mit dem höchsten MQ in Abb. 4a) weisen höhere Abweichungen zur Vorhersage auf, liegen aber noch innerhalb des 90-%-Konfidenzintervalls.

4.2 Vorhersage der Abflusskennwerte

Da alle OWK unbeobachtet sind, kann keine direkte Aussage über die relativen Abweichungen zu den Beobachtungen wie in Abschn. 4.1 getroffen werden. In Abb. 5a werden daher die an den Pegeln beobachteten Abflussspenden des Kennwerts Q95 – welche zwecks einer anschaulicheren räumlichen Darstellung auf die zugehörigen (Teil‑)EZG umgelegt sind – den in Abb. 5b dargestellten Vorhersagen für die OWK gegenübergestellt. Zu beachten ist dabei, dass die OWK mit 9533 EZG in etwa 10-mal so viele EZG wie der LamaH-Datensatz beinhalten, wodurch sich in Abb. 5b ein kontinuierlicheres Gesamtbild ergibt. Aufgrund der unterschiedlichen Polygongröße und -einteilung gestaltet sich die direkte optische Gegenüberstellung teilweise trügerisch. Ein gutes Beispiel dazu ist die Darstellung der Donau im Bereich von Wien (ca. 16°E/48°N). Die Donau-Teil-EZG reichen im LamaH-Datensatz in Abb. 5a teilweise weit in das Umland hinein, während in Abb. 5b die entsprechenden Teil-EZG nur den Flussschlauch abdecken. Insgesamt kann in Abb. 5 aber in den meisten Regionen eine hohe Übereinstimmung der räumlichen Muster der Beobachtungen (Abb. 5a) und Vorhersagen (Abb. 5b) der Q95-Abflussspenden festgestellt werden. Die größte Diskrepanz zwischen beobachteter und vorhergesagter Q95-Abflussspende liegt im zentralen Osten rund um den Neusiedlersee (ca. 16,8°E/47,8°N) vor. Grund dafür könnte eventuell der Mangel an Abflusspegeln (siehe Abb. 1) oder zu geringe Werte für die Evapotranspiration bei den zugrundeliegenden Prädiktoren (Unsicherheit der Einzugsgebietseigenschaften) in dieser (semi‑)arid-geprägten Region sein. Bemerkenswert ist darüber hinaus auch die Tatsache, dass die durch Überleitungen bedingten Veränderungen der Abflussspenden zum Beispiel in den EZG der Julia (Schweiz), des Kaunertals, hinteren Zillertals und Mölltals gut vorhergesagt werden. Ausschlaggebend dafür ist die in das Vorhersagemodell eingebundene Information zur Quantifizierung der überleitungsbedingten Einzugsgebietsflächenänderung in Form eines zusätzlichen Prädiktors („area_change“ in Anhang A). Die räumlichen Muster der anderen Abflusskennwerte sind ähnlich zu jenen von Q95 und werden im Anhang D dargestellt.

4.3 Quantifizierung der Unsicherheiten

Die nach Abschn. 3.4 klassifizierten Unsicherheitsgrade sind für die Abflusskennwerte MQ in Abb. 6a sowie Q95 in Abb. 6b räumlich dargestellt. Dabei ist klar erkenntlich, dass die durch die Regionalisierung bedingte Unsicherheit beim Mittelwasserkennwert MQ geringer ist als jene des Niederwasserkennwerts Q95, die Unsicherheiten bei großen EZG, welche sich entlang der dargestellten Flussverläufe befinden, geringer sind als bei kleinen EZG, und bei EZG mit höherer Abflussspende die Unsicherheiten geringer sind als bei Gebieten mit kleiner Spende (West-Ost Gefälle; siehe Abb. 5).
Die Begründung der Ursache für einen lokal hohen Unsicherheitsgrad in westlichen und zentralen Regionen kann nicht immer zweifelsfrei erfolgen. Teilweise wird diese durch eine geringe Einzugsgebietsgröße oder durch eine lokale anthropogene Beeinflussung bedingt sein. Interessant ist, dass in Regionen mit einem bekannten hohen Karstanteil, z. B. Schwäbische Alb (nördlich der Donau in deren oberster Flussregion) oder südliches Salzkammergut (ca. 14°E/47,7°N), aufgrund einer teilweise starken Änderung des abflusswirksamen EZG durch unterirdische und diffuse Abflüsse ein hoher Unsicherheitsgrad besteht und dieser auch durch das Modell attestiert wird. Die tendenziell hohen Unsicherheiten im Wein- und Waldviertel hängen wahrscheinlich mit den verhältnismäßig geringen Abflussspenden zusammen, die bei kleinen absoluten Abweichungen in der Vorhersage bereits zu hohen relativen Abweichungen führen. Ähnliches gilt für den tschechischen Teil der March, wobei hier zusätzlich die anthropogene Beeinflussung des Abflusses durch große Speicher eine Rolle spielen wird. In Abb. 6b fallen in der östlichen Region viele EZG in die Klasse „Q < 10 l/s“. Es ist davon auszugehen, dass dort aufgrund der tendenziell höheren relativen Abweichung bei kleinen Abflusswerten wahrscheinlich meist ein mittlerer oder hoher Grad der Unsicherheit bei den Niederwasserkennwerten vorliegend ist. Die räumliche Verteilung der Unsicherheitsgrade der Abflusskennwerte MJHQ, MJNQ, MJNQ7 sowie Q98 kann dem Anhang E entnommen werden.

5 Diskussion und Schlussfolgerung

Im Rahmen dieser Arbeit wurde die Regionalisierung von Abflusskennwerten samt Unsicherheitsabschätzung für ganz Österreich sowie alle ausländischen Oberlieger-Regionen mithilfe von ML-Modellen durchgeführt. Die Modelle verwenden zur Vorhersage eine Vielzahl an hydrologisch relevanten (Einzugsgebiets‑)Attributen und wurden auf die, aus den beobachteten Zeitreihen berechneten, Abflusskennwerte als Zielwert trainiert. Die Testergebnisse zeigen, dass im Median ein relativer Fehler von ca. 20 % bei der Vorhersage der Abflusskennwerte in unbeobachteten EZG zu erwarten ist. Dennoch stimmen die räumlichen Muster der vorhergesagten Abflusskennwerte der OWK gut mit den beobachteten Abflusskennwerten aus LamaH überein. Das Konfidenzintervall der Vorhersagen diente als Basis für die Unsicherheitsklassifizierung, wobei die resultierenden Grade der Unsicherheit mit unserem hydrologischen Grundverständnis gut übereinstimmen (z. B. West-Ost-Gefälle, Karstgebiete, anthropogene Beeinflussung und Überleitungen). Anzumerken ist jedoch, dass bei dieser Unsicherheitsabschätzung die Mess- und Schätzunsicherheiten der Prädiktoren und Abflusskennwerte nicht widergespiegelt werden können. Gleichzeitig wurde durch die Abschätzung der 90-%-Konfidenzintervalle aber per definitionem eine große Fehlerbandbreite berücksichtigt, welche bei den meisten Test-EZG um einiges größer als der Modellfehler war – und damit in weiterer Folge auch als ein „Puffer“ für die nicht-berücksichtigten Unsicherheitsquellen interpretiert werden kann.
Der Vergleich der Ergebnisse mit vorherigen Studien ist aufgrund mehrerer Umstände nicht direkt möglich. Die meisten Studien verwenden ausschließlich unbeeinflusste oder wenig anthropogen beeinflusste EZG. Da das Ziel dieser Arbeit aber eine flächendeckende Vorhersage von Abflusskennwerten für Österreich war, sind auch stark beeinflusste EZG (z. B. Überleitungen oder große Jahresspeicher) inkludiert worden. Neben der Wahl der EZG unterscheiden sich bei den meisten vergleichbaren Studien auch die Wahl der Abflusskennwerte, die zugrundeliegenden räumlichen Einheiten, die betrachteten Zeiträume sowie die Metriken zur Quantifizierung der Modellgüte. Trotz dieser Differenzen werden folgend die erzielten Ergebnisse in einen Kontext zu jenen von Zhang et al. (2018) sowie Viglione et al. (2013) gesetzt. Ein Vergleich mit der österreichweiten Studie von Laaha und Blöschl (2007) ist wenig repräsentativ, da dort die schlechtesten 5 % der Ergebnisse von der zusammenfassenden Auswertung ausgeschlossen wurden. Ein Vergleich mit Daten aus dem digHAO (BMLRT 2007) ist an dieser Stelle ebenfalls nicht zielführend, da dort unterschiedliche räumliche Einheiten und Zeiträume dargestellt sind.
Zhang et al. (2018) testeten für die Regionalisierung von Abflusskennwerten in 605 unbeeinflussten australischen EZG mehrere Methoden (hydrol. Modell, Regression, ML). Der relative RMSE (RMSE/mittlerer MQ) bei der Vorhersage des Kennwerts MQ lag im besten Fall bei 0,56. Im Vergleich dazu liegt der relative RMSE der Testergebnisse dieser Arbeit bei 0,44 und stellt somit eine höhere Modellgüte dar. Die Studie von Viglione et al. (2013) verwendete ein prozessbasiertes hydrologisches Modell mit einer Parameterregionalisierung zur Vorhersage von Abflusskennwerten in 213 wenig beeinflussten österreichischen EZG. Deren Ergebnisse resultierten in einem Bestimmtheitsmaß R2 von 0,61 für das normierte Q95 [‑] und 0,86 für MQ [mm Jahr−1]. Die Vergleichswerte der Testergebnisse der vorliegenden Arbeit liegen bei einem R2 von 0,64 für Q95 und 0,79 für MQ.
Die vorliegende Arbeit hat gezeigt, dass mit ML robuste Vorhersagen unter Angabe der Unsicherheitsabschätzung bei der Regionalisierung von Abflusskennwerten bereitgestellt werden können. Die berechneten Daten sind in dieser Form für Österreich einzigartig. Zudem ist im Vergleich zu hydrologischen Modellen die Vorhersage der Abflusskennwerte in neuen EZG mit deutlich weniger Aufwand verbunden, da nur die erforderlichen Prädiktoren (Einzugsgebietseigenschaften) aggregiert werden müssen und keine neuerliche Parametrisierung notwendig ist – sofern das ML-Modell einmal trainiert ist. Die vorhergesagten Abflusskennwerte werden samt Quantilen und Unsicherheitsklassifizierung kostenlos der Öffentlichkeit zur Verfügung gestellt und tragen daher zu einer Erweiterung der Datengrundlage für wasserwirtschaftliche Anwendungen in Österreich bei.

Danksagung

Die Datenverarbeitung wurde mit den frei verfügbaren Softwarepaketen R (R Core Team 2022), Python (Python Software Foundation 2022) sowie QGIS (QGIS Development Team 2022) durchgeführt. Besonderer Dank gebührt daher all jenen, die diese Open-Source-Software – sowie darauf aufbauende Pakete und Erweiterungen, z. B. Caret (Kuhn 2019), data.table (Dowle et al. 2014) oder XGBoost (Chen et al. 2016) – großteils unentgeltlich entwickelt haben oder jenen, die ihre wertvolle Anwendungserfahrungen in den zahlreichen Online-Foren teilen. Dank gilt auch der Universität für Bodenkultur Wien (BOKU), welche eine Open-Access-Förderung gewährt hat. Die vorliegende Arbeit wurde im Rahmen des Forschungsprojekts „aquaZoom“ durchgeführt, welches durch den Europäischen Meeres- und Fischereifonds (EMFF) sowie das Bundesministerium für Landwirtschaft, Regionen und Tourismus (BMLRT) finanziert wurde.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de.

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.
Appendix

Anhang

Anhang A

Tab. 1
Prädiktoren, die beim Training der ML-Modelle zur Vorhersage der Abflusskennwerte verwendet wurden
Attribut
Beschreibung
Einheit
Datenquelle
areaa
Topografische Einzugsgebietsfläche
km2
BMLRT (2007), Linke et al. (2019), UBA (2015)
area_change
Flächenänderung des EZG durch anthropogene Überleitungen
km2
elev_meana
Mittlere EZG-Höhe
m
NASA JPL SRTMGL1 V3 Digital Elevation 30 m
(Farr et al. 2007)
elev_meda
Mediane EZG-Höhe
m
Siehe oben
elev_stda
Standardabweichung der Höhenwerte im EZG
m
Siehe oben
elev_rana
Spannweite der Höhenwerte im EZG
m
Siehe oben
slope_meana
Mittlere Neigung im EZG
m km−1
Siehe oben
strm_densa
Gewässernetzdichte
m km−2
EEA (2019)
p_meana
Mittlerer täglicher Niederschlag
mm
ERA5L (2020)
et0_meana
Mittlere tägliche Referenz-Evapotranspiration
mm
Trabucco und Zomer (2019)
arid_2a
Aridität von Climate Database
Siehe oben
p_seasona
Saisonalität des Niederschlags, Berechnung über Sinus
ERA5L (2020)
frac_snowa
Anteil des Niederschlags, welcher im Mittel als Schnee fällt
Siehe oben
hi_prec_fra
Häufigkeit an niederschlagsreichen (mind 5 x p_mean) Tagen pro Jahr
d yr−1
Siehe oben
hi_prec_dua
Mittlere Dauer von niederschlagsreichen Perioden
d
Siehe oben
lo_prec_fra
Häufigkeit an niederschlagsarmen (max 1 mm/d) Tagen pro Jahr
d yr−1
Siehe oben
lo_prec_dua
Mittlere Dauer von niederschlagsarmen Perioden
d
Siehe oben
agr_fraa
Anteil an Agrarfläche
COR (2012)
bare_fraa
Anteil an kahler Fläche
Siehe oben
forest_fraa
Anteil an Waldfläche
Siehe oben
glac_fraa
Anteil an Gletscher
Siehe oben
lake_fraa
Anteil an Seeoberfläche
Siehe oben
urban_fraa
Anteil an versiegelter Fläche
Siehe oben
lai_maxa
Max monatliches Mittel des LAI (Leaf area index)
Myneni et al. (2015)
lai_diffa
Differenz zw max und min monatlichem Mittel des LAI
Siehe oben
ndvi_maxa
Max monatliches Mittel des NDVI (Normalized difference vegetation index)
Vermote (2015)
ndvi_mina
Min monatliches Mittel des NDVI
Siehe oben
gvf_maxa
Max monatliches Mittel der GVF (Green vegetation fraction)
Friedl und Sulla-Menashe (2019), Vermote (2015)
gvf_diffa
Differenz zw max und min monatlichem GVF
Siehe oben
bedrk_depa
Mittlere Tiefe zum Festgestein
m
Pelletier et al. (2016)
root_depa
Mittlere Bodenmächtigkeit
m
Hiederer (2013a, b)
soil_porosa
Bodenporosität
Siehe oben
soil_condua
Bodenkonduktivität
cm h−1
Tóth et al. (2017)
soil_tawca
Max Bodenwassergehalt (TAWC)
m
Hiederer (2013a, b)
sand_fraa
Sandanteil
Siehe oben
silt_fraa
Siltanteil
Siehe oben
clay_fraa
Tonanteil
Siehe oben
grav_fraa
Kiesanteil
Siehe oben
oc_fraa
Anteil an organischem Material
Siehe oben
gc_ig_fraa
Anteil der GLiM (Global LIthological Map database) Klasse „Eis und Gletscher“
Hartmann und Moosdorf (2012)
gc_mt_fraa
Anteil der GLiM Klasse „Metamorphite“
Siehe oben
gc_pa_fraa
Anteil der GLiM Klasse „saure Plutonite“
Siehe oben
gc_pb_fraa
Anteil der GLiM Klasse „basische Plutonite“
Siehe oben
gc_pi_fraa
Anteil der GLiM Klasse „intermediäre Plutonite“
Siehe oben
gc_py_fraa
Anteil der GLiM Klasse „Pyroklastika“
Siehe oben
gc_sc_fraa
Anteil der GLiM Klasse „karbonatisches Sedimentgestein“
Siehe oben
gc_sm_fraa
Anteil der GLiM Klasse „gemischtes Sedimentgestein“
Siehe oben
gc_ss_fraa
Anteil der GLiM Klasse „siliklastisches Sedimentgestein“
Siehe oben
gc_su_fraa
Anteil der GLiM Klasse „unkonsolidierte Sedimente“
Siehe oben
gc_va_fraa
Anteil der GLiM Klasse „saure Vulkanite“
Siehe oben
gc_vb_fraa
Anteil der GLiM Klasse „basische Vulkanite“
Siehe oben
gc_wb_fraa
Anteil der GLiM Klasse „Wasserflächen“
Siehe oben
geol_permea
Permeabilität des Festgesteins
Gleeson et al. (2014)
geol_porosa
Porosität des Festgesteins
Siehe oben
centr_lon
Längswert des EZG-Schwerpunktes im Koordinatensystem EPSG3035
m
centr_lat
Hochwert des EZG-Schwerpunktes im Koordinatensystem EPSG3035
m
vol_A
Akkumuliertes Nutzvolumen von Jahresspeichern, relevant ist Reservoirauslass
hm3
vol_As
Spezifisches akkum Nutzvolumen der Klasse A (= vol_A*1000/area)
mm
vol_C
Akkumuliertes Retentionsvolumen (= Oberfläche × 1 m) von natürlichen Seen im Hauptschluss des beobachteten Gewässers
hm3
vol_Cs
Spezifisches akkum Volumen der Klasse C (= vol_C*1000/area)
mm
MPb
Mittlerer täglicher Niederschlag
mm
ERA5L (2020)
MJHPb
Mittlerer jährlicher Spitzenniederschlagswert
mm
Siehe oben
MP1_b
Anteil des mittleren Niederschlags im Winter vom mittleren Jahresniederschlag
Siehe oben
MP2_b
Anteil des mittleren Niederschlags im Frühling vom mittleren Jahresniederschlag
Siehe oben
MP3_b
Anteil des mittleren Niederschlags im Sommer vom mittleren Jahresniederschlag
Siehe oben
MP4_b
Anteil des mittleren Niederschlags im Herbst vom mittleren Jahresniederschlag
Siehe oben
MPdry1b
Mittlerer Anteil an niederschlagslosen Tagen (< 0,1 mm) im Winter (Jan/Feb/März)
Siehe oben
MPdry2b
Mittlerer Anteil an niederschlagslosen Tagen (< 0,1 mm) im Frühling (Apr/Mai/Jun)
Siehe oben
MPdry3b
Mittlerer Anteil an niederschlagslosen Tagen (< 0,1 mm) im Sommer (Jul/Aug/Sep)
Siehe oben
MPdry4b
Mittlerer Anteil an niederschlagslosen Tagen (< 0,1 mm) im Herbst (Okt/Nov/Dez)
Siehe oben
MPmaxb
Max Monatsmittel des Niederschlags
mm
Siehe oben
MPminb
Min Monatsmittel des Niederschlags
mm
Siehe oben
MTb
Mittlere 2 m Jahres-Lufttemperatur
°C
Siehe oben
MT1b
Mittlere 2 m Lufttemperatur im Winter
°C
Siehe oben
MT2b
Mittlere 2 m Lufttemperatur im Frühling
°C
Siehe oben
MT3b
Mittlere 2 m Lufttemperatur im Sommer
°C
Siehe oben
MT4b
Mittlere 2 m Lufttemperatur im Herbst
°C
Siehe oben
METb
Mittlere tägliche aktuelle ET (Evapotranspiration)
mm
Siehe oben
MET1_b
Anteil der mittleren aktuellen ET im Winter von der mittleren Jahres-ET
Siehe oben
MET2_b
Anteil der mittleren aktuellen ET im Frühling von der mittleren Jahres-ET
Siehe oben
MET3_b
Anteil der mittleren aktuellen ET im Sommer von der mittleren Jahres-ET
Siehe oben
MET4_b
Anteil der mittleren aktuellen ET im Herbst von der mittleren Jahres-ET
Siehe oben
MSWE1b
Mittleres SWE (Snow water equivalent) im Winter
mm
Siehe oben
MSWE2b
Mittleres SWE im Frühling
mm
Siehe oben
MSWE3b
Mittleres SWE im Sommer
mm
Siehe oben
MSWE4b
Mittleres SWE im Herbst
mm
Siehe oben
MNSR1b
Mittlere Tagesmaximal-Nettosolarstrahlung im Winter
W m−2
Siehe oben
MNSR2b
Mittlere Tagesmaximal-Nettosolarstrahlung im Frühling
W m−2
Siehe oben
MNSR3b
Mittlere Tagesmaximal-Nettosolarstrahlung im Sommer
W m−2
Siehe oben
MNSR4b
Mittlere Tagesmaximal-Nettosolarstrahlung im Herbst
W m−2
Siehe oben
Qb
Abflusskennwerte MJHQ, MQ, MJNQ, MJNQ7, Q95, Q98, welche aus den beobachteten Zeitreihen berechnet wurden und die Zielgröße beim Modelltraining darstellen
m3 s−1
BAFU (2020), CHMI (2020), GKD (2020), HZB (2020), LUBW (2020)
a Attribute für das Modelltraining auf Basis der LamaH-EZG wurden von Klingler et al. (2021b, c) übernommen.
b Berechnet auf Tagesbasis für die hydrologischen Jahre 2003 bis 2017.

Anhang B: Festlegung (der Bandbreite) der Hyperparameter der ML-Modelle.

XGBoost:: n_iter: 80; n_random_initial_points: 20; nrounds: 300–5000; eta: 0,0001–0,5; max_depth: 3–30; min_child_weight: 1–30; subsample: 0,1–1; colsample_bytree: 0,1–1; gamma: 0–20.
QRF:: ntree: 5000; min.node.size: 5; mtry: 1/3 × Anzahl der selektierten Prädiktoren.

Anhang C

Tab. 2
Die 5 wichtigsten Prädiktoren der einzelnen Vorhersagemodelle
 
Abflusskennwerte
Rang
MJHQ
MQ
MJNQ
Q95
Q98
MJNQ7
1
MJHP
grav_fra
gc_sc_fra
area_change
p_mean
MPmax
2
MPmin
area_calc
MET2_
lo_prec_du
MPmax
MSWE1
3
strm_dens
strm_dens
p_mean
gc_sc_fra
gc_sc_fra
gc_sc_fra
4
area_calc
p_mean
lo_prec_du
MPmax
lo_prec_fr
MP
5
MP
MP
MPmax
p_mean
MT3
MET2_
Die Beschreibungen zu den Abkürzungen der Prädiktoren können dem Anhang A entnommen werden

Anhang D

Anhang E

Literature
go back to reference BAFU (2020): Bundesamt für Umwelt – Abteilung Hydrologie. Bern, Schweiz (erhalten am: 23.09.2020) BAFU (2020): Bundesamt für Umwelt – Abteilung Hydrologie. Bern, Schweiz (erhalten am: 23.09.2020)
go back to reference BMLRT (2007): Hydrologischer Atlas Österreichs, digitale Ausgabe (digHAO), 3. Lieferung, Bundesministerium für Landwirtschaft, Regionen und Tourismus, Wien, Österreich BMLRT (2007): Hydrologischer Atlas Österreichs, digitale Ausgabe (digHAO), 3. Lieferung, Bundesministerium für Landwirtschaft, Regionen und Tourismus, Wien, Österreich
go back to reference CHMI (2020): Tschechisches Hydrometeorologisches Institut. Brünn, Tschechische Republik (erhalten am: 14.12.2020) CHMI (2020): Tschechisches Hydrometeorologisches Institut. Brünn, Tschechische Republik (erhalten am: 14.12.2020)
go back to reference Coxon, G., Freer, J., Wagener, T., Odoni, N. A., & Clark, M. (2014): Diagnostic evaluation of multiple hypotheses of hydrological behaviour in a limits-of-acceptability framework for 24 UK catchments. Hydrological Processes, 28(25), 6135–6150. https://doi.org/10.1002/hyp.10096CrossRef Coxon, G., Freer, J., Wagener, T., Odoni, N. A., & Clark, M. (2014): Diagnostic evaluation of multiple hypotheses of hydrological behaviour in a limits-of-acceptability framework for 24 UK catchments. Hydrological Processes, 28(25), 6135–6150. https://​doi.​org/​10.​1002/​hyp.​10096CrossRef
go back to reference Farr, T. G., Rosen, P. A., Caro, E., Crippen, R., Duren, R., Hensley, S., Kobrick, M., Paller, M., Rodriguez, E., Roth, L., Seal, D., Shaffer, S., Shimada, J., Umland, J., Werner, M., Oskin, M., Burbank, D., & Alsdorf, D. (2007): The Shuttle Radar Topografy Mission. Reviews of Geophysics, 45(2), RG2004. https://doi.org/10.1029/2005RG000183CrossRef Farr, T. G., Rosen, P. A., Caro, E., Crippen, R., Duren, R., Hensley, S., Kobrick, M., Paller, M., Rodriguez, E., Roth, L., Seal, D., Shaffer, S., Shimada, J., Umland, J., Werner, M., Oskin, M., Burbank, D., & Alsdorf, D. (2007): The Shuttle Radar Topografy Mission. Reviews of Geophysics, 45(2), RG2004. https://​doi.​org/​10.​1029/​2005RG000183CrossRef
go back to reference Hiederer, R. (2013a): Mapping Soil Properties for Europe—Spatial Representation of Soil Database Attributes. Luxemburg: Publications Office of the European Union, EUR26082EN Scientific and Technical Research series, ISSN 1831–9424, https://doi.org/10.2788/94128CrossRef Hiederer, R. (2013a): Mapping Soil Properties for Europe—Spatial Representation of Soil Database Attributes. Luxemburg: Publications Office of the European Union, EUR26082EN Scientific and Technical Research series, ISSN 1831–9424, https://​doi.​org/​10.​2788/​94128CrossRef
go back to reference Hiederer, R. (2013b): Mapping Soil Typologies—Spatial Decision Support Applied to European Soil Database. Luxemburg: Publications Office of the European Union, EUR25932EN Scientific and Technical Research series, ISSN 1831–9424, https://doi.org/10.2788/8728CrossRef Hiederer, R. (2013b): Mapping Soil Typologies—Spatial Decision Support Applied to European Soil Database. Luxemburg: Publications Office of the European Union, EUR25932EN Scientific and Technical Research series, ISSN 1831–9424, https://​doi.​org/​10.​2788/​8728CrossRef
go back to reference Hrachowitz, M., Fovet, O., Ruiz, L., Euser, T., Gharari, S., Nijzink, R., Freer, J., Savenije, H. H. G., & Gascuel-Odoux, C. (2014): Process consistency in models: The importance of system signatures, expert knowledge, and process complexity. Water Resources Research, 50(9), 7445–7469. https://doi.org/10.1002/2014WR015484CrossRef Hrachowitz, M., Fovet, O., Ruiz, L., Euser, T., Gharari, S., Nijzink, R., Freer, J., Savenije, H. H. G., & Gascuel-Odoux, C. (2014): Process consistency in models: The importance of system signatures, expert knowledge, and process complexity. Water Resources Research, 50(9), 7445–7469. https://​doi.​org/​10.​1002/​2014WR015484CrossRef
go back to reference Hrachowitz, M., Savenije, H. H. G., Blöschl, G., McDonnell, J. J., Sivapalan, M., Pomeroy, J. W., Arheimer, B., Blume, T., Clark, M. P., Ehret, U., Fenicia, F., Freer, J. E., Gelfan, A., Gupta, H. V., Hughes, D. A., Hut, R. W., Montanari, A., Pande, S., Tetzlaff, D., et al. (2013): A decade of Predictions in Ungauged Basins (PUB)—a review. Hydrological Sciences Journal, 58(6), 1198–1255. https://doi.org/10.1080/02626667.2013.803183CrossRef Hrachowitz, M., Savenije, H. H. G., Blöschl, G., McDonnell, J. J., Sivapalan, M., Pomeroy, J. W., Arheimer, B., Blume, T., Clark, M. P., Ehret, U., Fenicia, F., Freer, J. E., Gelfan, A., Gupta, H. V., Hughes, D. A., Hut, R. W., Montanari, A., Pande, S., Tetzlaff, D., et al. (2013): A decade of Predictions in Ungauged Basins (PUB)—a review. Hydrological Sciences Journal, 58(6), 1198–1255. https://​doi.​org/​10.​1080/​02626667.​2013.​803183CrossRef
go back to reference HZB (2020): Bundesministerium für Landwirtschaft, Regionen und Tourismus – Hydrographisches Zentralbüro. Wien, Österreich (erhalten am: 08.09.2020) HZB (2020): Bundesministerium für Landwirtschaft, Regionen und Tourismus – Hydrographisches Zentralbüro. Wien, Österreich (erhalten am: 08.09.2020)
go back to reference Juston, J., Jansson, P.-E., & Gustafsson, D. (2014): Rating curve uncertainty and change detection in discharge time series: case study with 44-year historic data from the Nyangores River, Kenya. Hydrological Processes, 28(4), 2509–2523. https://doi.org/10.1002/hyp.9786CrossRef Juston, J., Jansson, P.-E., & Gustafsson, D. (2014): Rating curve uncertainty and change detection in discharge time series: case study with 44-year historic data from the Nyangores River, Kenya. Hydrological Processes, 28(4), 2509–2523. https://​doi.​org/​10.​1002/​hyp.​9786CrossRef
go back to reference Klingler, C., Herrnegger, M., & Schulz, K. (2021a): LamaH-CE: LArge-SaMple DAta for Hydrology and Environmental Sciences for Central Europe—files [data set]. Zenodo Klingler, C., Herrnegger, M., & Schulz, K. (2021a): LamaH-CE: LArge-SaMple DAta for Hydrology and Environmental Sciences for Central Europe—files [data set]. Zenodo
go back to reference Linke, S., Lehner, B., Ouellet Dallaire, C., Ariwi, J., Grill, G., Anand, M., Beames, P., Burchard-Levine, V., Maxwell, S., Moidu, H., Tan, F., & Thieme, M. (2019): Global hydro-environmental sub-basin and river reach characteristics at high spatial resolution. Scientific Data, 6(1), 283. https://doi.org/10.1038/s41597-019-0300-6CrossRef Linke, S., Lehner, B., Ouellet Dallaire, C., Ariwi, J., Grill, G., Anand, M., Beames, P., Burchard-Levine, V., Maxwell, S., Moidu, H., Tan, F., & Thieme, M. (2019): Global hydro-environmental sub-basin and river reach characteristics at high spatial resolution. Scientific Data, 6(1), 283. https://​doi.​org/​10.​1038/​s41597-019-0300-6CrossRef
go back to reference Meinshausen, N. (2006): Quantile Regression Forests. Journal of Machine Learning Research, 7(35), 983–999MathSciNetMATH Meinshausen, N. (2006): Quantile Regression Forests. Journal of Machine Learning Research, 7(35), 983–999MathSciNetMATH
go back to reference Pelletier, J. D., Broxton, P. D., Hazenberg, P., Zeng, X., Troch, P. A., Niu, G., Williams, Z. C., Brunke, M. A., & Gochis, D. (2016): Global 1‑km Gridded Thickness of Soil, Regolith, and Sedimentary Deposit Layers [data set]. ORNL DAAC, Oak Ridge, Tennessee, USA, https://doi.org/10.3334/ORNLDAAC/1304CrossRef Pelletier, J. D., Broxton, P. D., Hazenberg, P., Zeng, X., Troch, P. A., Niu, G., Williams, Z. C., Brunke, M. A., & Gochis, D. (2016): Global 1‑km Gridded Thickness of Soil, Regolith, and Sedimentary Deposit Layers [data set]. ORNL DAAC, Oak Ridge, Tennessee, USA, https://​doi.​org/​10.​3334/​ORNLDAAC/​1304CrossRef
go back to reference Snoek, J., Larochelle, H., & Adams, R. P. (2012): Practical Bayesian optimization of machine learning algorithms. Advances in Neural Information Processing Systems, 4, 2951–2959 Snoek, J., Larochelle, H., & Adams, R. P. (2012): Practical Bayesian optimization of machine learning algorithms. Advances in Neural Information Processing Systems, 4, 2951–2959
go back to reference UBA (2015): Oberflächenwasserkörper – Einzugsgebiete. Version NGP15, Umweltbundesamt, Wien, Österreich UBA (2015): Oberflächenwasserkörper – Einzugsgebiete. Version NGP15, Umweltbundesamt, Wien, Österreich
Metadata
Title
Vorhersage von hydrologischen Abflusskennwerten in unbeobachteten Einzugsgebieten mit Machine Learning
Authors
DI Christoph Klingler
DI Dr. Moritz Feigl
DI Dr. Florian Borgwardt
DDI Dr. Carina Seliger
Univ.-Prof. DI Dr. Stefan Schmutz
DI Dr. Mathew Herrnegger
Publication date
29-08-2022
Publisher
Springer Vienna
Published in
Österreichische Wasser- und Abfallwirtschaft / Issue 11-12/2022
Print ISSN: 0945-358X
Electronic ISSN: 1613-7566
DOI
https://doi.org/10.1007/s00506-022-00891-4