Previsione globale di inondazioni estreme in bacini idrografici non misurati
Un nuovo modello di previsione del flusso di acque meteoriche, basato sull’intelligenza artificiale, estende il lavoro preesistente utilizzando reti LSTM per simulare sequenze di dati di flusso. Questo modello utilizza un approccio encoder-decoder con LSTM per analizzare dati meteorologici passati e previsioni future.
La struttura del modello prevede l’utilizzo di una lunghezza della sequenza retrospettiva di 365 giorni, con dimensioni nascoste di 256 stati di cella per gli LSTM. La fase di addestramento ha coinvolto 50.000 minibatch con una dimensione batch di 256, utilizzando una standardizzazione dei dati di input.
Il modello prevede i parametri di una distribuzione laplaciana asimmetrica sulla portata del flusso d’acqua normalizzata per area. L’addestramento del modello richiede alcune ore su una GPU NVIDIA-V100, con un totale di 10 ore per il modello globale completo.
Dati in ingresso
Il set di dati include informazioni provenienti da 5.680 bacini idrografici, con un totale di 152.259 anni di dati. La dimensione totale del set di dati su disco è di circa 60 GB, includendo valori mancanti.
- Le previsioni giornaliere provengono dal modello atmosferico ad alta risoluzione (HRES) dell’IFS dell’ECMWF e includono variabili come precipitazioni totali, temperatura, radiazione solare, nevicate e pressione atmosferica.
Dati di input
La rianalisi ERA5-Land dell’ECMWF e le stime delle precipitazioni da CPC-NOAA e IMERG-NASA sono tra le variabili considerate. Vengono anche presi in considerazione gli attributi geologici, geofisici e antropici del bacino dal database HydroATLAS.
Tutti i dati di input sono stati calcolati come media ponderata per l’area sui poligoni del bacino sull’area totale a monte di ogni misuratore o punto di previsione. L’area totale a monte per i 5.680 misuratori variava da 2,1 km² a 4.690.998 km².
Non vengono utilizzati dati di flusso come input per il modello AI poiché non sono sempre disponibili in tempo reale ovunque e perché il benchmark (GloFAS) non fa uso di input autoregressivi. Esistono approcci alternativi per includere dati quasi in tempo reale in modelli AI per flussi.
Dati estesi
La disponibilità temporale dei dati da ciascuna fonte è rappresentata nella Fig. 5. Durante l’addestramento, i dati mancanti sono stati imputati o con variabili simili da altre fonti o con valori medi, accompagnati da flag binari per indicare i valori assegnati.
Dati target e di valutazione
Le informazioni di training e test provengono dal Global Runoff Data Center (GRDC). La posizione dei misuratori di flusso utilizzati è mostrata nella Fig. 6. Sono stati esclusi bacini idrografici con discrepanze significative tra le aree di drenaggio calcolate e quelle segnalate per evitare dati di bassa qualità.
Esperimenti
Le prestazioni del modello AI sono state valutate tramite esperimenti di convalida incrociata. I dati dai 5.680 misuratori sono stati divisi sia nel tempo, garantendo nessun sovrapposizione tra addestramento e test, sia nello spazio attraverso convalida incrociata randomizzata a 10 fold. Questo approccio evita la perdita di dati tra addestramento e test.
Esperimenti di convalida incrociata
In questo articolo vengono riportati diversi esperimenti di convalida incrociata condotti, inclusa la suddivisione dei dati del misuratore nel tempo e nello spazio secondo protocolli specifici.
-
Convalida incrociata tra continenti (K=6).
-
Convalida incrociata tra zone climatiche (K=13).
-
Convalida incrociata tra gruppi di bacini idrologicamente separati (K=8).
Le indicazioni relative a queste suddivisioni sono illustrate nella Figura 7 dei dati estesi, mentre i risultati sono riportati nelle Figure 8 e 9.
GloFAS
Gli input di GloFAS sono simili a quelli del modello AI, con alcune differenze significative.
-
GloFAS utilizza ERA5 come forzatura dei dati anziché ERA5-Land.
-
GloFAS non impiega ECMWF IFS come in ingresso nel modello.
-
GloFAS non considera i dati NOAA CPC o NASA IMERG direttamente nel modello.
GloFAS fornisce previsioni su una griglia di 3 arcmin con una risoluzione orizzontale di circa 5 km. Le stazioni GRDC con un’area di drenaggio inferiore a 500 km² sono escluse e i dati vengono confrontati con la rete GloFAS.
Calibrazione di GloFAS
Le previsioni di GloFAS provengono da una combinazione di bacini misurati e non misurati, con periodi di calibrazione e convalida diversi. Maggiori dettagli sulla calibrazione sono disponibili sul Wiki di GloFAS.
Il confronto con il modello AI mostra che GloFAS è favorito. I punteggi e i parametri idrografici standard sono visibili nelle Figure 8 e 9, consentendo un confronto dettagliato.
Rianalisi storica di GloFAS
Pur offrendo una rianalisi storica completa, l’archivio a lungo termine delle previsioni di GloFAS versione 4 non copre l’intero anno, creando alcune limitazioni temporali nell’analisi effettuata.
Interpretazione dei parametri di affidabilità
Per comparare GloFAS in modo accurato, è necessario considerare la tempistica dei picchi degli eventi, limitando il lead time a 0 giorni.
Metrica di valutazione
Nel calcolo della precisione e del richiamo delle previsioni di eventi, sono stati utilizzati periodi di ritorno definiti per ciascuno dei 5.680 indicatori. Le metriche sono state calcolate separatamente per ogni modello, basandosi sulla metodologia descritta dall’US Geological Survey Bulletin 17b.
La valutazione è stata effettuata confrontando gli idrogrammi modellati e osservati, considerando previsto correttamente un evento se entrambi attraversavano i valori di soglia del periodo di ritorno entro due giorni. I punteggi sono stati calcolati separatamente per ciascun indicatore, prendendo in considerazione solo i dati effettivi del flusso.
Analisi statistica
La significatività statistica è stata valutata utilizzando test dei ranghi con segno di Wilcoxon a due code, con dimensioni degli effetti riportate come termine di Cohen. I box plot mostrano i quartili di distribuzione, con barre di errore che coprono l’intervallo dei dati escludendo i valori anomali.
Non tutti i risultati utilizzano tutti i 5.680 misuratori a causa di campioni insufficienti per calcolare precisione e richiamo su determinati eventi del periodo di ritorno. Ogni risultato annota la dimensione del campione utilizzato.
Valutazione degli idrologi
Gli idrologi utilizzano diverse metriche per valutare le simulazioni dell’idrogramma e gli eventi estremi. Alcune di queste metriche standard sono bias, efficienza di Nash-Sutcliffe (NSE) ed efficienza Kling-Gupta (KGE).
Il modello GloFAS è calibrato sulla metrica KGE, mentre i dati estesi evidenziano che il modello AI non calibrato è altrettanto buono nei bacini non misurati quanto GloFAS nei bacini calibrati. C’è una differenza di varianza complessiva (metrica Alpha-NSE) che indica potenziale miglioramento del modello AI rispetto a GloFAS.