Analyse von Abwasserdaten mit ChatGPT

Der Impuls für diesen Artikel kam während eines KI-Tech-Talks bei OPITZ CONSULTING: Ein Kollege demonstrierte, wie sich ChatGPT zur Visualisierung strukturierter Daten einsetzen lässt – ganz ohne Programmierkenntnisse. Für mich als Berater im Public Sector war sofort klar: Das Potenzial für öffentliche Institutionen ist enorm – gerade, wenn man bedenkt, wie viele spannende Open-Data-Quellen heute schon existieren.

In mehreren aktuellen Projekten arbeiten wir mit Abwasserdaten, teilweise auf Basis offener Daten. (-> Kundenstory Berliner Wasserbetriebe) Ein perfektes Umfeld also, um die Möglichkeiten der dialogbasierten Datenanalyse mit ChatGPT-5 auszuprobieren – konkret anhand der Daten aus dem AMELAG-Projekt, einer vom RKI betriebenen Abwassersurveillance.

Warum Abwasser ein Frühindikator ist

Abwasserdaten sind viel mehr als technisches Beiwerk. Während der Corona-Pandemie zeigte sich, dass steigende Viruslasten im Abwasser oft Vorboten regionaler Infektionswellen waren – teils mehrere Tage vor den offiziellen Meldezahlen. Auch die neue EU-Abwasserrichtlinie (KARL, EU 2024/3019) erkennt dieses Potenzial und fordert den systematischen Aufbau entsprechender Überwachungsnetze.

Das bedeutet: Öffentliche Einrichtungen könnten künftig deutlich schneller auf Gesundheitsentwicklungen reagieren – mit gezielter Personalplanung, Medikamentenlogistik oder Hygieneempfehlungen.

Das Thema Abwasseranalyse ist im Public Sektor äußerst relevant und viel mehr als eine technische Spielerei: Während der Corona-Pandemie zeigte sich, dass steigende Viruslasten im Abwasser ein Frühindikator für regionale Ausbrüche sein können. Mit entsprechenden Modellen ließen sich künftig gezielt Hygienemaßnahmen, Medikamentenlieferungen oder andere Gesundheitsinterventionen steuern. Das Potenzial ist also groß – und wird durch die neue Abwasserrichtlinie bereits in wichtigen Teilen adressiert.

ChatGPT-5 im Datenanalyse-Modus

Für unseren Test haben wir ChatGPT-5 im Modus Advanced Data Analysis genutzt. Besonders hilfreich waren dabei:

Uploadfunktion für Dateien (CSV/TSV) direkt im Chatfenster
Kontextbezogenes Prompting, um gezielte Analysen und Visualisierungen zu steuern
Erklärende Rückfragen und Ergebnisse, auch für Nicht-IT-Fachleute verständlich

Die Grundlage: eine TSV-Datei aus dem AMELAG-Projekt mit Viruslastdaten einzelner Standorte.

Erste Analysen: Was steckt im Datensatz?

Nach dem Upload identifizierte ChatGPT-5 automatisch die vorhandenen Spalten: Standortinformationen, Zeitstempel, Messwerte für SARS-CoV-2, Influenza u. a. Auffällig: In manchen Feldern fehlten bis zu 75 % der Einträge. Statt aufwendiger Vorverarbeitung entschieden wir uns für einen realistischen Blick auf die Rohdaten.

Auf eine einfache Frage wie „Welche Bundesländer sind im Datensatz enthalten?“ reagierte das Modell schnell und korrekt mit: „Alle 16 Bundesländer.“

Hier zwei Screenshots:

Visualisieren mit Prompts: Iteratives Vorgehen

Die eigentliche Stärke von ChatGPT-5 offenbarte sich bei der Visualisierung:

Zunächst ließen wir uns eine LOESS-Glättung der Influenza-A-Werte für den Standort Stuttgart anzeigen.
Danach ergänzten wir weitere Virusparameter für Influenza, um die Entwicklung im Vergleich darzustellen.
Im nächsten Schritt erweiterten wir den Betrachtungsbereich auf ganz Baden-Württemberg.
Wir wiederholten diesen Ablauf für andere Bundesländer, um Unterschiede und Gemeinsamkeiten zu erkennen.
Parallel dazu prüften wir den Datensatz gelegentlich manuell in Excel, um ein Gefühl für die Rohwerte zu bekommen.

Die Ergebnisse zeigten saisonale Effekte, auffällige Peaks und Unterschiede zwischen Regionen. Besonders spannend: Aggregationen über mehrere Standorte mit nur einem Prompt. Ein Feature, das ältere Modellversionen so noch nicht beherrschten.

Wichtig: Bei diesen Versuchen war es wichtig, gezielt festzulegen, welche Werte wir für die Darstellung verwenden – in unserem Fall die LOESS-berechneten Werte, da sie für Vorhersagen besonders aussagekräftig sind.

Was haben wir daraus gelernt?

Die Analyse lieferte eine Reihe von Diagrammen, die interessante Muster aufzeigen:

Saisonale Effekte: Im Winter sind die Influenza-Werte erwartungsgemäß höher.
Auffällige Peaks: Einzelne Zeitpunkte zeigen ungewöhnlich hohe Messwerte. Solche Peaks könnten bei einer zeitnahen Auswertung als Frühindikatoren dienen, um gezielte Maßnahmen einzuleiten.
Aggregation nach bestimmten Kriterien: Ein weiterer Vorteil von ChatGPT-5 ist die Fähigkeit, Daten nach bestimmten Kriterien zu aggregieren – beispielsweise alle Standorte in Baden-Württemberg zusammenzufassen. Solche Aggregationen waren mit demselben Prompt in Modellversion 4.0 in dieser Form noch nicht möglich.

Wo Behörden profitieren könnten

Die Einsatzmöglichkeiten im Public Sector sind vielfältig: Die Fähigkeit zur Mustererkennung im Abwasser bietet nicht nur Potenzial für den Gesundheitsbereich, sondern es sind auch Einsatzmöglichkeiten in ganz anderen Bereichen denkbar, wie zum Beispiel:

Gesundheitswesen: Früherkennung und Intervention bei Ausbrüchen
Bildungseinrichtungen: Planung von Vertretungsregelungen oder mobilem Unterricht
Verwaltungen & Infrastruktur: Flexible Maßnahmenplanung basierend auf Infektionsprognosen

Viele dieser Ideen erinnern an die Corona-Zeit– nur, dass wir heute über smartere Tools verfügen, um schneller und präziser zu reagieren.

Auch für Unternehmen interessant: Monitoring per Abwasseranalyse

Was im Public Sector seinen Anfang nimmt, kann auch für privatwirtschaftliche Akteure von Interesse sein – insbesondere dort, wo Betriebssicherheit, Gesundheitsschutz oder Standortsteuerung im Fokus stehen. Denkbar sind zum Beispiel folgende Szenarien:

Großunternehmen & Produktionsstandorte: Frühwarnsysteme für saisonale Infektionswellen, um Personalengpässe besser zu planen oder gezielt Schutzmaßnahmen einzuleiten.
Immobilien- und Facility Management: Überwachung von Gebäuden oder Liegenschaften mit vielen Nutzer:innen – etwa Wohnanlagen, Pflegeeinrichtungen oder Bürokomplexe.
Eventbranche & Veranstaltungsorte: Einsatz temporärer Sensorik zur Risikoabschätzung bei Großveranstaltungen – z.?B. bei Festivals, Messen oder Sportereignissen.
Kliniken & Laborbetreiber: Ergänzende Datenquelle für Infektionscontrolling oder zur Validierung eigener Messreihen.
Logistikzentren & Transportinfrastruktur: Nutzung zur Entscheidungsvorbereitung bei Personal- oder Routenplanung in Phasen hoher Ausfallgefahr.

In vielen dieser Kontexte liegt der Vorteil klar auf der Hand: Die Kombination aus offenen oder lokal erhobenen Daten mit KI-gestützter Analyse ermöglicht flexible, kostenbewusste Entscheidungen – und das ohne den Aufwand komplexer BI-Infrastrukturen.

Grenzen und klare Empfehlungen

Natürlich ersetzt ChatGPT keine professionelle BI-Lösung. Was fehlt:

Interaktive Dashboards
Filtern und Aggregieren per Klick
Kombination mit anderen Datenquellen

Und: Datenschutz bleibt oberstes Gebot. Der Einsatz sollte auf anonymisierte, offene Datensätze beschränkt bleiben. Für sensible Daten sind On-Premise-Lösungen oder KI-Modelle in geschützten Umgebungen notwendig.

Fazit: Starkes Tool für erste Einblicke

Die Arbeit mit ChatGPT-5 hat gezeigt: Wer Open Data nutzt, kann mit einfachen Prompts fundierte Erkenntnisse gewinnen. Für schnelle, explorative Analysen – insbesondere im Public Sector – ist das Sprachmodell ein hilfreiches Werkzeug. Und vielleicht der perfekte Einstiegspunkt für datengetriebene Entscheidungen in öffentlichen Einrichtungen.

Auch außerhalb des Public Sector bieten sich spannende Anwendungsfelder – von Unternehmen mit vielen Mitarbeitenden über das Immobilienmanagement bis hin zu Veranstaltern. KI-gestützte Abwasseranalysen könnten künftig überall dort unterstützen, wo Planungssicherheit gefragt ist.

Open Data in Aktion: Mit KI Abwasserdaten analysieren

Schreibe einen Kommentar Antwort verwerfen