Willkommen zurück an Bord unseres KI-Schiffs! In dieser Episode begeben wir uns auf die nächste Etappe einer spannenden Reise. Im ersten Teil unserer Artikelreihe „In die Falle getappt! Woran viele ML-Projekte scheitern und wie MLOps dies verhindern kann“ ging es um die oft unterschätzten Herausforderungen und Fallen bei der Umsetzung von Machine Learning-Projekten. Wir haben uns einen Überblick über die typischen Fallstricke in ML-Projekten verschafft und eine Einführung erhalten wie MLOps sowohl dabei helfen kann diese Fallstricke zu vermeiden als auch ML-Projekte und die dafür benötigten Ressourcen effektiv zu Planen und mit so wenig Aufwand wie möglich zum Erfolg zu führen.
Nun wollen wir tiefer in die Materie einsteigen und die einzelnen Etappen der ML-Reise durchlaufen. Beginnend mit dem Scoping.
Worum geht es in diesem Teil?
Im zweiten Teil unserer Reise tauchen wir tiefer in die Welt der MLOps ein. Wir werden uns damit beschäftigen, wie man die Untiefen und Risiken in Projekten durch Scoping voraussieht. Wir werden lernen, wie man mit den Augen von Entdecker:innen auf das Projekt und seine Daten blickt, um den in ihnen verborgenen Schatz zu heben. Und nicht zuletzt werden wir lernen die Ressourcen und Problemstellung unter Zuhilfenahme von Domänenwissen richtig einschätzen.
Bereite dich auf eine Reise vor, auf der du lernst, wie du ein ML-Projekt mit den richtigen Werkzeugen und Strategien zum Erfolg führst.
Wie hilft Scoping?
Durch Voraussicht den richtigen Kurs setzen
Rufen wir uns die Grafik bezüglich des Ablaufs von ML-Projekten noch einmal ins Gedächtnis:
Abbildung 1: Ablauf von ML-Projekten (Quelle: MLOps Kurs von Chang Yaochen)
die Abbildung zeigt die typischen Schritte eines MLOp-Teams bis zum fertigen Projekt:
- Scoping
- Daten
-> Sichten
-> Ordnen
-> Selektieren
-> Vorverarbeiten - Modell:
-> Trainieren
-> Anpassen
-> in Arbeitsumgebung integrieren
Wie bereits in Teil 1 erwähnt, sind ML-Projekte höchst iterativer Natur. Das bedeutet, sie verlaufen nicht nach Plan und damit geradlinig voran. Stattdessen kann von jedem Abschnitt im Prozess zu jedem vorhergehenden zurückgesprungen werden, um die darauffolgenden dann erneut zu durchlaufen.
Das Scoping entspricht in unserem Seefahrtsgleichnis dem Setzen des richtigen Kurses. Stimmt dieser nicht, arbeiten wir in die falsche Richtung und können wertvolle Zeit und Ressourcen verlieren. Anfangs ist es noch einfacher, Korrekturen vorzunehmen. Doch je weiter unsere Reise fortgeschritten ist, desto länger und teurer werden die Umwege. Also wollen wir im späteren Verlauf des Projektes diese möglichst vermeiden.
Lohnt sich die Reise?
Zum Scoping eines ML-Projekts gehört zunächst die Frage, ob wir die Reise überhaupt antreten wollen. Passen Ressourcen und Ziele zusammen? Oft muss man schon „losgefahren“ sein, um diese Frage zu beantworten. Denn häufig ermöglicht erst die Sichtung der Daten die Einschätzung, ob der eingeschlagene Kurs Erfolg haben kann. Deshalb gilt es auch hier früh so viele Erkenntnisse wie möglich zu gewinnen.
KI oder nicht KI?
Ein weiterer Punkt, den wir prüfen sollten ist, ob Machine Learning oder generell KI überhaupt das richtige Gefährt für unsere Reise ist. Es kann gut sein, dass wir damit durch die Gewässer kommen, die wir befahren wollen. Wie ein riesiger moderner Segler erfordert ein ML-Projekt allerdings eine entsprechend große und geschulte Mannschaft und außerdem konstante Pflege und ist bei weitem nicht so leicht zu handhaben wie ein traditionelles Boot, also eine herkömmliche Lösung.
Nicht selten erweist es sich als effektiver, einen Algorithmus zu schreiben und mit erprobten Methoden und einem eingespielten Team eine einfache Lösung zu entwickeln. Hier hat man deutlich mehr Planungssicherheit und weniger Überraschungen. KI kann ein tolles Fahrzeug mit ungeahnten Möglichkeiten sein, aber sie erfordert eben auch ein deutlich spezialisierteres Team und die Bereitschaft, größere Risiken einzugehen.
Es ist also unbedingt zu prüfen, welche Alternativen du hast. Dabei hilft es eventuell, über den Tellerrand zu blicken: Also erst einmal nachsehen, wie andere das Problem angegangen sind, bevor wir auf eigene Faust anfangen, das große KI-Schiff zu beladen!
Welcher Weg führt zum Ziel?
Bist du die ersten Schritte gegangen und zu dem Schluss gekommen, dass sich dein Problem nicht ohne Machine Learning lösen lässt, dann kann es losgehen: Wir beginnen, die grobe Route abzustecken, auf der wir entlangsegeln wollen. Dies geschieht zunächst in Form von Meilensteinen. Eins ist aber gewiss: Nichts ist gewiss! Das heißt, wir können davon ausgehen, dass ähnlich wie bei einer Expedition zur See, die tatsächliche Route nicht mehr ganz der ursprünglich geplanten entsprechen wird.
Wie schon erwähnt: Am Anfang der Reise werden uns gröbere Kursanpassungen noch verziehen, im späteren Verlauf kosten sie uns Zeit und Geld und sollten, nach Möglichkeit, nur noch leichte Korrekturen sein. Allerdings gibt es immer mehrere Wege zum Ziel und nicht „den einen richtigen“. Es kann sich also lohnen, die Umgebung zu erforschen und mehrere Möglichkeiten auszuprobieren.
Manche Entscheidungen lohnt es aufzuschieben, bis wir Erkenntnisse aus Experimenten gewonnen haben. Denn erst dann können wir unsere Entscheidungen auf einer fundierten Basis treffen und abwägen. In manchen Fällen kann es sich auch lohnen, Kundschafter vorauszuschicken. Bei MLOps würde dies heißen, dass wir einige oder sogar alle Abschnitte mit reduzierter Komplexität ganz ablaufen, um die Machbarkeit oder Erfolgsaussichten einer geplanten Lösung abschätzen zu können. Hierzu wird es in den folgenden Episoden noch mehr Beispiele geben.
Kenne deine Gewässer! Oder: Warum Domänenwissen wichtig ist
Wenn es um die Entwicklung von ML-Modellen bzw. KI-Projekten insgesamt geht, brauchen wir Domänenwissen. Zwar können heutige Modelle häufig auch schon ohne näheres Verständnis der Daten oder des Anwendungsgebiets vielversprechende Ergebnisse liefern. Trotzdem: Das Material zu kennen, seinen Kontext und seine Bedeutung in der „echten Welt“ zu verstehen, kann jedoch entscheidende Ideen dafür liefern, wie wir die Daten geschäftlich nutzen können oder wie wir effektiver vorgehen können. Außerdem kann das Domänenwissen dazu beitragen, deutlich schneller zum Ziel zu kommen und Ballast in Form von unnötigen Daten und Ressourcen „über Bord zu werfen“.
So wie ein IT-Team ohne KI-Kenntnisse nicht ohne Weiteres ein Modell trainieren kann, benötigen KI-Expert:innen in ihrer Mannschaft Personen mit Domänenwissen. So wie die beste Schiffscrew auch ortskundige Mitglieder braucht.
Fazit
Das Titelbild für diesen Artikel habe ich bewusst ausgewählt: Wie der Blick durch ein Fernrohr, ermöglicht das Scoping eine klare Sicht nach vorne. So wie ich durch das Fernrohr Untiefen und Klippen entdecke, die es zu umschiffen gilt, entdecke ich auf meiner Suche nach der idealen ML-Lösung für mein Problem Stolpersteine und Risiken, die ich kennen sollte. Was ich versuche, deutlich zu machen: Es ist wichtig, zukünftige Ereignisse vorherzudenken, statt sich sofort in ein ML-Projekt zu stürzen. Denn viele Probleme erwecken zunächst den Anschein durch KI vereinfacht werden zu können, die nötigen Ressourcen und Expertise werden dabei gerne unterschätzt. Kurz: Ein ML-Projekt will gut geplant und das Problem gut verstanden sein, um auf Erfolgskurs gehen zu können!
Ich hoffe, dieser Artikel konnte dich darauf vorbereiten und dir ein Gefühl vermitteln, wie ML-Projekte angegangen werden müssen.
Wie geht die Reise weiter?
In der nächsten Etappe unserer großen MLOps-Reise werden wir uns ganz den Daten widmen. Also den Gewässern, die wir befahren, wie wir uns in ihnen zurechtfinden, wie wir den verborgenen Schatz in den Daten identifizieren, und wie wir ihn erfolgreich heben.
Daten sind der Dreh- und Angelpunkt jedes ML-Projektes und meistens deutlich wichtiger als das ML-Modell selbst, hierbei geht es aber nicht bloß um die Auswahl der richtigen Datenquellen, sondern auch wie diese aufbereitet und weiterverarbeitet werden.
Hier gibt es zahllose Möglichkeiten und Techniken. Im nächsten Artikel versuche ich dir das Rüstzeug mitgeben, das erfahrene Seeleute brauchen, um erfolgreich durch die Datengewässer zu navigieren.
Überblick Artikelreihe Machine Learning mit MLOPs:
-> Einführung MLOps: Woran scheitern die meisten ML-Projekte und wie kann MLOPs helfen?
-> Scoping: Aktueller Artikel
-> Daten: Wir lernen, die Wichtigkeit der Daten, ihrer Sichtung, Vorverarbeitung und Anreicherung für den Erfolg oder Misserfolg des gesamten Projekts kennen.
-> Modelltraining: Was gehört dazu, ein Modell auf den eigenen Daten zu trainieren? Wie wählt man das geeignete Modell und wie können uns Automatisierung und Pipelines bei beiden Schritten die Arbeit erleichtern?
-> Deployment: Wie integrieren wir das Modell in ein zukünftiges oder bestehendes System bzw. eine Infrastruktur? Und welche Strategien ermöglichen einen reibungslosen Umstieg?
-> Monitoring und Maintanance: Wie überwachen wir ab hier unser bestehendes ML-System? Welche Entwicklungen können Anpassungen erfordern und wie bereiten wir uns auf diese vor?
2 Kommentare
Spannendes Thema und gut aufbereitet. Danke dafür!
Pingback: Machine Learning mit MLOps – Teil 3: Daten verstehen. Woher wissen wir ob wir bei unserer Ml-Überfahrt auf Kurs sind? - The Cattle Crew Blog