AWS kann Big Data Analytics – aber wie?!

Als Partnerunternehmen von Amazon wird von uns bei OPITZ CONSULTING eigentlich immer erwartet, dass wir die durch AWS zur Verfügung gestellte Plattform bestens kennen. Unsere Kunden tun das – und Amazon selbst eigentlich auch. Damit wir dieser Erwartungshaltung gerecht werden, müssen wir permanent am „Puls der Zeit“ sein und die aktuellen Entwicklungen in den jeweiligen Technologien und Produkten verfolgen und verstehen. Dann und wann muss bzw. darf der geneigte Berater dann allerdings auch sein permanentes Selbststudium eintauschen gegen einen durch den Hersteller veranstalteten Workshop.

Genau so ein Workshop bzw. eine Workshopreihe ist die brandneue AWS Data Master Path Series, eine Folge von drei eintägigen Workshops, bei dem die Teilnehmer durch sachkundige Lösungsarchitekten durch verschiedene Aspekte der AWS-Landschaft geführt werden. Konkret geht es in den drei Terminen um

  • Big Data und Data Lake,
  • Internet of Things (IoT) und
  • Machine Learning (ML)

und wie diese Lösungen mittels in AWS vorhandener Komponenten aufgebaut werden können. Selbstredend ist das nur die AWS-Sicht der Dinge, aber genau die ist ja wichtig um zu verstehen, wie welche Komponenten gemäß ihrem Hersteller miteinander kombiniert und zu einem effektiven Lösungsdesign verwoben werden können.

Am 12. April hat nun der europaweit erste Termin in Berlin stattgefunden. Teilnehmer waren insgesamt 17 Berater unterschiedlicher Partner von AWS, darunter auch drei meiner Kollegen und ich selbst. Zum Auftakt gab es quasi einmal den theoretischen „Rundumschlag“ zu AWS: Was kann es alles, welche Produkte stecken drin und sind für welche Aufgaben zuständig? Trotz meiner Befürchtung, dass dieser „Workshop“ zu stark in die Theorie abdriftet, wurde dem Vortragsmonolog bald ein Ende gesetzt und es begann die Zeit der Hands-on-Übungen, welche den Kern des gesamten Workshops bildeten:

  1. Zuerst ging es um Kinesis mit seinen Komponenten Kinesis Streams, Kinesis Firehose und Kinesis Analytics (immer flankiert vom unweigerlichen S3 als der Basis eines Data Lake nach AWS-Manier). Es wurde innerhalb kürzester Zeit ein Eventstream erzeugt, der in S3 persistiert wurde. Dabei wurden mittels Kinesis Analytics per SQL-artiger Befehle Kennzahlen auf dem Datenstrom erzeugt wie bspw. Aggregationen über eine bestimmte Gruppe von Events oder ein bestimmtes Zeitfenster.Kinesis
  2. Nach dem Mittagessen, welches ganz in typischer IT-Manier gehalten war, ging es dann um den theoretischen Lösungsentwurf für einen gegebenen Anwendungsfall. In Gruppen wurden so Grobarchitekturen erarbeitet, die – wie wir später erfuhren – auf konkreten und bereits auf AWS umgesetzten Lösungen basierten. So konnten wir also bereits unser erworbenes Wissen auf seine Konsistenz und Vollständigkeit hin überprüfen.Architektur
  3. Anschließend wurde es wieder etwas handfester mit einer Übung zu den Themen Glue, Athena und Quicksight. Die in Übung 1 erzeugten Daten wurden nun also transformiert, analysiert und mittels QuickSight visualisiert. Hierbei wurde schnell deutlich, wie wichtig eine saubere Optimierung von Datenstrukturen und -abfragen ist, denn im Falle von Athena erfolgt die Abrechnung bspw. anhand der für die Beantwortung einer Abfrage gescannten Datenmenge. Vergisst man hier einen Filter oder eine Partitionierung, kann das schnell ein teures Vergnügen werden.
  4. Zum Schluss des Workshops gab es dann noch eine Übung zum Thema AWS Elastic MapReduce (EMR) in Kombination mit Hive und Spark SQL sowie Zeppelin. Hier besticht die Kürze der Zeit, innerhalb derer man einen vollständigen Rechencluster zur Verarbeitung seiner (in S3 befindlichen) Daten hochziehen und damit anfassbare Ergebnisse produzieren kann.

 

Hieran anschließend hätte es noch eine fünfte Übung zum Produkt Redshift gegeben, doch war leider – leider! –  zu diesem Zeitpunkt der Tag schon wieder rum, so dass wir diese Übung nur als „Hausaufgabe“ mit nach Hause nehmen konnten.Pizza

 

Als Fazit bleibt, dass es Amazon gelungen ist, innerhalb eines Tages einen (kleinen) Überblick über seine Produktpalette und damit lösbare Anwendungsfälle zu geben. Selbstredend ist das nur die Spitze des Eisbergs, und sicherlich kann dieser Workshop nicht die tiefere Beschäftigung mit den Produkten und Technologien ersetzen, aber als kompakter Einstieg in die Welt von AWS, und wie Amazon selbst sie sieht, war es eine gelungene Veranstaltung mit netten und kompetenten Trainern. Ich freue mich bereits auf die folgenden Termine.

Dieser Beitrag wurde unter Analytics & BigData, Cloud & Infrastructure, Uncategorized veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

w

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.