Eine lokale gemeinnützige Bürgerinitiative fördert staatliche Hilfsdienste für berechtigte Bürger in ihrer Region. Gegenwärtig bereitet die Initiative die Förderung eines neu eingerichteten Hilfsdiensts vor. Eines der wichtigsten Auswahlkriterien hierfür ist, dass das jährliche Einkommen einer Personen 50.000 USD nicht übersteigen darf. Die Bürgerinitiative verfügt über demografische Daten, die Angaben zu Bildung und Beschäftigung der Bürger enthalten, aber die Angaben zu den Einkommen sind nicht vollständig. Die Bürgerinitiative hat AnyCompany Consulting gebeten, eine Lösung für Machine Learning (ML) bereitzustellen, die auf Basis der vorhandenen demografischen Daten vorhersagen kann, ob eine Person ein Einkommen von unter 50.000 USD hat. Diese Lösung hilft der Initiative, ihr begrenztes Budget optimal zu nutzen, indem sie Werbeaktionen gezielt auf Bürger ausrichtet, die für den Dienst am wahrscheinlichsten in Frage kommen. AnyCompany Consulting möchte, dass Sie die Daten visualisieren und aufbereiten. Nachdem die Daten bereinigt wurden, möchten sie, dass Sie die Daten in ihren Amazon Simple Storage Service (Amazon S3)-Bucket exportieren.

Darüber hinaus verfügen Sie über einige Datensätze, von denen AnyCompany Consulting möchte, dass Sie diese zu einem späteren Zeitpunkt in Amazon SageMaker integrieren, was eine umfangreiche Datenaufbereitung erfordert. Sie möchten testen, wie Apache Spark auf Amazon EMR in Amazon SageMaker Studio integriert werden kann, um Daten zu verarbeiten und vorzubereiten.

In dieser Übung lernen Sie, wie Sie Daten visualisieren und aufbereiten und mehrere Transformationen am Datensatz in SageMaker Data Wrangler durchführen. Im Anschluss an die Transformation der Daten lernen Sie, die Daten zurück nach Amazon S3 zu exportieren. Sie erfahren auch, wie Sie einen EMR-Cluster direkt von SageMaker Studio aus erkennen und eine sichere Verbindung zu diesem herstellen. Sie verwenden ein SageMaker-Studio-Notebook, um einen EMR-Cluster visuell zu erkennen, die Authentifizierung zu bestätigen und eine Verbindung zu diesem herzustellen. Anschließend fragen Sie mithilfe von Apache Spark eine Apache Hive-Tabelle auf Amazon EMR ab.

Lernziele

Nach Abschluss dieser Übung sollten Sie zu Folgendem in der Lage sein:

Effektive Methoden zur Datenvisualisierung wählen
Die Bedeutung von Datenbereinigung und -transformation erläutern
Beschreiben, wie fehlende Werte, Ausreißer, doppelte Daten usw. verarbeitet werden.
Schlüsselcodierungstechniken definieren
Beschreiben, wie Daten in Amazon Sagemaker Data Wrangler importiert und transformiert werden
Beschreiben, wie Daten mithilfe von Spark auf Amazon EMR transformiert werden

Erforderliche technische Vorkenntnisse

Um diese Übung erfolgreich abzuschließen, sollten Sie über folgende Kenntnisse verfügen:

Grundlegende Navigation in der AWS Managementkonsole
Ein Verständnis von Datenbankkonzepten, MySQL und Datenbankverfügbarkeit.

Verwendete Symbole

In dieser Übung werden unterschiedliche Symbole verwendet, um die Aufmerksamkeit auf verschiedene Arten von Anweisungen und Hinweisen zu lenken. In der folgenden Liste wird der Zweck der einzelnen Symbole erläutert:

Achtung: Informationen von besonderem Interesse oder besonderer Bedeutung (Nichtbeachtung führt nicht zu Schäden am Gerät oder den Daten, kann jedoch dazu führen, dass bestimmte Schritte wiederholt werden müssen)
Weitere Informationen: Gibt an, wo weitere Informationen zu finden sind.
Hinweis: Ein Hinweis, ein Tipp oder eine wichtige Orientierungshilfe.
Aufgabe abgeschlossen: Ein Fazit oder eine Zusammenfassung in der Übung.