Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Italiano)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it

Un’associazione locale senza scopo di lucro per la tutela dei cittadini promuove servizi di assistenza governativa ai cittadini idonei nella propria regione. L’associazione si sta preparando a promuovere un servizio di assistenza di nuova costituzione. Uno dei criteri fondamentali per poter beneficiare del servizio è che il reddito annuo non superi i 50.000 USD. L’associazione per la tutela dei cittadini dispone di dati anagrafici che includono l’istruzione e l’occupazione dei cittadini, ma solo una parte dei dati include informazioni sul reddito. L’associazione per la tutela dei cittadini ha chiesto a AnyCompany Consulting di fornire una soluzione di machine learning (ML) in grado di prevedere la probabilità che un individuo guadagni meno di 50.000 USD sulla base degli altri dati anagrafici. Questa soluzione li aiuterà a sfruttare al meglio il loro budget limitato indirizzando le promozioni ai cittadini che hanno maggiori probabilità di avere diritto al servizio. AnyCompany Consulting ti richiede di visualizzare e preparare i dati. Una volta eseguita la pulizia dei dati, ti richiede di esportarli nel loro bucket Amazon Simple Storage Service (Amazon S3).

Inoltre, hai alcuni set di dati che AnyCompany Consulting desidera che tu inserisca in Amazon SageMaker in un secondo momento e che richiedono una preparazione dei dati su larga scala. Vuoi testare come Apache Spark su Amazon EMR può essere integrato in Amazon SageMaker Studio per elaborare i dati e prepararli.

In questo laboratorio, imparerai a visualizzare e preparare i dati e a completare diverse trasformazioni sul set di dati in SageMaker Data Wrangler. Dopo la trasformazione dei dati, vedrai come esportarli nuovamente in Amazon S3. Imparerai anche come individuare e connetterti in modo sicuro a un cluster EMR direttamente da SageMaker Studio. Utilizzerai un notebook SageMaker Studio per individuare visivamente, autenticarti e connetterti a un cluster EMR. Quindi eseguirai una query su una tabella Apache Hive su Amazon EMR utilizzando Apache Spark.

Obiettivi

Una volta completato il laboratorio, sarai in grado di:

  • Scegliere metodi efficaci per visualizzare i dati
  • Spiegare il valore della pulizia e della trasformazione dei dati
  • Descrivere come elaborare valori mancanti, valori anomali, dati duplicati, ecc.
  • Definire le tecniche di codifica delle chiavi
  • Descrivere come acquisire e trasformare i dati in Amazon Sagemaker Data Wrangler
  • Descrivere come trasformare i dati utilizzando Spark su Amazon EMR

Competenze tecniche preliminari

Per completare con successo questo laboratorio, devi avere familiarità con:

  • Navigazione di base nella console di gestione AWS.
  • Comprensione dei concetti di database, MySQL e disponibilità del database.

Legenda icone

In questo laboratorio vengono utilizzate varie icone per richiamare l’attenzione su diversi tipi di istruzioni e note. Nell’elenco seguente viene illustrato lo scopo di ciascuna di esse:

  • Attenzione: informazioni di particolare interesse o importanza, non così importanti da causare problemi alle apparecchiature o ai dati se non si rispettano, ma che potrebbero comportare la necessità di ripetere determinati passaggi.
  • Ulteriori informazioni: specifica dove trovare ulteriori informazioni.
  • Nota: una nota, un suggerimento o indicazioni importanti.
  • Attività completata: una conclusione o un punto riepilogativo del laboratorio.

Reviews

Start your review of Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Italiano)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.