Build a Serverless Text-to-Speech Application with Amazon Polly (Español LATAM)

Amazon Web Services and Amazon via AWS Skill Builder

Go to class Write review

Después del 28 de marzo, los títulos de los cursos solo estarán disponibles en inglés. Sin embargo, las descripciones de los cursos permanecerán disponibles en su idioma preferido para que pueda consultarlas.

Información general del laboratorio

En general, la síntesis de voz no es sencilla. No se puede suponer que, cuando una aplicación lee cada letra de una oración, el resultado tenga sentido. Algunos de los desafíos más comunes para las aplicaciones de conversión de texto a voz son los siguientes:

Las palabras que se escriben de igual manera, pero se pronuncian diferente, como sucede en el caso del inglés: I live in Las Vegas (vivo en Las Vegas) en comparación con This presentation broadcasts live from Las Vegas (Esta presentación se transmite en vivo desde Las Vegas).
La normalización de texto para evitar la ambigüedad en abreviaturas, acrónimos y unidades, como en el caso de St., que puede referirse a Street (calle) o a Saint (Santo).
La conversión de texto a fonema en idiomas con un mapeo complejo como en el caso de las palabras tough, through y though en inglés. En este ejemplo, partes similares de diferentes palabras pueden pronunciarse de manera distinta según la palabra y el contexto.
Palabras extranjeras (déjà vu), nombres propios (François Hollande) y palabras informales (ASAP, LOL).

Amazon Polly proporciona una funcionalidad de la síntesis de voz que le permite superar estos desafíos y enfocarse en la creación de aplicaciones que utilizan la conversión de texto a voz en lugar de abordar los desafíos de interpretación.

Amazon Polly transforma el texto en discursos realistas por voz. Puede crear aplicaciones que hablan con naturalidad, lo cual le permite crear categorías de productos con voz habilitada totalmente nuevas. Amazon Polly es un servicio de IA de Amazon que utiliza tecnología avanzada de aprendizaje profundo para sintetizar discursos por voz que suenan como la voz humana. Actualmente incluye docenas de voces realistas en más de 20 idiomas, por lo que puede seleccionar la voz ideal y crear aplicaciones con voz habilitada que funcionan en muchos países diferentes.

Asimismo, Amazon Polly proporciona los tiempos de respuesta constantemente rápidos que se requieren para respaldar los diálogos interactivos en tiempo real. Puede almacenar en la memoria caché y guardar los archivos de audio de Polly para reproducirlos o redistribuirlos sin conexión. En otras palabras, todo lo que convierta y guarde es suyo. No hay cargos adicionales en la conversión de texto a voz por utilizar el discurso por voz. Además, Polly es fácil de utilizar. Simplemente envía el texto que desea convertir a voz a la API de Amazon Polly. Amazon Polly devuelve de manera inmediata la transmisión de audio a su aplicación para que pueda reproducirla directamente o almacenarla en un formato de archivo de audio estándar como MP3.

En este laboratorio, creará una aplicación básica sin servidor que utiliza Amazon Polly para convertir el texto a voz. Esta aplicación tiene una interfaz de usuario sencilla que acepta texto en muchos idiomas y luego lo convierte en archivos de audio que se pueden reproducir desde un navegador web. En este laboratorio, se utilizarán publicaciones de blog, pero puede utilizar cualquier tipo de texto. Por ejemplo, puede utilizar la aplicación para leer recetas mientras prepara una comida, o artículos periodísticos o libros mientras maneja o anda en bicicleta.

Objetivos

Tras completar este laboratorio, podrá hacer lo siguiente:

Crear una tabla de Amazon DynamoDB para almacenar datos
Crear una API RESTful de Amazon API Gateway
crear funciones de AWS Lambda desencadenadas por la API Gateway
conectar las funciones de AWS Lambda con Amazon Simple Notification Service (SNS)
utilizar Amazon Polly para sintetizar el discurso en una variedad de idiomas y voces

Significado de los íconos

A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:

Comando: un comando que debe ejecutar.
Resultado previsto: un resultado de ejemplo que puede utilizar para verificar el resultado de un comando o archivo editado.
Nota: Una pista, consejo u orientación importante.
Precaución: información de especial interés o importancia (no es tan importante como para causar problemas con el equipo o los datos si la omite, pero podría generar la necesidad de repetir ciertos pasos).
Advertencia: es una acción que es irreversible y que podría generar un error en un comando o proceso (incluye advertencias sobre configuraciones que no se pueden modificar después de aplicarlas).
Tarea completada: un punto de conclusión o resumen del laboratorio.