Build a Serverless Text-to-Speech Application with Amazon Polly (简体中文)

Amazon Web Services and Amazon via AWS Skill Builder

Go to class Write review

实验概览

一般来说，语音合成并非易事。您不能假设当应用程序读取一个句子的每个字母时，输出都是有意义的。文字转语音应用程序面临的一些常见挑战包括：

书写方式相同但发音不同的单词：I live in Las Vegas 与 This presentation broadcasts live from Las Vegas 相比。
文本规范化：消除缩写、首字母缩略词和单位的歧义：例如 St.，它可以展开为 Street 或 Saint。
在具有复杂映射的语言中将文本转换为音素，例如在英语中，tough、through 和 though。在本例中，不同单词的相似部分可以根据单词和上下文有不同发音。
外来词 (déjà vu)、专有名词 (François Hollande) 和俚语（ASAP、LOL）。

Amazon Polly 提供的语音合成功能克服了这些挑战，使您能够专注于构建使用文字转语音功能的应用程序，而不是解决口译挑战。

Amazon Polly 可将文本转换为逼真的语音。借助 Amazon Polly，您可以构建支持自然聊天的应用程序，从而打造全新类别的具有语音功能的产品。Amazon Polly 是一种 Amazon AI 服务，它使用高级深度学习技术来合成很像人声的语音。它可以提供几十种逼真的声音并支持 20 多种语言，因此您可以选择最合适的声音，并构建适用于许多不同国家/地区的具有语音功能的应用程序。

此外，Amazon Polly 的响应时间一贯很快，而这正是支持实时的交互式对话所必需的。您可以缓存并保存 Polly 的音频文件，以便离线重放或重新分发。换句话说，您转换和保存的内容就是您的。使用语音不会产生额外的文字转语音费用。Polly 使用起来也非常简单。您只需将要转换为语音的文本发送到 Amazon Polly API。Amazon Polly 会立即将音频流返回给您的应用程序，以便您的应用程序可以直接播放该音频流，或将其存储为 MP3 等标准音频文件格式。

在本实验中，您将创建一个基本的无服务器应用程序，该应用程序使用 Amazon Polly 将文本转换为语音。该应用程序有一个简单的用户界面，可以接受多种不同语言的文本，然后将其转换为可以从 Web 浏览器播放的音频文件。本实验使用的是博客文章，但您可以使用任何类型的文本。例如，您可以在做饭时使用该应用程序阅读食谱，或者在驾驶或骑自行车时使用该应用程序阅读新闻文章或书籍。