ラボの概要
一般的に音声合成は簡単ではありません。 アプリケーションが文章の各文字を読み上げる場合、その出力が理解できるものだとは限りません。テキスト読み上げアプリケーションに共通の課題には、以下のようなものがあります。
- 同じように書かれた言葉でも発音が違う: 例えば、I live in Las Vegas と This presentation broadcasts live from Las Vegas を比較してください。
- テキストの正規化、つまり省略形、頭字語、単位のあいまいさをなくす: St. の原型は Street と Saint の場合があります。
- 複雑なマッピングを使用してテキストを言語の音素に変換する: 英語での例は、tough、through、though などです。この例では、違う言葉の類似した部分が、言葉や文脈によって発音が異なる可能性があります。
- 外来語 (déjà vu)、正式名称 (François Hollande)、スラング (ASAP、LOL)。
Amazon Polly はこうした課題を克服した音声合成機能を提供しています。そのため、ユーザーは解釈の課題に対処する必要がなくなり、テキスト読み上げ機能を使用するアプリケーションの構築に集中できます。
Amazon Polly は、テキストを生き生きとした音声に変換します。Polly を使用すると、自然な会話機能を搭載したアプリケーションを作成し、音声に対応したまったく新しいカテゴリの製品を構築することが可能になります。Amazon AI サービスの Amazon Polly は高度な深層学習技術を使用して人間の声のような音声を合成します。Amazon Polly では何十種類ものリアルな音声を現在 20 以上の言語でサポートしているため、最適な音声を選択して、さまざまな国で音声対応アプリケーションを構築できます。
また、Amazon Polly は安定して応答時間が短いため、リアルタイムの対話が実現できます。Polly の音声ファイルはキャッシュして保存できるため、オフライン再生や再配布が可能です。つまり、変換して保存したものは自分のものになります。この音声を使用するのにテキスト読み上げの料金はかかりません。Polly は使用方法も簡単です。音声に変換したいテキストを Amazon Polly API に送信するだけでいいのです。オーディオストリームはすぐに Amazon Polly からアプリケーションに返され、アプリケーションで直接再生することや、MP3 などの標準オーディオファイルとして保存することが可能です。
このラボでは、Amazon Polly を使用してテキストを音声に変換する基本的なサーバーレスアプリケーションを作成します。このアプリケーションには、さまざまな言語のテキストを受信して、ウェブブラウザで再生可能な音声ファイルに変換する簡単なユーザーインターフェイスがあります。このラボではブログの投稿を利用していますが、どんな種類のテキストでも使用できます。例えば、このアプリケーションを使用すると、料理を準備している最中にレシピを読むことができます。また車やバイクの運転中にニュース記事や本を読むこともできます。
目標
このラボを修了すると、以下のことができるようになります。
- データを保存する Amazon DynamoDB テーブルを作成する。
- Amazon API Gateway RESTful API を作成する。
- API Gateway によってトリガーされる AWS Lambda 関数を作成する
- AWS Lambda 関数を Amazon Simple Notification Service (SNS) に接続する
- Amazon Polly を使用してさまざまな言語や音声のスピーチを合成する
アイコンキー
このラボでは、さまざまな種類の手順と注記への注意を促すため、各種アイコンが使用されています。以下のリストは、各アイコンの目的を説明したものです。
- コマンド: 実行する必要があるコマンドを表す。
- 想定される出力: 出力のサンプルであり、コマンドまたは編集済みファイルの出力を確認するときに使用する。
- 注意: ヒントや重要なガイダンス。
- 注意: 特記事項または重要な情報を表す (この情報を読み忘れても、機器やデータに問題が発生するというわけではありませんが、特定のステップを繰り返す必要が生じる可能性があります)。
- 警告: コマンドやプロセスの失敗に影響を与える可能性のある、元に戻せないアクション (一度設定したら変更できない設定の警告も含む)。
- タスク完了: ラボのまとめや要点を示す。