AI(人工知能)を活用したさまざまなデバイスが登場していますが、なかでも私たちにとって身近な存在となりつつあるのがスマートスピーカーです。人間の声を認識し自然な会話をしているかのようなやり取りが可能で、Amazon EchoやGoogle Nestなどは一般家庭にも浸透してきています。
スマートスピーカーに欠かせないAIの技術のひとつに「音声認識」があり、これはスマートフォンやパソコン、カーナビなどにも搭載されている音声アシスタントにも活用されています。
今回の記事では、対話型のAIシステムを構築するうえで欠かせない音声認識とはどのような技術なのか、基本的な仕組みも含めて詳しく解説していきます。
AIを活用して新たなシステムやソリューションを開発したいと考えている方はもちろん、AIの仕組みを勉強してみたいという方もぜひ最後までお読みいただき参考にしてみてください。
目次
音声認識とは
音声認識とはその名の通り、コンピュータが人間の声を聞き取り、何を発音しているのかを判別するための技術です。そもそもAIには音声認識のほかにも、自然言語処理や画像認識、手書き文字認識などさまざまな手段への活用方法があります。たとえば自然言語処理は言葉の意味を読み取って理解することであり、画像認識は写真や画像に写っているものが何なのかを判別するために活用されます。
たとえばコンピュータに対して「こんにちは」という音声データを入力しても、コンピュータはそれが何と言っているのか理解することはできません。それが日本語なのか英語なのか、さらには音楽なのか言葉なのかさえ判別できません。通常、コンピュータに音声を取り込むとそれはあくまでもデジタルの音声データに過ぎず、その中身は人間にしか判別できないものでした。
しかし、音声認識の技術を活用することにより、「こんにちは」という音声データが文字として変換され、「こんにちは」という文字データに書き起こすことができるようになります。ちなみに、そこからさらに技術を応用して自然言語処理を併用すると、言葉の意味を理解して「こんにちは、きょうはいいてんきですね」という音声データから「こんにちは、今日は良い天気ですね」と変換できるようにもなります。このような技術を活用しながら、音声アシスタントやスマートスピーカーなどの対話型音声AIが実現しています。
音声認識の仕組み
そもそも単なる音声データをなぜ言葉に変換できるのでしょうか。音声データから言語へ変換するプロセスこそが音声認識を可能にしている秘密であるといえます。
音声認識は人間が発話した声を音響データとしてデジタル化し、音声の波形の特徴、言葉を発するタイミングや時間などを識別します。音響データの特徴を割り出したら、膨大な発音辞書のなかから条件にマッチするものを選び、音声認識結果として出力するという仕組みです。
すなわち、「こんにちは」と発した場合に、コンピュータはあらかじめ登録されている音声辞書データの中から近いものを割り出し、その結果として「こんにちは」というデータが出力されるという仕組みが音声認識の基本要素であるということです。
そのため、音声辞書として登録されているデータが多ければ多いほど音声認識の精度は向上していく仕組みです。実際の音声認識システムでは過去に会話をした内容を辞書データとして蓄積していくケースが多いです。このような仕組みはディープラーニングともよばれ、使えば使うほど学習データが蓄積されていき精度がアップします。
音声認識と自然言語処理の違い
音声認識は人間の発した言葉を言葉に変換する仕組みと紹介しました。しかしここで混同しがちなのが、自然言語処理との違いについてです。「言葉をテキストとしてデータ化できるなら、言葉も理解しているということでは?」と考える人も多いと思いますが、厳密に言えばそうではありません。
分かりやすく例えるとするならば、音声認識は人間に例えると「耳」、自然言語処理は「脳」にあたると考えると良いでしょう。人間の耳は音を聞き分け、無意識のうちに日本語なのか英語なのか、音楽なのか言葉なのかを理解します。しかし、言葉の意味を正しく理解するためには頭を使って内容を整理しなければならず、この部分にあたるのが自然言語処理ということになります。
すなわち、仮に音声認識だけが搭載されていて自然言語処理が搭載されていないAIのシステムがあった場合、音声データから平仮名やカタカナとしてテキスト化することはできても、漢字への変換や対話型のコミュニケーションは構築できない可能性が大きいということになります。
音声認識と自然言語処理はそれほど密接な関係にあり、両者が一体となってシステムが構成されているケースが多いことは言うまでもありません。ちなみに、自然言語処理は音声データとして取得する以外にも、テキストデータとして入力されたものを解析することも可能です。
音声認識技術が採用されている事例
音声認識の技術が実際に活用されているシステムやデバイスの事例をいくつかご紹介していきましょう。
音声アシスタント
まずは今回の記事で何度も紹介してきた音声アシスタントです。スマートスピーカーやスマートフォンなどに搭載されており、対話型のコミュニケーションを実現しています。音声認識として取得したデータを自然言語処理の技術を活用しながら、さまざまなアプリケーションやサービスと連携して活用されています。
感情分析
人間との対話やコミュニケーションによって感情を分析するシステムやアプリケーションが続々と登場しています。人間同士がコミュニケーションをする場合、相手の表情や声のトーン、発言内容などをもとに感情を分析します。AIも同様で、さまざまな情報をデータベース化し感情分析に役立てています。そのなかでも欠かせないのが音声認識から得られるデータです。
声のトーンや間合い、発言内容などを精査するために音声認識は欠かせない情報といえるでしょう。感情分析は対話型のロボットや音声アシスタントなどにも活用されています。
翻訳サービス
音声認識の用途として真っ先に思い浮かべる実用的なサービスが翻訳ではないでしょうか。外国語でのコミュニケーションができない人にとって、翻訳用のアプリやデバイスがあればコミュニケーションの幅も広がってきます。翻訳サービスは音声アシスタントを活用したもっとも基本的で需要の高い用途といえるかもしれません。
書き起こしサービス
最近のパソコンに搭載されているメモアプリやワープロソフトには音声入力の機能が搭載されています。パソコンに内蔵されたマイクから音声データを広い、それをテキストデータ化する便利なサービスですが、これを実現するためにも音声認識技術は書かせません。このような技術を応用して、AIを活用した議事録サービスなども登場してきています。
音声認識技術の将来性
音声認識技術をはじめとしたAIは注目度が高いものの、まだまだ一般ユーザーには広まっているとはいえない状況です。特に音声アシスタントをはじめとして、多くの音声認識技術はユーザーが利用した履歴を学習データとして活用するため、個人情報やプライバシーが守られないのではないかといった懸念を抱くケースも多いです。
また、そもそも音声データの誤認識が多く使いづらいという声もあり、スマートフォンのように一気に浸透していない現状があります。しかし、ディープラーニングによってiPhoneのSiriやGoogleアシスタントの音声認識精度が飛躍的に向上していることからも分かるように、今後多くのユーザーが当たり前のように音声アシスタントを利用するようになれば、実用性は一気に高まってくると期待されています。