「音声認識 “は、一見単純だが、同じ傘の下に集められた多くの異なる機能を指す、即座に認識できる用語の一つである。キーワード検出、言語翻訳、音声転写などがその例だが、それぞれ動作が異なり、用途や目的も様々で、必要なリソースも大きく異なる。
エッジAIと音声認識
音声ベースのユーザー・インターフェースは、スマートウォッチやイヤホンのような小さなエッジ・デバイスにとって非常に望ましい。
現在では、これらのプラットフォームのほとんどにすでにマイクが搭載されており、音声による対話が自然な方法となっている。AI開発者である私たちの仕事は、音声インターフェースをエンドユーザーにとって便利で自然なものにすることです。

エッジAIとは、応答性、プライバシー、電力効率を向上させるために、エッジで可能な限りの処理を行うことだ。エッジ・デバイスはAIを使って特定の音声パターンを聞き取り、「目覚め」を促しますが、それ以上の音声はクラウドに送信し、処理と文字起こしを行う必要があります。この往復は時間がかかり、電力を消費し、プライバシーの問題が生じる。Ambiqの超低消費電力機能は、高度なAIをエッジで提供できることを意味し、クラウドと会話する必要性を低減または排除します。
表面的な音声認識と言語の理解
音声AIアルゴリズムは、音声を表面的に処理するものと、言語の理解に基づくものに分けるのが便利だ。表層的なAIアルゴリズムは、音声を音声として扱う。つまり、あなたが何を言っているかは理解せず、それがどのように聞こえるかだけを理解する。ディープアルゴリズムもここからスタートし、単語を形成する音の塊(音素)を認識しますが、さらに一歩踏み込み、言語モデルを使用して、これらの塊をあなたのスピーチの大きな文脈の中で意味をなす単語に適合させます。
つまり、犬は単語やフレーズの意味を知らないが、「ボールを取ってこい!」は理解する。AIオタクである私は、犬と遊ぶときにどこまで決まったフレーズから外���ることができるかを調べたことがあるが、それはかなり遠いことがわかった)。同様に、表面的なAIアルゴリズムは、「キッチンの電気をつけて」の単語の意味を理解しないが、フレーズの意図を推測することはできる。

より深い言語理解アルゴリズムは、この表面的なアプローチに「言語モデル」を加える。言語モデルは、ウィキペディアやニュース記事などの大規模なテキストソースで学習され、音声を認識する際に有用な文法規則や言語構造を学習する。例えば、話し手が文の一部をつぶやいたり、同音異義語を使ったりした場合、言語モデルは前後の単語を使って話し手が何を言いたかったのかを推測する。興味深いことに、言語モデルは言語に特化したものではないことが判明した。つまり、言語ルールは我々人間にとって普遍的なものであり、言語間の正確な翻訳にも使用できるということだ。最新の言語モデルベースのアプローチは「エンド・ツー・エンド」である。音声モデルと言語モデルを実装するコンポーネントが明確に分かれているのではなく、1つの大きなモデルとしてトレーニングされるため、精度と有効性が向上する。
実用的な観点からは、これら2つのアルゴリズムカテゴリーは、必要な計算リソースが大きく異なります。表層的なアルゴリズムはコンパクトなモデルに適しており、エッジAIアプリケーションに有用である(消費電力の問題を解決していると仮定して)。言語モデルは、より多くの計算パワーとメモリーを必要とする。小さなものでも100MB程度で、大きなものでは何ギガバイトものRAMと専用のAIプロセッサーを必要とする。
良いニュースは、"表面的な “モデルは驚くほど役に立つということだ。犬の例えは、このような表面的なモデルがいかに有用であるかを示す非常に良い例えである。言い方が違っても、何十もの簡単な命令に反応するように犬を訓練できるのと同じように、私たちはあなたの発話に有用に反応する実用的で効率的なモデルを作り出すことができる。
次回のブログポストでは、表面的なスピーチAIモデルがどのように機能するのか、その詳細を掘り下げます。