• 產品
  • 應用
  • 技術
  • 工具
  • 關於我們
  • 無處不在的語音辨識

    目錄

      「語音辨識」是那些看似簡單但卻指的是收集在同一個保護傘下的許多不同特徵的一目了然的術語之一。關鍵字發現、語言翻譯和語音轉錄都是例子,但每個工作方式都不同,具有不同的應用和目標,並且具有顯著不同的資源需求。

      邊緣 AI 和語音辨識

      基於語音的用戶界面非常適合智能手錶和耳塞等微型邊緣設備,因為在這些設備中,其他接口方式很難或不可能。

      如今,這些平台中的大多數都已經配備了麥克風,使語音成為與它們互動的自然方式。作為人工智慧開發人員,我們的工作是讓語音介面對最終用戶有用且自然。

      語音辨識技術

      邊緣 AI 就是在邊緣進行盡可能多的處理,以提高響應能力、隱私性和能源效率。人工智慧的運算量很大,因此傳統上,任何「繁重的工作」都留給雲端。邊緣設備使用人工智慧來監聽特定的語音模式以「喚醒」,但除此之外,它們必須將所有語音發送到雲端進行處理和轉錄。此往返速度緩慢、耗電,並引發隱私問題。Ambiq 的超低功耗功能意味著我們可以在邊緣提供複雜的 AI,從而減少或消除與雲端對話的需要。

      膚淺的語音辨識與理解語言

      將語音 AI 演算法分為表面處理語音的演算法和基於語言理解的演算法是有用的。膚淺的人工智慧演算法將語音視為音訊——它們聽不懂你在說什麼,只聽懂它聽起來是什麼。深度演算法也從這裡開始,識別形成單字的聲音斑點(音素),但它們更進一步,使用語言模型將這些斑點放入在語音的更大上下文中有意義的單字中。

      膚淺的人工智慧演算法對語音的感知就像狗一樣,因為狗不知道單字或短語的含義,但能理解「拿球!狗會明白你想玩接球遊戲來表達這個短語的多種變體(作為一個人工智慧書,我已經探索了在和我的狗玩耍時我可以偏離固定短語多遠,結果證明它已經很遠了)。同樣,膚淺的人工智慧演算法無法理解「打開廚房燈」中的任何單字的含義,但可以推斷出該短語的意圖。

      老年人智能家居技術

      更深層次的語言理解演算法為這種膚淺的方法添加了「語言模型」。語言模型在維基百科和新聞文章等大型文本源上進行訓練,學習在識別語音時有用的語法規則和語言結構。例如,如果說話者喃喃自語句子的一部分或使用同音異義詞,語言模型將使用前後的單詞來很好地猜測說話者的意思。有趣的是,事實證明,語言模型並不是特定於語言的,這意味著語言規則對我們人類來說是通用的,但這也意味著您可以使用它們在語言之間準確地進行翻譯。現代語言模型型方法是「端對端」的:不是讓明確不同的元件來實作語音和語言模型,而是將它們訓練為一個大模型,從而提高其準確性和有效性。

      從實用的角度來看,這兩個演算法類別的運算資源需求大不相同。膚淺的演算法適合緊湊的模型,使其對邊緣人工智慧應用程式很有用(假設您已經解決了電源問題)。語言模型需要更多的運算能力和記憶體——小型的重約為 100MB,最大的需要數 GB 的 RAM 和專用的 AI 處理器。

      好消息是「膚淺」模型非常有用。狗的類比是一個很好的類比,說明了這些膚淺模型的用處。就像您可以訓練您的狗對數十個簡單的命令做出反應一樣,即使措辭不同,我們也可以產生實用且高效的模型來有效地回應您的語音。

      在我們的下一篇博文中,我們將深入探討膚淺語音 AI 模型如何工作的細節。

      訂閱新聞通訊

        準備下載
        此站點已在 wpml.org 上註冊為開發站點。切換至生產站台金鑰 remove this banner