
語音辨識和語音人工智慧 (AI) 是「語音優先」通訊的新回歸。思想領袖和人工智慧專家將語音優先溝通的概念視為下一波浪潮——回歸我們在彼此語音對話時獲得的豐富體驗。
語音自然是最直觀的溝通形式之一;社區在書面文字之前通過故事口頭傳遞記憶、文化和歷史。
語音優先已經從 Alexa 應用程序或 Siri 命令演變而來;其原則依賴於這樣一個事實:語音優先比傳統數位介面更強大、用戶友好、身臨其境且速度更快。「語音優先」的核心組成部分是語音識別,即機器或程式識別單字和短語的能力。在本文中,我們將探討語音辨識的定義、人工智慧如何徹底改變語音識別以及語音辨識人工智慧的實際應用。
什麼是語音辨識?
根據 TechTarget 的說法,“語音識別是機器或程序識別口語中的單詞和短語並將其轉換為機器可讀格式的能力1。1952 年,貝爾實驗室開發了“奧黛麗”系統來識別大聲說出數字的單個聲音。十年後,科技巨頭 IBM 開發了“Shoebox”,這是一個可以理解並可以響應 16 個不同英語單詞的程序。
到了 1980 年代,語音識別技術從幾個單詞發展到數千個單詞。在1990年代,個人電腦的迅速普及導致語音技術的爆炸式增長,到2001年,語音識別技術的準確率接近80%。
現代語音技術的歷史始於 2000 年代中期 Google 語音搜尋的推出2.谷歌對語音搜索的開發將語音技術帶到了日常消費者的手中,蘋果在2011年對Siri的開發開創了語音技術的新領域。
人工智慧如何徹底改變語音辨識?
與許多行業一樣,人工智慧的採用和創建徹底改變了語音識別,降低了成本,改善了客戶服務,並幫助企業保持和定義競爭優勢。乘著以人工智慧為重點的專利浪潮,公司開始開發其專有的語音技術,以推動更積極的客戶體驗。例如,美國銀行於 2018 年推出了第一個廣泛使用的虛擬財務助理 Erica,並於 2023 年 6 月的客戶互動次數超過 1.5 億次3。Erica 的快速增長和採用標誌著消費者對 語音分析和 技術的舒適度不斷提高。美國銀行的客戶與這位助理互動的時間為三百萬小時,同比增長了 31%。
語音辨識技術的實際商業應用包括聊天機器人、語音搜尋、自然語言生成和情感分析。從自動化生產線檢查到分析大量數據以確定正面或負面情緒,語音辨識人工智慧適用於各個行業和技術。
語音辨識人工智慧的發展
與許多人工智慧技術一樣,未來就是現在。到 2024 年,全球語音設備的數量將等於全球人口——大約 80 億4。僅僅幾年後,即 2030 年,全球語音助理市場預計將超過 140 億美元。同樣,聊天機器人可能會經歷更高的複合年增長率 (CAGR)。2023 年,全球聊天機器人市場估計為 50 億美元,到 2028 年將增長 300%5。

語音辨識 AI 的實際應用
語音助手
亞馬遜的 Alexa、Google Assistant 和蘋果的 Siri 是大多數消費者以前使用過的語音助手。三年內,估計有 50% 的人將每月使用語音助手,千禧一代和 Z 世代更有可能定期互動6。
客戶滿意度和自助服務
主動和個人化的客戶參與可以提高客戶滿意度並增強他們回答問題、解決問題等的能力。91% 的客戶希望使用自助服務工具,使用後,他們的滿意度提高了19% 7。
翻譯服務和對話式 AI
Google 翻譯等服務可在不同語言之間快速翻譯語音,而 IBM 的 Watson Assistant 等對話工具可協助企業建立自己的對話介面。
音訊和視訊會議的轉錄
Otter.ai 等工具可以記錄 AI 生成的語音會議記錄並提供會議的實時轉錄8.
殘障人士輔助科技
獨立通訊系統將利用身體來傳達訊息。對於有語言或音頻障礙的人來說,語音識別技術將改善溝通並使技術更容易獲得。
人工智慧在語音辨識中的好處
為什麼語音增強和去噪在物聯網和個人移動設備中很重要?特別是在嘈雜的環境中,語音增強功能可以透過消除背景噪音來幫助人們更有效、更有效率地進行溝通。
增強團隊協作
語音識別 AI 有助於消除語言障礙並增強團隊凝聚力和協作9.清晰、清脆的音訊可以提高理解和理解,使全球團隊能夠更好地合作。
提高效率
在繁忙的呼叫中心或咖啡店等擁擠的公共場所,背景噪音可能會幹擾語音的有效性,因為呼叫者聽不到對方的聲音或有誤解的風險。來電者無需多次重複自己,也不需要花費認知精力試圖從過多的背景噪音中破譯單詞。
Ambiq 如何貢獻
聊天機器人、語音助理和其他語音辨識設備的核心是超時運行的矽晶片,以執行耗電的人工智慧和語音辨識。憑藉我們先進的 亞閾值功耗優化技術 (SPOT)® 平台和 片上系統 (SoC),Ambiq 幫助此類邊緣設備以前所未有的效率和超低功耗水平執行語音識別。此外,隨著我們將神經 網路語音增強 (NNSE) 引入 neuralSPOT 的 ModelZoo,現在可以即時消除裝置上的語音背景噪音,從而在一系列嘈雜的環境中捕捉乾淨的語音。從語音備忘錄錄製到語音聊天再到語音識別,NNSE 經過最佳化,可在物聯網邊緣裝置上運行,並具有最小的延遲和能源利用率。
來源
1 語音辨識 |2021 年 9 月
2 語音辨識簡史 |2023
3 美國銀行的 Erica 與客戶互動次數突破十五億次,對話總時數超過 10,000,000 小時 |2023 年 7 月 13 日
4 虛擬助理技術 – 統計與事實 |2023 年 6 月 7 日
第 5 章: 聊天機器人(文字、音訊和視訊)市場 – 到 2028 年的全球預測 – 聊天機器人中生成模型的使用不斷增加,以提供沉浸式客戶體驗,從而推動市場發展 |2023 年 5 月 19 日
2023 年的 6 款語音助手:人工智能語音助手市場的使用、增長和未來 |2023 年 1 月 13 日
7 客戶體驗:透過改變客戶旅程創造價值 |2016 年冬季
8 Otter.ai |2023
9 AI 語音增強的興起與更好的團隊協作 |2020 年 12 月 17 日