“语音识别 “是一个一眼就能识别的术语,它看似简单,却包含了许多不同的功能。例如,关键词识别、语言翻译和语音转录,但它们的工作方式各不相同,具有不同的应用和目标,对资源的要求也大相径庭。
边缘人工智能和语音识别
对于智能手表和耳塞等微小边缘设备来说,语音用户界面是非常理想的,因为在这些设备上很难或不可能使用其他界面方式。
如今,这些平台大多已经配备了麦克风,因此语音是一种自然的交互方式。作为人工智能开发人员,我们的工作就是让语音界面对最终用户有用且自然。

边缘人工智能就是尽可能在边缘进行处理,以提高响应速度、隐私保护和能效。边缘设备使用人工智能聆听特定的语音模式来 “唤醒",但除此之外,它们还必须将所有语音发送到云端进行处理和转录。这种往返过程既慢又耗电,还会引发隐私问题。Ambiq 的超低功耗能力意味着我们可以在边缘提供复杂的人工智能,减少或消除与云对话的需要。
浅层语音识别与理解语言
将语音人工智能算法分为表面上处理语音的算法和基于对语言的理解的算法是非常有用的。浅层人工智能算法将语音视为音频–它们不理解你在说什么,只知道听起来像什么。深度算法也是从这里开始的,它能识别组成单词的音块(音素),但它会更进一步,使用语言模型将这些音块组合成单词,使其在更大的语音语境中具有意义。
肤浅的人工智能算法对语音的感知与狗非常相似,因为狗不知道单词或短语的含义,但能理解 “捡球!"。狗会理解你想玩 “捡球 “这个短语的许多变体(作为一个人工智能书呆子,我曾探索过在与我的狗玩耍时,我能在多大程度上偏离一个固定的短语,结果发现它偏离得非常远)。同样,肤浅的人工智能算法并不理解 “打开厨房的灯 “中任何一个词的含义,但却能推断出这句话的意图。

更深层次的语言理解算法在这种肤浅的方法中加入了 “语言模型"。语言模型在维基百科和新闻文章等大型文本源上进行训练,学习语法规则和语言结构,这些在识别语音时非常有用。例如,如果说话者喃喃自语地说出了句子的一部分或使用了同音词,语言模型就会利用前面和后面的词来猜测说话者的意思。有趣的是,语言模型并不是针对特定语言的,这意味着语言规则对我们人类来说是通用的,同时也意味着你可以用它们在不同语言之间进行准确的翻译。基于语言模型的现代方法是 “端到端 “的:实现语音和语言模型的组件不是明确的不同组件,而是作为一个大模型进行训练,从而提高了准确性和有效性。
从实用角度来看,这两类算法对计算资源的需求截然不同。浅层算法适合紧凑型模型,因此对边缘人工智能应用非常有用(假设你已经解决了功耗问题)。语言模型需要的计算能力和内存要大得多–小的大约 100MB,大的则需要数千兆内存和专用人工智能处理器。
好消息是,"肤浅 “的模型非常有用。用狗来比喻这些肤浅的模型是多么有用。就像你可以训练你的狗对几十个简单的命令做出反应一样,即使措辞不同,我们也可以制作出实用、高效的模型,对你的讲话做出有用的反应。
在下一篇博文中,我们将详细介绍浅层语音人工智能模型的工作原理。