彭博社发布文章称,要能够与我们的电子设备进行自然的对话,那语音识别技术必须要有更加显著的改善。为此,各家科技巨头纷纷积极收集任何它们能够收集到的语言、口音和方言语...
彭博社发布文章称,要能够与我们的电子设备进行自然的对话,那语音识别技术必须要有更加显著的改善。为此,各家科技巨头纷纷积极收集任何它们能够收集到的语言、口音和方言语音。
以下是文章主要内容:
亚马逊的Echo智能音响让家家户户都有带人工智能的个人助手变得切实可行。那些拥有该款声控设备的人都对Alexa赞誉有加,称赞它能够帮助通过Uber叫车,订购比萨饼,又或者检查10年级学生的数学作业。亚马逊称,每天有逾5000人表达对Alexa的喜爱。
另一方面,Alexa信徒们也知道,除非你缓慢地用非常清晰而的语言去跟她说话,否则她很可能会跟你说,“对比起,我不知道那个问题的答案。”有位顾客在亚马逊的网站上评价道,“我爱她,我恨她,我爱她。”不过他还是给于Alexa五星评价。“你很快就会学会如何用一种她会明白的方式跟她说话,这就像是跟一个不高兴的小孩子说话一样。”
语音识别在过去几年里取得了很大的进展。但这还不足以令该技术普及到日常生活的方方面面,还不足以引领人机交互新时代的到来,还不足以让人们轻松自如地与身边所有的设备(如汽车、洗衣机和电视机)进行交谈。在可预见的未来里,这种情况可能还会延续。
发展障碍
那么是什么因素导致语音识别还不能更进一步呢?部分因为驱动该项技术的人工智能还有不小的改进空间。另外,所需数据严重缺乏——即往往嘈杂环境下多种语言、口音和方言的人类语音的音频。
因此,亚马逊、苹果、微软和百度纷纷着手在全球范围内收集海量的人类语音数据。微软在全球各地设立据点,记录志愿者在家庭环境中说话的声音。亚马逊无时无刻都在将Alexa请求上传到其庞大的数据库。百度在中国忙于收集各种方言的语音。收集过后,他们会将那些数据用于教导他们的计算机如何分析、理解和响应语音指令和请求。
对于这些科技巨头而言,挑战在于找到方法去捕捉自然真实的对话。负责领导百度在加州森尼维尔的人工智能实验室的亚当·科茨(Adam Coates)指出,语音识别的准确率即便有95%也不足够。“我们的目标是将错误率压低到1%以下。”他说,“做到了这一点,你才能够真正相信设备理解你说的话。那将会是变革性的进展。”
不久以前,语音识别还处于非常初期的发展阶段。在2006年的一次演示中,微软运行于Windows的语音识别技术的早期版本在众多分析师和投资者面前竟然将“mom”(妈妈)转录成“aunt”(阿姨)。苹果5年前推出Siri时,该个人助手频频出错,备受嘲笑。它经常给出错误的结果,又或者不能够准确听清问题。被问到吉莉安·安德森(Gillian Anderson)是不是英国人时,Siri却展示了一系列的餐馆。如今,微软称其语音引擎的准确率已经不亚于专业转录员,Siri正赢得一定的尊重,Alexa也让人们看到了未来的希望。
神经网络
这一进展很多程度上要归功于神奇的神经网络。神经网络是一种基于人脑架构的人工智能形式,它不需要明确的程序化就能学习,通常只需要大量广泛多样的数据。语音识别引擎消化的语音数据越多,它就越能够理解不同的语音,就越接近于实现在多种情景中用多种语言进行自然对话的最终目标。
因此,各大巨头在争夺大批的语音资源。“我们给系统注入的数据越多,它的表现就会越好。”百度首席科学家吴恩达(Andrew Ng)表示,“正因为此,收集语音成为了一种资本密集型的活动;有这么多数据的机构组织并不多。”
当业界在1990年代开始积极发展语音识别技术时,微软等公司主要依靠来自研究机构公开的可用数据,比如语言学数据联盟。该语音与文本数据库于1992年创立于宾夕法尼亚大学,拥有美国政府的支持。后来,科技公司们纷纷开始收集自有的语音数据,部分公司通过给志愿者录音进行收集。如今,随着声控软件日益普及,它们从自有的产品与服务收集大量的数据。
当你叫你的手机去搜索内容,播放歌曲,又或者提供导航路线时,你很有可能会被公司录音。(苹果、谷歌、微软和亚马逊均强调有匿名化用户数据来保护个人隐私。)在你问Alexa天气怎么样或者体育比赛的比分时,设备会利用你的语音请求来改进其对自然语言的理解(尽管“她”不会偷听你的对话,除非你有说她的名字)。Alexa项目首席科学家尼克·斯特罗姆(Nikko Strom)指出,“通过我们的设计,Alexa会随着你的使用的增多而变得越来越智能。”
两大挑战
语音识别的一大挑战在于,使得该项技术熟悉各种各样的语言、口音和方言。也许,这一点在中国尤为重要。为了采集全国各地的方言语音,百度今年在春节期间展开了一项营销推广行动。该搜索巨头称该举是“方言对话项目”,并向人们承诺,如果他们参与进来,他们就能帮助引领人人都能用自己的方言跟百度对话的未来。在两周的时间里,该公司录得超过1000个小时的语音来接入它的计算机。很多人之所以愿意无偿参与进来,是因为他们为自己家乡的方言感到骄傲。四川的一位高中教师对于该项目感到非常兴奋,因而他号召全班学生录制了超过1000首用四川话朗读的古诗语音。
另一挑战是:教导语音识别技术理解嘈杂背景下(比如在酒吧和在体育场)传来的指令。微软部署了一款名为Voice Studio的Xbox应用来收集用户在进行射击游戏或者看电影时的对话声。该公司为参与者提供包括积分和游戏装备在内的各种奖品,吸引了数百位愿意贡献自己玩游戏时的聊天声音的用户。该项目在巴西尤其奏效,微软在当地的子公司在Xbox主页面上大力推广Voice Studio应用。那些数据用来打造Cortana的巴西葡萄牙语版本。该版本于今年早些时候推出。
各家公司也在针对特定的情境设计语音识别系统。微软一直在测试能够回答机场旅客的请求的技术,它希望其技术能够不受机场持续不断的航班通知声音的干扰。该公司的技术目前还被应用于麦当劳外卖车道的自动订餐系统。经过训练,它能够做到不受诸如孩子尖叫声的各类杂音的感染,因而能够准确理解复杂的订单指令,甚至能够分辨出用户想要的调味品。亚马逊则在汽车中进行测试,它希望Alexa能够克服道路噪声和敞开车窗带来的挑战。
少用数据
在从世界各地收集数据的同时,科技巨头们也在想方设法地用更少的数据来改进语音识别技术。在微软研究语音识别逾20年的首席语音科学家黄学东指出,公司在麦当劳测试的技术比其它使用多得多的数据的语音识别系统要更加精确。“即便使用的数据不是最多的,你也总能够取得突破。”
谷歌总的来说也奉行少即是多的理念,它在部署零碎策略来利用难以理解的声音单元构建词语和短语。该公司对于其语音识别系统的目标是,只需一个变化就能解决多个问题。对于所积累的数据集,谷歌会将数万个通常只有两到五秒长的音频片段连在一块。谷歌的研究人员弗朗索瓦兹· 比伦发斯(Fran?oise Beaufays)指出,这一过程需要较少的运算能力,更加容易测试和调整。百度方面则在研究更加高效的算法来简化语言的学习。
问问像吴恩达这样的研究人员,什么时候才能够跟数字助手进行自然的对话。没有人知道答案。神经网络仍旧非常神秘,即便对于那些专家而言也是如此。研究人员目前的工作很多都是反复试验;在一处地方进行一项改动后,你永远都无法确定其它地方会产生什么样的变化。鉴于当下的技术和方法,这一过程很可能要持续很长一段时间。不过,吴恩达、黄学东、比伦发斯以及其他的科学家认为,你很难预料什么时候会出现那种大大加速研究进程,让Alexa和Siri变成真正的交谈者的突破。