第91节：让语音技术改变人们的生活

作者：余鹏

在MSRA的办公区墙上，贴着比尔·盖茨曾经说过的一段话:“每天清晨当你醒来的时候，都会为技术进步给人类生活带来的发展和改进而激动不已。”这句话也诠释了MSRA这10年来成就的动力源泉――用技术改变人们的生活。

我在清华大学的博士课题是语音识别，毕业后进入MSRA的语音组。语音技术经过多年的发展取得了长足的进步，但是在应用领域，却面临着一个尴尬的局面：一些在实验室的理想环境下表现完美的技术，很难找到现实的应用；而在现实生活中，目前语音技术的稳健性和适应性却又达不到应用场景的需求标准。

如何找到连接技术和应用的桥梁，是我们语音组的研究员考虑最多的问题。

此路不通？换条道！

2003年春天，正是北京SARS肆虐的日子。也就是在那时候，我们开始了语音识别用于音频检索的研究。我们选取的第一个应用是搜索个人的语音邮件，针对的场景是10小时以内的语音数据。

最开始，我们直接用语音识别系统将语音邮件转换成文字来搜索。但很快发现即使最好的语音识别系统，针对语音邮件的准确性也仅仅只有70％左右，而这种情况下，搜索的准确性无法令人满意。为了解决这一问题，我们提出了基于词格的音频检索方法，简单的说，就是除了在语音识别的首选结果上搜索外，加入多候选识别结果的信息。比如，语音识别的第一候选是“研究院”，但同时给出许多次优候选，如“研究员”。通过索引这些多候选结果，搜索的准确性有了大幅度的提高。

但我们很快发现了另一个问题，常用的语音识别系统依赖于一个事先选取的词典，而不在词表中的词是不可能被识别出来的，这在语音识别中称之为“集外词”问题。对于音频检索，这个问题变得尤为严重，因为很多集外词都是可能被搜索到的关键词。针对这一问题，我们采用了基于音素的语音识别系统，将音频内容和用户关键词都分拆成音素来匹配，取得了很好的效果。

在那一年的Director Review和第二年的TechFest，我们演示了这一技术，得到了广泛的好评。

跨越“100小时”这座大山

在我们演示了基于音素的音频检索技术之后，得到最重要的一条反馈是，这一技术要做到实用，必须解决数据集的尺度问题。在我们的解决方案中，搜索时间和数据集尺度是成正比的，这称之为“线型搜索”。在数据集小于10小时的情况下，搜索的时间在2秒以内。但当数据集到了100小时的时候，搜索时间就不可接受了。而100小时，是一个实际应用的基本要求。

其实在文本搜索领域，通过基于词的倒排索引，海量数据集的搜索早就不成为难题。但在我们的系统中，因为采用音素为基本单元，使得简单的倒排毫无用处：基本上一个音素会出现在所有的文件中。100小时难题成为横亘在我们面前的一座难以跨越的大山。

经过几次的推倒重来，反复的争辩讨论和大量的实验验证，最后我们提出了索引可变音素串的方法，即通过倒排较长的音素串实现加速，同时借鉴n元文法的backoff方法解决集外词问题，成功地解决了音素一级的索引问题。当最后的演示系统成功地在1秒以内搜索 100小时数据集的时候，我们都情不自禁地欢呼起来。

(余鹏 (中) 与项目同事在一起展示语音搜索所用的道具)

出租车上写出来的程序

在微软做研究有一个别的地方无法比拟的优势，那就是，你会有机会把自己的想法和技术应用到微软的软件产品中去，真正做到改变人们的生活。在演示了我们最新的音频检索技术之后不久，Microsoft Office ? OneNote产品组找到我们，表示出应用这一技术的兴趣。

但是我们很快发现要把技术产品化并不那么简单。由于OneNote产品组自己的产品进度非常紧，他们没有足够的人力资源来把这一技术付诸实现。如果我们不想放弃将这一技术付诸产品的机会的话，我们必须亲自参与具体的产品开发，而那意味着我们需要付出大量的努力和时间在一个作为研究员来说并不熟悉的领域。

我们最终选择了全力以赴地将技术实现到产品中，因为我们都相信，没有实现的技术，终究只是技术。那段时间，是我进入MSRA后最为忙碌的日子。除了参与产品进度，我们还有其它的研究课题，加班是经常的事情。举一个例子可以看出当时的紧张程度，因为软件版权问题，我们需要重写音素识别的解码器，而这一工作是我的同事赛德用了一个月的时间，每天坐出租上班的路上用笔记本写的。后来我常常和他开玩笑说那是他的“Taxi Project”。

我们最后提交给OneNote产品组的代码整整有10万行。由于我们的努力，音频检索成功地随着OneNote软件于2006年底发布。那一年的Director Review，我们骄傲的宣布了这一消息，得到了院长们由衷的掌声。

迈出“技术改变生活”的第一步

OneNote的音频检索只是我们迈出的第一步，随后，我们的研究方向转向数据量更大，内容更复杂，需求更多样化的互联网音频/视频搜索和企业级音频/视频的搜索。微软庞大的产品线也让我们找到了更多连接语音技术和用户需求的渠道。

当我们致力于用语音技术改变人们生活这一目标的同时，我们发现这也同样指引我们做出更多更有用的研究。在我们摸索技术实用化的过程中所解决的很多问题，对于学术领域也带来非常大的影响。从2003年开始，我们发表的一系列关于音频检索的文章，现在正引起越来越多的关注。

在MSRA，“用语音技术改变人们的生活”，这一当初我选择语音识别作为我的专业课题时的梦想，正在一点点地成为现实。

作者介绍：

余鹏，浙江绍兴人，2002年毕业于清华大学，获信号于信息处理博士学位。之前于上海交通大学获通讯工程学士学位。现为微软亚洲研究院语音组研究员，研究方向包括信号处理，语音识别，音频搜索，信息检索等。最大的业余爱好是篮球，在球场上是一名出色的投手。