第69节:“木兰”妈妈(1)

作者:初敏

“木兰”是我加入微软后带领几位年轻同事研发出来的双语文语转换系统(text-to-speech,简称TTS)。她不仅能将中文、英文文稿流畅的朗读出来,还能很好的处理混杂着很多英文单词、短语和句子的文稿。在研究院成立五周年的庆祝活动中,木兰名列‘十大’ 成果之一。我常常引以为豪。木兰凝聚了我多年的心血,就像我的另一个孩子,在我的孕育、抚养下,从无到有,从小到大,逐步完善 ,改进。最终成功的‘嫁’到微软最新操作系统Vista中,并且由此孵化出微软唯一的一个TTS产品部门。以前,一个在总部产品部门的同事Scott Meredith,也是TTS的专家,在向别人介绍我的时候,总忘不了说一句“She is the mother of Mulan TTS system”。我总是欣然接受“木兰妈妈”这个称呼。

“木兰”是这样诞生的

我是2000年初加入研究院的,是研究院的第一位女性研究员,也是研究院第一个从事TTS研究的人。我带领的这个TTS小组在很长时间都是微软内部唯一的一个从事语音合成技术研发工作的团队。凭借着在中文语言文化上的优势,我们差不多花了一年左右时间专门从事中文语音合成的研究,做出了一个合成效果非常好的原型系统。之后的一、两年,我们把研究重点转移到了英语语音合成上面,也取得了相当好的效果。

接下来我们选择的方向就是解决中英文混读的问题。随着互联网的发展,中西方文化的交融,越来越多的中文文章中会杂糅有英文内容,可能是某产品的品牌型号,也可能是一首著名歌曲。遇到这样的文章,传统文语转换系统就挠头了。最典型的解决方案就是在后台架起两个系统,一个专门处理中文,一个专门处理英文。遇到中英文混杂的句子,就将中文部分分割出来送给中文系统,英文部分则送给英文系统,然后将两者的输出合并起来返回给用户。这样做的最大缺陷在于分开处理的两种语言缺乏统一的语调、语气,甚至连声音本身都差别很大。这样的结果听上去时断时续,极为不连贯。可懂度(能听懂)和自然度(听起来舒服)都比较差。我们当时花了很多精力去物色一个中英文都比较强的播音员,为我们的语音系统录音,这样就可以保证语音数据库中的双语声音是一致的。另外我们还将中英文的处理能力融合在一个系统中,有统一的韵律控制,这样生成的语句即便包含两种语言,也能有统一的语调和节律,就像一个能讲双语的人讲出来的话。这个双语语音合成系统在可懂度与自然度上都取得了较好的效果。我们将这个系统命名为木兰。木兰就是这样诞生的。

(TTS系统中的木兰形象)

之后的一段时间里,我们致力于不断提高木兰的声音质量,并从应用角度探索如何将语音合成技术方便人们的日常生活, 例如语音聊天室(一方输入文字,另一方听到声音)、动画配音(为孩子DIY动画故事)、个性化声音加工等等。在我们完成了一个又一个有趣的研究项目的过程中,木兰长大了,成熟了。

木兰“嫁”入Vista

在2003年之际,微软公司在着力开发新一代操作系统Vista,当时总部产品部门基本准备购买其他公司的一套现成的语音合成软件。 在他们对木兰有所了解后,最终决定采用我们的技术成果。这对TTS研究团队无疑是一件欢欣鼓舞的事情,因为能把自己的研究成果转化到服务于用户的产品中是我们的梦想。可是,事情运作起来远没有想象的那么简单。所有的开发和单元测试工作都必须在北京做。而我们这个以研究为主的团队,写程序不是我们最擅长的能力,而且势必占用我们很多做研究的时间。但是,为了一个共同的目标——把自己的研究成果做进微软产品,我们团队的每一个人都非常投入地做这个项目。

刚开始,我们只有5个人,三个来自TTS组,两个来自技术转化组。大家分担着产品开发环节中的各个角色,PM、SDE、SEET ,每天都超负荷运转着。正巧,项目启动后不久,微软亚洲工程院宣布成立,它成立的使命是把研究院的最新技术孵化进产品中去,TTS项目也就成了工程院的第一批项目之一。

我们从总部争取到了更多的人员指标,TTS开发组逐渐扩大了,有了专职PM、Developer和Tester。当然,任务也更多了,不光要把 TTS做进操作系统,还要做到所有需要TTS技术的产品中去。不光要做中文、英文,还要做西班牙语、日语、法语等二十多种语言。大概在2004年8月份左右,在工程院中,我们已经孵化出一支完整的TTS开发团队,而我们几个仍想致力于研究工作的人逐渐抽身,开始考虑下一步的研究方向。而那时候,为Vista做的工作已经完成了80%以上。

当我的木兰最终“嫁”了出去后,有段时间我产生了一种空落感,茫然若失。TTS作为一个产品化了的技术算是大功告成了,那么接下来应该怎么走,还能做些什么?在这些问题上我们的团队做了很多思考。在随后的两年中,我们主要在语音合成技术的应用化、个性化层面进行大胆的探索,通过把十余种较有代表性的地方方言运用到语音的表达中,试图使对话效果更富趣味性、拟人性和娱乐性。在这个创意的基础上,我们做出了一些原型系统,效果还很不错。这些工作都是木兰的延伸。

第70节:“木兰”妈妈(2)

18年的缘份,妙不可言

回想起来,我与语音合成这个研究方向已经结缘十多年了。这缘分源自于硕士入学之初的一次选择。

当时我从西北工业大学保送到哈尔滨船舶工程学院读研究生,信号处理专业有两个方向供我们选择,图象处理和语音处理,当时图象处理很热,好几个同学想选,我就决定不凑热闹了,选了语音处理。后来发现这个方向还蛮有意思的,就开始投入其中。等两年后报考中科院声学所博士时,我依然申请了语音合成方向。就这样,我的硕士、博士论文工作奠定了我之后长达十多年的研究兴趣。

大家都说爱一行,干一行。从硕士阶段开始算起,到后来留在声学所工作、直到在微软亚洲研究院工作到2007年,我已经在这个领域奋战了近18个年头了。我一直觉得自己是个很专注的人,但是仍不敢想象这种执着竟坚持了这么久。

语音合成是一个交叉学科,既要懂得语音信号处理,还要掌握语言内部的音韵、语法等系统的知识,并且需要能将这些知识很好的融合到语音合成系统之中。此外,还需要了解心理学实验方法,通过各种实验来帮助我们更好地理解人的听觉特点,从而更好的满足用户的需求。正是因为它所要求的相关学科的知识面比较广,才吸引我投入了这么多时间在上面。

而研究院,也是从事这样专注研究的一个好地方,它为每个研究员提供了很好的平台与环境,还有做事情的自由,每个人有很大的自由决定想做什么,不做什么。而且,只要要求合理,研究院总是会保障你有足够的资源做自己的研究。我曾经很奢侈地拥有过一个专门的录音室,在那里,我们进行了各式各样的录音实验,这也是木兰会有很好的音质的一个重要保障。

期盼再做一次“妈妈”

到2007年的时候,我已在TTS领域耕耘了十多年了。虽然,颇有收获,但内心深处逐渐萌生去打探一下TTS之外的领域的念头。这时 ,我对大规模数据加工处理产生了兴趣,这其中麻省理工学院的Victor Zue教授给了我很大的启示。

有一次,他来研究院访问时时,对我们提过这样一个问题:如果将你在做研究中所使用的数据量,乘上一百或者一千倍,同样的问题还能用同样的方法来解决吗?

是呀,随着互联网技术的发展,我们可以接触、收集的数据量迅速增长,面对这样大规模增长的数据,我们能做什么呢?应该怎么做呢?如何对大规模数据进行挖掘、分析和再利用成为了一个极富挑战的研究难题,对我也产生了强烈的吸引力。于是,就在2007年, 我做了一个重要决定,扩展一下自己的研究领域,从语音组转到了以数据为中心的计算组,开始了一段新的研究历程。

将来会怎样,我无法预期,但我充满信心的期待着下一个硕果累累的十年,希望自己能孕育出另一个木兰,再做一次妈妈。

作者介绍:

初敏,2000年3月加入微软亚洲研究院,从事语音分析与合成、韵律模型和文语转换等方面的研究,她主持研究的木兰中英文双语文语转换技术成功的应用于微软的新一代操作系统Vista之中。2007年开始,初敏致力于将各种机器学习和数据挖掘技术用于大规模数据的分布式计算。工作之余,她最大兴趣是游山玩水,希望有生之年能走遍祖国的山山水水和世界的角角落落。 29