第89节:“掌上”视频拉近你我的距离(1)

作者:李江

2004年6月,美国知名的学术杂志麻省理工学院《技术评论》在当月的封面赫然放上了“微软肖像”的巨幅图片,并且把微软亚洲研究院誉为“世界上最火的计算机实验室”。作为被编辑有幸挑选出来成为最能代表研究院创新成果的技术,“微软肖像”随着杂志的甫一付梓,越来越多地受到了全世界计算机学术界和工业界的关注。它也让更多的读者相信在科幻作品中虚构出来的那些移动视频通信技术终于可以在现实生活中看到端倪了。

(2004年6月,麻省理工学院《技术评论》以“掌上视频”为封面照片,用六页的篇幅全方位报道了微软亚洲研究院的历史和成果)

N多双眼睛的集合

如今,随着手机功能的日益强大,通过手机拍照或者录制一段视频已经屡见不鲜了,可是,通过手机进行实时视频通信却仍然没有普及。早在2001年,由微软亚洲研究院多媒体通信组研发出的“微软肖像”软件,就已经较为逼真地实现了双向交流的实时视频通信。 这一技术不仅可以支持个人电脑、掌上电脑、手持电脑等设备,而且可以运行于局域网、拨号网络,甚至带宽为9.6千比特/秒的无线网络。特别值得一提的是,这项技术还具有自适应性。如果用户只有低带宽网络,微软肖像就会传送黑白视频;而如果用户拥有较高的宽带的话,则可以传送真彩色的视频。在低带宽时,相比传统的视频技术而言,肖像视频能够提供更清晰的轮廓、更流畅的运动,并且具有更短的延时以及更低的计算消耗。“微软肖像”是我在微软亚洲研究院参与过的第一个重要项目,也是持续时间最长的项目之一。

从2001年8月18日“微软肖像”第一个版本的诞生,我们组就把这个技术上传在微软研究院网站上供用户自由下载。令我们感到意外的是,虽然这还是比较稚嫩的第一个版本,但是用户对它的反响还是很不错的。因为随着掌上电脑在当时的问世,很多用户也很想在上面看看通话状态的对方是什么样子,而之前从来没有这样一种软件出现过,所以,有段时间,大概有几万用户下载试用了我们的软件, 使得“微软肖像”成为了微软研究院网站上下载量最大的软件之一。

很多用户在下载了我们的产品后,非常巧妙地将这项技术应用在了日常生活或者工作环境中,给他们的生活与工作带来了很大的便利,于是他们也纷纷通过网上留言的形式把这些新奇的用法分享给了我们团队。

我印象比较深的是两个外国朋友对这项技术独具匠心的使用故事。John是一位新生儿的父亲,当周末妻子出去购物,留下他和孩子两个人在家的时候,他时常为寸步不能离开孩子而烦恼。当他从网上下载了“微软肖像”之后,他在婴儿床前按了一台摄像头。于是他可以带着掌上电脑随心所欲地在房子的每个角落活动,通过视频观察孩子的一举一动,他甚至还能放心地在院子里除草,而这往往是周末最占用他时间的一项劳动了。

Peter是一家医院的见习医生,经常会轮到晚上值班巡视病房的差事。可是因为住院病人多,医生少的缘故,很多发生突发情况的病人往往无法得到及时的救护。于是,当他拥有了“微软肖像”技术之后,他在巡视某一个病房的时候,也可以通过掌上电脑看到安在其他病人床前的摄像镜头做提供的情况。他可以在移动中实时“观察”每个病人,一有紧急情况便可以跑过去处理或者通知其他医护人员 。Peter说有了“微软肖像”,就像有了N多双眼睛同时在帮他巡视病房。

上面的主人公只是很多用户中的两位。他们对这项技术的认可和别出心裁的应用也极大鼓舞了我们对“微软肖像”不断改进的信心 。直到2007年5月20日,我们组推出了最近也是最新一款试用版本为止,细数下来,“微软肖像”前前后后经历了20个版本的更新和改进 。在这八年中,“微软肖像”项目也经历了一段曲折的发展历程。

难题迎刃而解

退回去想想,也许你很难想象2000年时9.6千比特/秒的手机网络的带宽能做些什么?可是,就在当时网络带宽较低的情况下,我们便在捉摸:如何实现移动设备的可视通信呢?显然用传统的彩色视频技术是实现不了的,因为彩色视频对传输速度和网络带宽的要求都比较高。9.6千比特/秒的带宽就把这个可能给否决了。另外,既然是手机,CPU的处理能力就不如台式计算机那样强大,所以本来在台式计算机上运用的视频压缩和解码技术就不能被照搬到手机上。我们就要对压缩和解码算法进行一些简化,才能最终运用到手机上。在综合考虑上述两种条件的基础上,我们开始了“微软肖像”的研究。

当时,在跟我们的研究主管、视觉计算领域的专家沈向洋博士讨论中,我们认识到:既然,视频压缩技术已经相当成熟,想要从这方面寻求突破几乎不大可能,那么是否可以结合视觉技术从数据本身来寻求解决呢?要进行实时通讯,使得你讲话的意思能够被对方了解,除了语音之外,表情也很重要。那么表情怎么来传递,我们就想到了用线条的方法来传递,想着用线条的方式带宽是不是就可以占用得少一些。

当时我们注意到,在实时视频通信中,人们对图像的要求,并不像在定睛观看一幅图画时那么高。人们不太注意形象,而更注重表情;不太注意细节纹理,而更注意整体轮廓。从这个意义上而言,在视频通信中,通话者大脑真正感兴趣的有效信息并不多,所以通过提取通话者的表情轮廓和线条等简单信息,就可以有效表达一帧视频的绝大部分内容。如果只压缩和传输这部分用线条表示的信息,将会大大降低计算和通信的负荷。

静态“素描”一帧的线条虽然看上去依稀可辨,但是如果要实现由静至动,让多帧静态“素描”连续动起来,就会出现很多问题。 首先,在光线强度常易变化等条件的影响下,两帧之间的过渡非常不平稳、闪烁不定。另外,用线条表示出的通话者头发,因为其发迹覆盖处没有黑色填充而显得非常的不自然。在这种情况下,我们研究组就想到用“二值视频”技术来解决这两个问题:在0-256之间确定一个亮度的阈值,图像像素灰度值高于该值则为白,低于该值则为黑。非黑即白(一般用1和0表示)。这种技术不只区分出了线条,而且内部什么地方是白,什么地方是黑,都可以填充进去,这样头发的问题就解决了。

第90节:“掌上”视频拉近你我的距离(2)

“二值视频”技术大大降低了视频的原始数据量,而且传输中的连贯性较好,可是其间产生的噪声还是比较多。后来我们又想了一个更为巧妙的办法,这也是“微软肖像”中的核心技术:在区分黑白的时候,不是设定一个单一的阈值来比较,而是设定一个阈值带来比较。阈值带有一定的宽度范围。如果图像像素的灰度值在这个阈值带的上限以上,我们能够很明确地说它是1;如果在它的下限以下, 我们也可以很明确地说它是0。但是如果图像像素的灰度值处于这个阈值带之内怎么办呢?我们的处理办法是根据它同一帧内周围的像素和它前一帧相应点周围像素的情况来确定。简单地讲,比如前一帧该点位置是黑的,这一帧该点位置也就是黑的。这样两帧播放起来就连贯了。根据这个原理当时,还是实习生,现在已经是副研究员的许继征给出了相应的算术编码解法。

填补学术界空白

总的来说,我们组投入了较大的精力于“二值视频”技术的摸索和创新,也通过一系列的开创性研究填补了学术界的空白,而且始终居于世界领先地位。同时,我们还创立了一种新型的视频形态——“二值视频”。

大家知道,国际上静态的彩色图像有JPEG图像,动态的彩色视频有MPEG视频,静态的黑白二值图像有JBIG图像,而我们创立的可称为动态的黑白“二值视频”。后来,在“二值视频”的基础上,我们又进一步推出了“四值视频”与此同时,随着带宽条件的不断改善 ,我们也试着用“第二条腿”走路——在确定了黑白版的微软肖像视频的基础上,我们组又开始向“彩色版”挺进。

从黑白版的“二值视频”到“四值视频”,再到彩色视频,随着对传输速度和带宽要求的递增,“微软肖像”为用户提供了可以满足不同网络条件而可供选择的软件类型。这三种技术从视频的效果来看,应该说已经包含了所有的功能。近一两年中,我们所做的工作主要是为增强这个可视通信软件的一些其他辅助功能,比如能够更多地支持不同类型的摄像头,能够增强连接性,或者拍张照片,可以传送文件等。

“微软肖像”软件是很多人团结协作的成果。当时是软件工程师,现在是开发主管的陈刚,编译出了第一个可运行的软件版本。其后又有余可曼、唐健、和林庆维接手这个软件的制作。很多访问学生如周涵宁、王勇、王凯波、王利杰、贺铁林、林云峰、吕江波等都对算法等各方面的研究做出了贡献。当时的研究主管沈向洋博士、李世鹏博士、张亚勤博士等对这个项目给予了大力支持。

虽然目前“微软肖像”还没有被正式运用到微软的产品中,但是这项技术却通过各种各样讨论掌上电脑和手机的社区网站不断被世人认识,并通过资源共享真正让用户体验到其中的交互乐趣。2001年,“微软肖像”技术在国际多媒体大会上向国际学术界宣布它的诞生。同年8月8日,当USA Today(《今日美国》)的记者第一次通过媒体的声音公开向全世界读者介绍“微软肖像”的时候,我们从来没有想象过这项技术会受到如此的青睐和好评。后来随着包括《麻省理工学院技术评论》等重量级媒体对这项技术的报道和千千万万热心用户对我们软件的反馈之后,我们坚信了”做真正满足用户需要的产品才是创新研究的根本”这一信条。我想这也是我们从事计算机基础的研究工作者应该谨记的信条。

作者介绍:

李江,1999年1月加入微软亚洲研究院任研究员,2004年任多媒体通信组主任研究员。之前他曾任浙江大学物理系副教授。他于1989 年获清华大学物理系学士学位,1992年获浙江大学物理系光学硕士学位,1988年获浙江大学数学系应用数学博士学位。他做研究项目看重对人的意义和潜在的商业模式,做事讲究简单有条理,平时爱看书、看电影及外出旅游。