三色电子书 > 文学其他电子书 > 微软的梦工场 >

第36部分

微软的梦工场-第36部分

小说: 微软的梦工场 字数: 每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



从2001年8月18日“微软肖像”第一个版本的诞生,我们组就把这个技术上传在微软研究院网站上供用户自由下载。令我们感到意外的是,虽然这还是比较稚嫩的第一个版本,但是用户对它的反响还是很不错的。因为随着掌上电脑在当时的问世,很多用户也很想在上面看看通话状态的对方是什么样子,而之前从来没有这样一种软件出现过,所以,有段时间,大概有几万用户下载试用了我们的软件,使得“微软肖像”成为了微软研究院网站上下载量最大的软件之一。   
很多用户在下载了我们的产品后,非常巧妙地将这项技术应用在了日常生活或者工作环境中,给他们的生活与工作带来了很大的便利,于是他们也纷纷通过网上留言的形式把这些新奇的用法分享给了我们团队。   
我印象比较深的是两个外国朋友对这项技术独具匠心的使用故事。John是一位新生儿的父亲,当周末妻子出去购物,留下他和孩子两个人在家的时候,他时常为寸步不能离开孩子而烦恼。当他从网上下载了“微软肖像”之后,他在婴儿床前按了一台摄像头。于是他可以带着掌上电脑随心所欲地在房子的每个角落活动,通过视频观察孩子的一举一动,他甚至还能放心地在院子里除草,而这往往是周末最占用他时间的一项劳动了。   
Peter是一家医院的见习医生,经常会轮到晚上值班巡视病房的差事。可是因为住院病人多,医生少的缘故,很多发生突发情况的病人往往无法得到及时的救护。于是,当他拥有了“微软肖像”技术之后,他在巡视某一个病房的时候,也可以通过掌上电脑看到安在其他病人床前的摄像镜头做提供的情况。他可以在移动中实时“观察”每个病人,一有紧急情况便可以跑过去处理或者通知其他医护人员。Peter说有了“微软肖像”,就像有了N多双眼睛同时在帮他巡视病房。   
上面的主人公只是很多用户中的两位。他们对这项技术的认可和别出心裁的应用也极大鼓舞了我们对“微软肖像”不断改进的信心。直到2007年5月20日,我们组推出了最近也是最新一款试用版本为止,细数下来,“微软肖像”前前后后经历了20个版本的更新和改进。在这八年中,“微软肖像”项目也经历了一段曲折的发展历程。   
难题迎刃而解   
退回去想想,也许你很难想象2000年时9。6千比特/秒的手机网络的带宽能做些什么?可是,就在当时网络带宽较低的情况下,我们便在捉摸:如何实现移动设备的可视通信呢?显然用传统的彩色视频技术是实现不了的,因为彩色视频对传输速度和网络带宽的要求都比较高。9。6千比特/秒的带宽就把这个可能给否决了。另外,既然是手机,CPU的处理能力就不如台式计算机那样强大,所以本来在台式计算机上运用的视频压缩和解码技术就不能被照搬到手机上。我们就要对压缩和解码算法进行一些简化,才能最终运用到手机上。在综合考虑上述两种条件的基础上,我们开始了“微软肖像”的研究。   
当时,在跟我们的研究主管、视觉计算领域的专家沈向洋博士讨论中,我们认识到:既然,视频压缩技术已经相当成熟,想要从这方面寻求突破几乎不大可能,那么是否可以结合视觉技术从数据本身来寻求解决呢?要进行实时通讯,使得你讲话的意思能够被对方了解,除了语音之外,表情也很重要。那么表情怎么来传递,我们就想到了用线条的方法来传递,想着用线条的方式带宽是不是就可以占用得少一些。   
当时我们注意到,在实时视频通信中,人们对图像的要求,并不像在定睛观看一幅图画时那么高。人们不太注意形象,而更注重表情;不太注意细节纹理,而更注意整体轮廓。从这个意义上而言,在视频通信中,通话者大脑真正感兴趣的有效信息并不多,所以通过提取通话者的表情轮廓和线条等简单信息,就可以有效表达一帧视频的绝大部分内容。如果只压缩和传输这部分用线条表示的信息,将会大大降低计算和通信的负荷。   
静态“素描”一帧的线条虽然看上去依稀可辨,但是如果要实现由静至动,让多帧静态“素描”连续动起来,就会出现很多问题。首先,在光线强度常易变化等条件的影响下,两帧之间的过渡非常不平稳、闪烁不定。另外,用线条表示出的通话者头发,因为其发迹覆盖处没有黑色填充而显得非常的不自然。在这种情况下,我们研究组就想到用“二值视频”技术来解决这两个问题:在0…256之间确定一个亮度的阈值,图像像素灰度值高于该值则为白,低于该值则为黑。非黑即白(一般用1和0表示)。这种技术不只区分出了线条,而且内部什么地方是白,什么地方是黑,都可以填充进去,这样头发的问题就解决了。         

第90节:“掌上”视频拉近你我的距离(2)         
“二值视频”技术大大降低了视频的原始数据量,而且传输中的连贯性较好,可是其间产生的噪声还是比较多。后来我们又想了一个更为巧妙的办法,这也是“微软肖像”中的核心技术:在区分黑白的时候,不是设定一个单一的阈值来比较,而是设定一个阈值带来比较。阈值带有一定的宽度范围。如果图像像素的灰度值在这个阈值带的上限以上,我们能够很明确地说它是1;如果在它的下限以下,我们也可以很明确地说它是0。但是如果图像像素的灰度值处于这个阈值带之内怎么办呢?我们的处理办法是根据它同一帧内周围的像素和它前一帧相应点周围像素的情况来确定。简单地讲,比如前一帧该点位置是黑的,这一帧该点位置也就是黑的。这样两帧播放起来就连贯了。根据这个原理当时,还是实习生,现在已经是副研究员的许继征给出了相应的算术编码解法。   
填补学术界空白   
总的来说,我们组投入了较大的精力于“二值视频”技术的摸索和创新,也通过一系列的开创性研究填补了学术界的空白,而且始终居于世界领先地位。同时,我们还创立了一种新型的视频形态——“二值视频”。   
大家知道,国际上静态的彩色图像有JPEG图像,动态的彩色视频有MPEG视频,静态的黑白二值图像有JBIG图像,而我们创立的可称为动态的黑白“二值视频”。后来,在“二值视频”的基础上,我们又进一步推出了“四值视频”与此同时,随着带宽条件的不断改善,我们也试着用“第二条腿”走路——在确定了黑白版的微软肖像视频的基础上,我们组又开始向“彩色版”挺进。   
从黑白版的“二值视频”到“四值视频”,再到彩色视频,随着对传输速度和带宽要求的递增,“微软肖像”为用户提供了可以满足不同网络条件而可供选择的软件类型。这三种技术从视频的效果来看,应该说已经包含了所有的功能。近一两年中,我们所做的工作主要是为增强这个可视通信软件的一些其他辅助功能,比如能够更多地支持不同类型的摄像头,能够增强连接性,或者拍张照片,可以传送文件等。   
“微软肖像”软件是很多人团结协作的成果。当时是软件工程师,现在是开发主管的陈刚,编译出了第一个可运行的软件版本。其后又有余可曼、唐健、和林庆维接手这个软件的制作。很多访问学生如周涵宁、王勇、王凯波、王利杰、贺铁林、林云峰、吕江波等都对算法等各方面的研究做出了贡献。当时的研究主管沈向洋博士、李世鹏博士、张亚勤博士等对这个项目给予了大力支持。   
虽然目前“微软肖像”还没有被正式运用到微软的产品中,但是这项技术却通过各种各样讨论掌上电脑和手机的社区网站不断被世人认识,并通过资源共享真正让用户体验到其中的交互乐趣。2001年,“微软肖像”技术在国际多媒体大会上向国际学术界宣布它的诞生。同年8月8日,当USA Today(《今日美国》)的记者第一次通过媒体的声音公开向全世界读者介绍“微软肖像”的时候,我们从来没有想象过这项技术会受到如此的青睐和好评。后来随着包括《麻省理工学院技术评论》等重量级媒体对这项技术的报道和千千万万热心用户对我们软件的反馈之后,我们坚信了”做真正满足用户需要的产品才是创新研究的根本”这一信条。我想这也是我们从事计算机基础的研究工作者应该谨记的信条。   
作者介绍:   
李江,1999年1月加入微软亚洲研究院任研究员,2004年任多媒体通信组主任研究员。之前他曾任浙江大学物理系副教授。他于1989年获清华大学物理系学士学位,1992年获浙江大学物理系光学硕士学位,1988年获浙江大学数学系应用数学博士学位。他做研究项目看重对人的意义和潜在的商业模式,做事讲究简单有条理,平时爱看书、看电影及外出旅游。         

第91节:让语音技术改变人们的生活         
让语音技术改变人们的生活   
作者:余鹏   
在MSRA的办公区墙上,贴着比尔?盖茨曾经说过的一段话:“每天清晨当你醒来的时候,都会为技术进步给人类生活带来的发展和改进而激动不已。”这句话也诠释了MSRA这10年来成就的动力源泉――用技术改变人们的生活。   
我在清华大学的博士课题是语音识别,毕业后进入MSRA的语音组。语音技术经过多年的发展取得了长足的进步,但是在应用领域,却面临着一个尴尬的局面:一些在实验室的理想环境下表现完美的技术,很难找到现实的应用;而在现实生活中,目前语音技术的稳健性和适应性却又达不到应用场景的需求标准。   
如何找到连接技术和应用的桥梁,是我们语音组的研究员考虑最多的问题。   
此路不通?换条道!   
2003年春天,正是北京SARS肆虐的日子。也就是在那时候,我们开始了语音识别用于音频检索的研究。我们选取的第一个应用是搜索个人的语音邮件,针对的场景是10小时以内的语音数据。   
最开始,我们直接用语音识别系统将语音邮件转换成文字来搜索。但很快发现即使最好的语音识别系统,针对语音邮件的准确性也仅仅只有70%左右,而这种情况下,搜索的准确性无法令人满意。为了解决这一问题,我们提出了基于词格的音频检索方法,简单的说,就是除了在语音识别的首选结果上搜索外,加入多候选识别结果的信息。比如,语音识别的第一候选是“研究院”,但同时给出许多次优候选,如“研究员”。通过索引这些多候选结果,搜索的准确性有了大幅度的提高。   
但我们很快发现了另一个问题,常用的语音识别系统依赖于一个事先选取的词典,而不在词表中的词是不可能被识别出来的,这在语音识别中称之为“集外词”问题。对于音频检索,这个问题变得尤为严重,因为很多集外词都是可能被搜索到的关键词。针对这一问题,我们采用了基于音素的语音识别系统,将音频内容和用户关键词都分拆成音素来匹配,取得了很好的效果。   
在那一年的Director Review和第二年的TechFest,我们演示了这一技术,得到了广泛的好评。   
跨越“100小时”这座大山   
在我们演示了基于音素的音频检索技术之后,得到最重要的一条反馈是

返回目录 上一页 下一页 回到顶部 0 0

你可能喜欢的