第27部分(第1/4 页)
其实在文本搜索领域,通过基于词的倒排索引,海量数据集的搜索早就不成为难题。但在我们的系统中,因为采用音素为基本单元,使得简单的倒排毫无用处:基本上一个音素会出现在所有的文件中。100小时难题成为横亘在我们面前的一座难以跨越的大山。
经过几次的推倒重来,反复的争辩讨论和大量的实验验证,最后我们提出了索引可变音素串的方法,即通过倒排较长的音素串实现加速,同时借鉴n元文法的backoff方法解决集外词问题,成功地解决了音素一级的索引问题。当最后的演示系统成功地在1秒以内搜索100小时数据集的时候,我们都情不自禁地欢呼起来。
(余鹏 (中) 与项目同事在一起展示语音搜索所用的道具)
出租车上写出来的程序
在微软做研究有一个别的地方无法比拟的优势,那就是,你会有机会把自己的想法和技术应用到微软的软件产品中去,真正做到改变人们的生活。在演示了我们最新的音频检索技术之后不久,Microsoft Office ? OneNote产品组找到我们,表示出应用这一技术的兴趣。
但是我们很快发现要把技术产品化并不那么简单。由于OneNote产品组自己的产品进度非常紧,他们没有足够的人力资源来把这一技术付诸实现。如果我们不想放弃将这一技术付诸产品的机会的话,我们必须亲自参与具体的产品开发,而那意味着我们需要付出大量的努力和时间在一个作为研究员来说并不熟悉的领域。
我们最终选择了全力以赴地将技术实现到产品中,因为我们都相信,没有实现的技术,终究只是技术。那段时间,是我进入MSRA后最为忙碌的日子。除了参与产品进度,我们还有其它的研究课题,加班是经常的事情。举一个例子可以看出当时的紧张程度,因为软件版权问题,我们需要重写音素识别的解码器,而这一工作是我的同事赛德用了一个月的时间,每天坐出租上班的路上用笔记本写的。后来我常常和他开玩笑说那是他的“Taxi Project”。
我们最后提交给OneNote产品组的代码整整有10万行。由于我们的努力,音频检索成功地随着OneNote软件于2006年底发布。那一年的Director Review,我们骄傲的宣布了这一消息,得到了院长们由衷的掌声。
迈出“技术改变生活”的第一步
OneNote的音频检索只是我们迈出的第一步,随后,我们的研究方向转向数据量更大,内容更复杂,需求更多样化的互联网音频/视频搜索和企业级音频/视频的搜索。微软庞大的产品线也让我们找到了更多连接语音技术和用户需求的渠道。
当我们致力于用语音技术改变人们生活这一目标的同时,我们发现这也同样指引我们做出更多更有用的研究。在我们摸索技术实用化的过程中所解决的很多问题,对于学术领域也带来非常大的影响。从2003年开始,我们发表的一系列关于音频检索的文章,现在正引起越来越多的关注。
在MSRA,“用语音技术改变人们的生活”,这一当初我选择语音识别作为我的专业课题时的梦想,正在一点点地成为现实。
作者介绍:
余鹏,浙江绍兴人,2002年毕业于清华大学,获信号于信息处理博士学位。之前于上海交通大学获通讯工程学士学位。现为微软亚洲研究院语音组研究员,研究方向包括信号处理,语音识别,音频搜索,信息检索等。最大的业余爱好是篮球,在球场上是一名出色的投手。
如何做一流的研究 朱文武(1)
从研究生阶段开始算起,我已经在计算机多媒体与通信领域做了近二十年的“研究工兵”了。做研究是我一直乐此不疲的事业,它源自于从小对科学的热爱。最近十几年中,由于工作的需要我前后指导了很多学生做研究,看到他们在学术上的成长和科研上的进步是最让我感到自豪的事情。对于一名学生如何起步做一流的研究,也是我非常乐意与朋友们探讨和分享的话题。
在谈怎样做一流的研究之前,我想先谈一下怎样认知自己和怎样在研究中发挥自己的优势(这一点不仅仅对研究实用,对一个人的职业成长也有用)。我觉得在确立研究事业或者任务之前,每一个人都最好去审视一下自己,达到一个对自己能力和兴趣的最好认知,在西方国家把这一过程称之为Identify your strength。通过分析自身的强势在哪里,对哪些方面