601859917

【摘自吴军的《数学之美》】贾里尼克和现代语言处理

2014-04-09 09:28

 

第7章  贾里尼克和现代语言处理

 

谨以本章纪念弗里德里克·贾里尼克博士(1932年11月18日-2010年9月14日)

 

当我最初在“谷歌黑板报”上发表“数学之美”系列文章时,为了引起读者的兴趣,介绍了一些成功将数学原理应用到自然语言处理领域的大师和学者。但我的根本目的不是为了单纯讲故事,更不是为了聊八卦,而是为了给有志于信息领域研究的年轻人介绍一批大师和成功者,让大家学习他们的思维方式,从而能获得他们那样的成功。在当今物欲横流的中国,学术界浮躁,年轻人浮躁,少数有着远大志向的年轻人实际上是非常孤独的。这很像罗曼·罗兰描写一战后的法国。罗曼·罗兰为了那些追求灵魂高尚而非物质富裕的年轻人写下了《巨人三传》,让大家呼吸到巨人的气息。今天,我希望把一批大师介绍给有志学子。我们从弗里德克贾里尼克开始。

 

按照顺序读到这一章的读者也许注意到了,我们在前面很多章节中提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是跟他的名字紧密联系在一起的。在这里我不想列举他的贡献,而想讲一讲他作为一个普通人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。

 

1         早年生活

 

弗里德里·克贾里尼克(Frederek Jelinek,我们称他为弗莱德)出生于捷克克拉德诺一个富有的犹太家庭,他的父亲是一位牙科医生。传承了犹太民族的传统,弗莱德的父母从小就很注意他的教育,并打算送他去英国的公学(私立学校)学习。为了教他学好德语,还专门请了一位德国的家庭女教师。但是第二次世界大战完全打碎了他们的梦想。他们先是被从家中赶了出去,流浪到布拉格。他的父亲死在了集中营,弗莱德自己成天在街上玩耍,完全荒废了学业。二战后,当弗莱德再度回到学校时,他不仅要从小学补起,而且成绩一塌糊涂,全部是D,但是他很快就赶超了班上的同学。不过,他在小学时从来没有得过A。

 

1946年,捷克开始前苏联式的集权统治。弗莱德的母亲洗去了他父亲当年的教训,果断决定带着当时并不富有的全家移民美国。弗莱德后来讲,“我母亲做了一个非常正确的决定(指离开捷克到美国一事),她没有犯我和父亲同样的错误。当年我父亲已经把所有的(牙医)设备运到了英国,可是他对德国人还是抱有幻想,在最后时刻留了下来。”在美国,贾里尼克一家生活非常贫困,全家基本是靠母亲做点心赚钱为生,弗莱德当时只有十几岁,就进工厂打工赚钱补贴家用。显然,他没有(可能)天天呆在教室和家里,把时间都花在课本上,他在上大学前花在读书上的时间恐怕连现在一般好学生的一般都不到。当然,我自己在小学和中学花在课本上的时间也不到现在学生的一般。所以我们都不赞成中小学生只会上学考试的教育方式。

 

每当弗莱德和我谈起我们各自少年时的教育,我们都同意这样几个观点。首先,小学生和中学生其实没必要花那么多时间读书,而他们的社会经验、生活能力以及在那时树立起的志向将帮助他们的一生。第二,中学阶段花很多时间比同伴多读的课程,在大学以后用非常短的时间就可以读完,因为在大学阶段,人的理解能力要强得多。举个例子,在中学需要花500小时才能学会的内容,在大学可能花100小时就够了。因此,一个学生在中小学阶段建立的那一点点优势在大学很快就会丧失殆尽。第三,学习和(教育)是一个人一辈子的过程,很多中学成绩好的亚裔学生进入名校后表现明显不如那些因为兴趣而读书的美国同伴,因为前者不断读书的动力不足。第四,书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。(因此,少年班的做法不足取。)现在中国的好学校里,恐怕百分之几九十九的还在在读书上花的时间比我当时要多,更要比贾里尼克要多得多,但是这些孩子今天可能百分之九十九在学术上的建树不如我,更不如贾里尼克。这实在是教育的误区。

 

贾里尼克最初的理想在他十来岁时就建立起来了,他原本想成为一个律师,为他父亲那样的冤屈者辩护,但是到美国后,他很快意识到他那浓厚的外国口音将使他在法庭上的辩护很吃力。贾里尼克的第二个理想是成为医生,也算子是承父业。他想进哈佛大学医学院,但他无力承担医学院8年高昂的学费(4年本科教育加上4年的医学院教育)。而恰恰此时麻省理工学院给他一份(为东欧移民设的)全额奖学金。贾里尼克决定到麻省理工学电机工程。贾里尼克的理想在不断改变,但是他通过努力走向成功的志向一直没有改变。

 

在那里,他遇到了许多世界级的大师,包括信息论的鼻祖香农博士,和语言学大师雅各布森(Roman Jackson,他提出了著名的通信六要素)。后来贾里尼克的太太米兰娜从捷克来到美国,在哈佛大学求学,弗莱德经常去邻校哈佛陪着太太听课。在那里,他经常去听伟大的语言学家乔姆斯基(Noam Chomsky)的课。这三位大师对贾里尼克后来的研究方向——利用信息论解决语言问题产生了重要影响。我一直认为,一个人想在自己的领域做到世界一流,他周围必须有非常多的一流人物。贾里尼克的幸运之处就在于他在年轻的时候得到了这些大师的指点,以后再研究境界上比同龄人高出了一筹。

 

弗莱德从麻省理工获得博士学位后,在哈佛大学教了一年书,然后到康内尔大学任教,成了贾里尼克教授。他之所以选择康内尔大学,是因为找工作时和那里的一位语言学家哈克特(Charles Hackott)谈得颇为投机。当时那位教授表示愿意和贾里尼克在利用信息论解决语言问题上进行合作。但是,等贾里尼克到了康内尔以后,那位教授表示对语言学不再有兴趣而转向写歌剧了。贾里尼克对语言学家的坏形象从此开始。加上后来他在IBM时发现语言学家们嘴上说的头头是道,干起活来高不成低不就,就对语言学家从此深恶痛绝。他甚至说:“我没开出一名语言学家,我的语音识别系统识别率就会提高一点。”这句话在业界广为流传,为每一个搞语音识别和语言处理的人所熟知。

 

2         从水门事件到莫妮卡·莱温斯基

 

这个标题不是我为了哗众取宠而起的,而是贾里尼克在1999年ICASSP做的大会报告题目,因为水门事件发生的时间(1972年)恰恰是统计语音识别和自然语言处理开始的时间,而莱温斯基事件弹劾克林顿总统也正好发生于当时会议前一年。

 

贾里尼克在康内尔十年磨一剑,潜心研究信息论,终于悟出了自然语言处理的真谛。1972年,贾里尼克到IBM华生实验室做学术休假(Sabbatical),无意中领到了语音识别实验室,两年后他在康内尔和IBM之间选择了留在IBM。在那里,贾里尼克组建的研究队伍阵容之强大可谓空前绝后,其中包括他的著名搭档(L. Bahl),著名的语音识别Dragon公司的创始人贝克夫妇(Jim Baker & Janet Baker),解决最大熵迭代算法的达拉皮垂(S. Della Pietra & V. Della Pietra)孪生兄弟,BCJR算法的另外两个共同提出者库克(J. Cocke)和拉维夫(J. Raviv),以及第一个提出机器翻译统计模型的布朗(Peter Brown)。就连当时资历最浅的小辈人拉法特(John Laffety)现在都成了了不起的学者。

 

上世纪70年代的IBM有点像上世纪90年代的微软和过去10年(施密特时代)的Google,给予杰出科学家做任何有兴趣研究的自由。在那种宽松的环境中,贾里尼克等人提出了统计语音识别的框架结构。在贾里尼克之前,科学家把语音识别问题当成人工智能和模式匹配问题。而贾里尼克把它当成通信问题,并用两个隐含马尔科夫模型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框架对至今的语音和语言处理有着深远的影响,它不仅从根本上使得语音识别有实用的可能,而且奠定了今天自然语言处理的基础。贾里尼克本人后来也因此当选为美国工程院院士,并被Technology杂志评为20世纪100名发明家之一。

 

贾里尼克的前辈香农等人在将统计的方法用于自然语言处理时,遇到了两个不可逾越的障碍:缺乏计算能力强大的计算机和大量可以用来统计的机读文本语料。最后,他的前辈们不得不放弃。在上个世纪70年代的IBM,虽然计算机的计算能力不能和今天相比,但是,已经可以做不少事情了。贾里尼克和他的同事需要解决的问题就是如何找到大量的机读语料。这在今天已经不是问题的问题,在当时可是有点麻烦,因为当时不仅没有网页,连出版物大多也没有电子版的记录。即使有,也在不同的出版商手里,很难收集全。好在当时有一项全球性的业务是通过全球电信网连接在一起的,那就是电传。IBM的科学家最初就是通过电传业务的文本来时进行自然语言处理研究的。

 

回想起来,基于统计的自然语言处理方法由在上世纪70年代的IBM奠定,有着历史的必然性。首先,只有IBM有足够强大的计算功能和数据。其次,贾里尼克(等人)已经在这个领域做了十多年的理论研究,且当时正在IBM工作。第三,上个世纪70年代是小沃森将IBM的业务发展到顶点的时代,IBM对基础研究的投入强度非常大。如果当时的年轻人能看到这几点,又有足够好的数学基础(这是当时贾里尼克等人挑选科学家的必要条件),应该加入IBM,这样一定是前途无量。

 

贾里尼克和波尔、库克以及拉维夫对人类的另一大贡献是BCJR算法,这是今天数字通信中应用最广的两个算法之一(另一个是维特比算法)。有趣的是,这个算法发明20年后,才得到广泛应用。IBM于是把他列为IBM有史以来对人类的最大贡献之一,并贴在加州阿莫顿实验室(Amaden Research Labs)墙上。遗憾的是BCJR四个人已经全部离开IBM,又一次IBM的通信部门需要用这个算法,还得从斯坦福大学请一位专家去讲解,这位专家看到IBM橱窗里的成就榜,感慨万千。

 

1999年在美国凤凰城召开的ICASSP年会上,贾里尼克以“从水门事件到莫妮卡·莱温斯基”为题作了大会报告,总结了语音识别领域30年的成就。重点回顾了当年IBM的工作,以及后来约翰霍·普金斯大学的工作,也包括我的工作。

 

很多年后我和阿尔弗雷德·斯博格特(Alfred Spector)讨论为什么当初是没有任何语音识别基础的IBM而不是在这个领域有很长研究时间的AT&T贝尔实验室或者卡内基—梅隆大学提出统计语音识别和语言处理。斯博格特认为这是因为没有基础的IBM反而不受调调框框的束缚。这是一个方面,而我强调的则是,大多数时间,很多的历史偶然性背后有着它必然的原因,统计自然语言处理诞生于IBM看似有些偶然,但是当时只有IBM有这样的计算能力,又有物质条件同时聚集起一大批世界上最聪明的头脑。

 

3         一位老人的奇迹

 

读过《浪潮之巅》的读者可能还记得,上世纪80年代末到90年代初,是IBM最艰难的时期,也是郭士纳大量消减科研经费的时期。不幸的是,语音识别和自然语言处理的研究也在郭士纳消减的名单里。贾里尼克和IBM一批最杰出的科学家在上世纪90年代初离开了IBM,他们中的大多数在华尔街取得了巨大的成功,每个人都成了千万(可能有的是亿万)富翁。贾里尼克已经到了退休的年龄,他的财富足以让他舒舒服服地安度晚年。但他是一个一辈子都闲不下来的人,而且书生气很浓,于是1994年去约翰·霍普金斯大学建立了世界著名的CLSP(Center for Language and Speech Processing)实验室。

 

在贾里尼克到约翰·霍普金斯大学以前,这所以医学院闻名于世的大学在工程领域学科日趋老化,早已经没有了二战前可以和麻省理工学院或者加州理工学院比肩的可能,也完全没有语音识别和自然语言处理这样的新兴学科。贾里尼克从头开始,在短短两三年内就将CLSP变成了世界一流的研究中心。他主要做了两件大事,两件小事。两件大事是,首先从美国政府主管研究的部门那里申请了很多研究经费,然后,每年夏天,他用一部分经费,要求世界上20-30名顶级的科学家和学生到CLSP一起工作,使得CLSP成为世界上语言和语音处理的中心之一。两件小事是,首先,他招募了一批当时很有潜力的学者,比如今天在自然语言处理方面颇负盛名的雅让斯基和今天eBay的CTO布莱尔。第二,他利用自己的影响力,在暑假把他的学生拍到世界上最好的公司去实习,通过这些学生的优异表现,树立起C

...
注册或登录后查看完整内容

Pivot学术留学资讯

388 关注者

更多 公共相册精彩活动

蹦豆豆晒分活动

晒出蹦豆豆得分既有机会赢取精美礼物哦!

可能感兴趣的主页

玩转人人 公共主页 公众平台 客服帮助 隐私

商务合作 品牌营销 中小企业
自助广告
开放平台

公司信息 关于我们 人人公益 招聘

友情链接 经纬网 人人游戏 人人分期

人人移动客户端下载 iPhone/Android iPad客户端 其他人人产品

X