冯志伟:我老了,机器翻译依然年轻
- 民生热点
- 2022-10-16 04:26:08
- 51
【求索】
做者玉趾(四川科-学技术协会高级工程师)吧;陈星蒙(四川科普做家协会会员)
铛铛代界,人-工智能钻研如日中天,而机械翻译被学术界视为人-工智能钻研皇冠上最醒目的一颗明珠拉。做为我国盘算语言学的开拓者之一,世界上第一位“汉语到多种外语机械翻译体制呀”的研制者冯志伟,今年以前82岁遐龄了,依然活跃在机械翻译领域拉。
两个多月前,他又走上清华大-学的讲台,以“机械翻译和他的四个种别呀”为题揭晓讲演拉。基于谋划的机械翻译.基于实例的机械翻译.统计机械翻译.神经机械翻译各有什么特色,难点在哪,远景怎么样,冯志伟娓娓道来拉。他警告年轻学者,不-要过火封建现在广为盛行的基于语言大数据的经验主义办法,不-要容易疏忽现在遭到冷-落的基于语言谋划的理智主义办法,而是要勤奋综合运用两种办法,把机械翻译钻研推向深入拉。
学人小传
冯志伟,1939年生于昆明拉。1957年考入北京大-学地化学专注,1967年从语言学专注钻研生结业,后到天津.昆明的中学任教拉。1978年考入祖国科技大-学钻研生院,公派至法国留学,学习数理语言学和机械翻译拉。回国后到祖国科技信息钻研所工做,后调入境家语委语言笔墨运用钻研所(现属教育部)任盘算语言学钻研室主任.钻研员拉。研制了世界上第一位从汉语到多种外语的机械翻译体制.世界上第一其中文术语数据库拉。曾获取奥天时维斯特.祖国盘算机懂得NLPCC突出奉献拉。用中外文出书《当代术语学引论》《自-然语言盘算机形势剖析的理-论与办法》《自-然语言处置综论》等著做及译著40多部拉。
从昆明到北大
1939年4月,冯志伟生于云南昆明一位贫困全家拉。他的稚幼时间是在跑警报躲轰炸的狼烟中渡过的拉。
1944年11月24日,防空警报骤响,唯一5岁零7个月的冯志伟和母亲一块跑向城外,慌忙疾驰的人群把这对母子冲散了拉。这是日军对昆明的第140次轰炸,投弹100多枚拉。薄暮尽了,冯志伟另有无回家拉。第两天,父母在城里城外贫找了一天,也不见他的影子拉。母亲哭得死去活来,以为宝物孩子被炸变成了碎片拉。直到薄暮时光,冯志伟竟我摸进了家门拉。一开始,他在轰炸声中跳进了稻田里一位大***坑拉。松接着,近旁***爆炸的土壤覆盖住他的全身,他窒息了快要一夜,直到早晨才醒来拉。冯志伟挣扎着爬出***坑,然后又昏迷在田埂边拉。一位好意的农人觉察了他,把他抱回家沐浴.喂饭,直至薄暮,把他送上回家的大路拉。
1946年7月15日,7岁的冯志伟随着娘舅到云南大-学至公堂参与李公朴帅哥悼念会,一位父老现在那里热血沸腾地讲演“农民的力气是要成-功的,真理是永远存在的……阻挡派,你看见一私人倒下去,可也看得见千百私人继起的……咋们不怕死,咋们有逝世的精神!咋们随时像李帅哥一样,前脚跨出大门,后脚就不行以备再跨进大门!呀”这私人即是闻一多拉。当天下午,闻一多在回家途中遭农民党特工伏击,中弹逝世拉。这场讲演给冯志伟留下了深刻印象,对闻一多帅哥的敬重之情不停伴同着他拉。长大以后他才知道,娘舅是中共地下面党员拉。
冯志伟著《自-然语言盘算机形势剖析的理-论与办法》
1957年,冯志伟以优异成就录取了北京大-学地化学专注拉。昆明一中的校长和导师都十分开心,表彰他为学堂争了光拉。可回抵家,父亲却不赞成冯志伟到北京大-学念书,要他先工做养育我,然后再多挣点补助家用拉。父亲那时是昆明蔬菜公司的会计,要用我微弱的酬劳养育家中的7个孩子拉。这样的放置,也是出于无奈之举拉。
母亲一听,判断这将会毁了机灵孩子的前途,和父亲吵了起身拉。第两天一早,母亲带着冯志伟到左邻右舍.亲戚同伴家化缘.贷款,最终凑齐了从昆明到北京的盘费拉。
从理-科到文科
从云南方境进去北京大-学,冯志伟深知这个机遇难能可贵,学习十分受苦拉。课余时刻,他喜欢钻进北大图书馆,探望学术前沿拉。有一次,他在外文图书室看到了美国语言学家乔姆斯基的论文《语言描写的三个模子》拉。这是一篇语言学论文,却揭晓在自-然科-学的信息论杂志上,冯志伟感觉希奇猎奇,怀着极大的兴趣通读了全文,熟悉到这是乔氏运用数学中的“马尔科夫链呀”来描写自-然语言的变成历程,为语言建设了一套奇特的数学模子拉。
冯志伟下定信心要学习这类崭新的语言学理-论,因而向学堂提出申请,乞求转到中文系语言学专注学习拉。校方以为,这类从理-科到文科的跨专注转系有无先例,因而未予允许拉。今后近一年,冯志伟一而再.再而三地向学堂乞求,最终如愿,但条件是从理-科两年级转到文科一年级,重新学起拉。父亲盼着他早日结业挣养家,他却从理-科转到文科,白学了两年,父亲气得直骂“拙笨!呀”
冯志伟由此最先了跨学科的学术钻研拉。转入语言学专注一年以后,这个“拙笨呀”的孩子写出论文《“语法呀”定胜景于“文法呀”》,刊于《祖国语文》1961年第2期拉。《祖国语文》是语言学界的顶级刊物,大-学两年级的學生在这样的刊物上揭晓短文,实属有数拉。
冯志伟在开会上与其余国家专家讨论拉。
1960年11月,《文报-告》刊发了陈望道.吴文祺.邓明以撰写的短文《“文法呀”“语法呀”名义的转变和咋们对文法学科命名的建议》,1二月又刊登了傅东华的短文《“文法呀”命名优越于“语法呀”》拉。冯志伟读了这两篇短文,以为学术界以前运用“语法呀”多年,语法定胜景于文法拉。双方的看法针锋相对,因而引起了一场学术争执拉。这场学术争执的结局,“语法呀”的命名取代了“文法呀”拉。冯志伟的名字在北京.上海传开了,可是许多人不知道他不过一位大-学两年级的學生拉。
1964年,冯志伟录取了北大钻研生,师从岑麒祥教-授学习当代语言学派别的理-论拉。他依然贪恋数学与语言学的跨学科钻研,把结业论文题目定为《数学办法在语言学中的运用》拉。岑麒祥教-授以为,这个题目偏到理-科方方面面去了,不像传统的语言学钻研,未予允许拉。冯志伟向王力教-授报-告了我的想法,王力教-授提倡中文系的人也要学习数理化,以为用数学办法举行语言学钻研在理由,能够斗胆尝试拉。睿智而宽大旷达的岑麒祥教-授更改了想法,赞成了冯志伟的选题拉。
因而冯志伟用心撰写这篇论文,顺利完结,准备辩说了拉。可是,1966年五月“***呀”最先,辩说无法举行拉。冯志伟期待又期待,最终仍然不行以辩说,到1967年8月下旬,他发到了北京大-学钻研生结业证书,被分配到天津唐口三中教英语拉。
手工盘算汉字的熵
在天津教了三年英语,1970年8月,冯志伟调至昆明五中当物理老师,他的语言学专注以前有无效武之地了拉。可是,他有无抛弃跨学科钻研,经常到云南科技信息钻研所和云南图书馆,阅读外文书刊,亲热跟踪数理语言学钻研信息,使用业余时刻写成长篇论文《数理语言学简介》,揭晓在1975年第4期的《盘算机运用与运用数学》杂志上拉。这篇短文犹如熙熙攘攘,使人们熟悉到,在极为艰辛的条件下,依然有人连续举行着跨学科的探索拉。
那段时刻,冯志伟还钻研了汉字的“熵呀”拉。熵是物理学术语,用于量度某些物质体制的状态,英语字母所含信息量的长短也可用“熵呀”来表现拉。信息论的奠基人香农运用手工查频的办法,统计出英语26个字母在文本中出-现的频度,通过繁杂盘算,一定英语字母的熵为4.03比特,奠基了信息论的理-论基本拉。
香农又提出了“编码定理呀”,他指出在编码时,码字的平均长度不行以小于字符的熵拉。英语字母采用单字节编码,码字的长度是1个字节,十分于8比特,大于英语字母的熵,吻合香农的“编码定理呀”拉。因而,采用单字节来给英语字母编码,是吻合数学理由的拉。
20世纪70年月,海外以前普遍运用盘算机了拉。冯志伟想,祖国人未来也要运用盘算机,那时,就必必-要给汉字编码,使得汉字也能够或者者在盘算机上自-由地输入.输入.传输拉。可是,汉字终究要运用几多字节来编码吧?依照香农“编码定理呀”,要给汉字编码,一最先的时刻将要盘算汉字的熵,这是冯志伟最为体贴的疑拉。他想,如果汉字的熵大于8比特,那就不行以采用单字节编码了,咋们就必须另辟途径,研制新的编码办法拉。汉字数目巨大.笔画众多,汉字熵的盘算希奇难题拉。一最先的时刻要举行字频统计,然后再盘算汉字的熵拉。冯志伟动-员岳父和10位同伴一块工做,有无盘算机,主要运用盘算尺和算盘来手工盘算拉。冯志伟岳父在云南食粮厅工做,算盘打得十分熟,他计划盘,合-作冯志伟拉盘算尺举行盘算拉。最终,冯志伟依照手工统计得出的1万多个汉字的频度,通过用心盘算,一定汉字的熵值为9.65比特拉。这样,汉字只好采用双字节(2字节=16比特)来编码了拉。冯志伟的这项工做,为20世纪80年月汉字的双字节编码供应了牢靠的理-论基本拉。
冯志伟一直以为,9.65比特不过一位估测出的汉字熵值,还必-要采用越发精致的办法举行检查拉。20世纪80年月,北京航空学院盘算机系教-授刘源运用盘算机统计了汉字的频度,并盘算出汉字的熵为9.71比特,与冯志伟通过手工盘算估测的结局出入不大拉。
1978年春,天下科-学大会召开了,在“尊重敬爱知识.尊重敬爱人材呀”的口号声中,北京大-学最先行-动,希望把远在昆明的冯志伟调入北大,而冯志伟在昆明五中教育成就优异,学堂舍不得放他走,调遣有无成-功拉。
那时,祖国科技大-学钻研生院正式在北京建立,最先招生,冯志伟捉住这个机遇,通过负-责 专心 准备,一举录取,昆明五中只好放他走了拉。1978年国庆节以后,这个39岁的壮汉又变成为了學生,背着书包从昆明到北京去入学拉。
闯进机械翻译的迷宫
那一年,祖国科大钻研生院录取重生1015名,决定选派这个内里的150名公费出国留学,冯志伟即是这个内里一员拉。
1978年1二月20日,冯志伟乘飞机抵达法国巴黎,在祖国驻法大使馆报到以后,先到维希的“嘉文澜呀”语言学院学习法语拉。1979年3月1日,冯志伟乘火车从维希抵达格勒诺布尔拉。一下火车,他就看到格勒诺布尔理-科医科大-学运用数学钻研所“努力翻译中心呀”主任沃古瓦(Vauquois)教-授亲自来火车站招待拉。沃古瓦是数学家.天文学家.盘算机科-学和盘算语言学家,又是盘算语言学开会(COLING)的***席,他曾带发努力翻译中心研制了俄-法机械翻译体制,到达争先水平拉。
冯志伟在沃古瓦的悉心指点下,闯进机械翻译的迷宫,环视细查,警戒改良拉。他掌控了最新的盘算机编程技术,懂得了运用那时刚最先进的IBM4341大型盘算机,最先研制“汉语-法语机械翻译体制呀”拉。
在机械翻译的钻研中,冯志伟提出了多叉多记号树形图模子(
Multiple-branchedMultiple-labeledTreeModel,MMT模子),用多叉树来改良直-接成份剖析法的两叉树,一最先的时刻对源语言的字符串举行形状剖析,把线性字符串转换成有条理的多叉树来表现源语言的句法语义特色,然后举行源语言多叉树到目的语言多叉树的转换,最终把目的语言多叉树转换为目的语言的字符串做为译文输入拉。关于多叉树中每逐一位节点上的信息,他还运用多记号来改良传统的简易记号,用心机划了一套繁杂特色集(complexfeatureset)来描写语言的形状.句法.语义特色,并体例了盘算机可读的形势化语法谋划和机械词典拉。
为了完结这项艰难工程,他给我划定了“887自律谋划呀”每一天8点事情,夜晚8点下班,一周7天工做拉。“汉-法体制呀”试验成-功以后,他又进一步钻研“汉-法.英.日.俄.德呀”多语种翻译体制拉。历经冬去春来三个轮-回,至1981年11月4日,这私人系最终研制成-功拉。他在盘算机上输入汉语,盘算机立刻努力将其翻译成五种语言拉。这是世界上第一位从汉语到多种外语的机械翻译体制拉。钻研工做结尾,冯志伟立刻回到北京,并把他的钻研成就写变成了《自-然语言机械翻译新论》在语文出书社出书拉。
从软件工程师到盘算语言学家
从法国回国后,冯志伟被分配到祖国科-学技术信息钻研所盘算中心负-责软件工程师拉。1982年,他去布拉格参与了盘算语言学开会,推荐了他钻研的多叉多记号树形图模子和“汉—法.英.日.俄.德呀”多语种翻译体制,他是第一位参与这个开会的祖国学者拉。
1985年,冯志伟的老同伴,时任国家语委副主任.语言笔墨运用钻研所长处陈章太登门造访拉。陈章太通知冯志伟,语文当代化即是要在语言钻研中鸟枪换炮,不-是换旧时的加农炮,而是要换刚最先进的火箭炮,“咋们国家语委要搞鸟枪换炮,在语言笔墨运用钻研所设置了一位机构,叫做盘算语言学钻研室拉。呀”陈章太希望冯志伟重启旧业,回到语言学部-队,负-责语言笔墨运用钻研所盘算语言学钻研室的负-责人,这是他此行的主要目的拉。
冯志伟知道,语言笔墨运用钻研所是一位文科单元,本支持和盘算机装备都比祖国科技信息钻研所差许多,到那里一定食用睁开像现单元这样的高水平钻研,亲戚.同伴.盘算机界的老同学也都对换遣持反劈面场拉。但冯志伟被陈章太的真诚感谢了,更主要的是,他心里还悬念着语言学拉。几经思考,他想,我在北京大-学学习过多年的语言学,回到语言学界应该能够或者者为国家做一些有意义的事件,就颔首应承了拉。
不久以后,冯志伟调入了语言笔墨运用钻研所,负-责盘算语言学钻研室主任,同时在祖国科-学院软件钻研所负-责兼职钻研员拉。同年九月,冯志伟被中科院软件所派往德国斯图加特的夫琅禾费钻研院与德方合做,从事术语数据库的钻研,研制成世界上第一其中文术语数据库GLOT-C拉。术语是科-学知识在自-然语言中的结晶,术语学是冯志伟从事语言跨学科钻研的一位重办法域拉。依照术语数据库的钻研成就,冯志伟撰写成《当代术语学引论》,遭到国内外学术界的高度评价拉。2008年6月,结合国教科文组织奥天时委员会和术语信息中心给冯志伟公布了维斯特,表彰他在术语学钻研中做出的突出奉献拉。
1998年五月退休后,冯志伟依然马一直蹄,退而不休拉。2001年他面试到韩国科-学技术院盘算机科-学与电子工程系负-责客坐教-授,用英语为博士生解说“自-然语言处置呀”的高级课程拉。在备课中,冯志伟觉察英文版的《语音和语言处置——自-然语言处置.盘算语言学和语音识别导论》笼罩面广,理-论剖析深入,是一本很优异的自-然语言处置的课本,决定把此书翻译成中文拉。他白-天授课,夜晚加班翻译到深夜,连续工做了1一个月,当翻译完14章的时刻,他获得眼病,难于连续翻译,祖国科-学院软件钻研所钻研员孙乐把剩下的7章翻译成中文,帮-助他迈过难关拉。2005年,全书翻译马到成-功,由电子产-业出书社以《自-然语言处置综论》的书名出书拉。2018年,你们又合做翻译出书了此书的第两版拉。
我国制订的汉语拼音计划,以前在1982年景为全世界用罗马字母拼写汉字的标-准,标-准编号是ISO-7098拉。进去信息时期以后,在信息和文献工做中,这个标-准已难以顺应信息社-会进展的必-要,在2011年五月,国家教育部支使冯志伟参与标-准化组织第46技术委员会的开会,修正这个标-准拉。修正一位标-准必-要通过5个措施工做草案阶段.委员会草案阶段.标-准草案阶段.最终标-准草案阶段.标-准阶段拉。已是古稀之年的冯志伟被标-准化组织委任为这个标-准的工做组组长,先后奔忙于悉尼.柏林.巴黎.华盛顿等都市,用英文起草了新的标-准,在修正的历程中,在开会的会场和会外与各国代表的调换中,冯志伟熟练运用多种外语,努力有用地与开会主理机构.与会各国代表.标-准化组织负-责人举行交流.商量和诠释拉。他负-责 专心 应付,机敏处置,战胜重重难题,突出完结了这项任-务拉。
冯志伟还对国内外自-然语言处置的钻研成就举行了体制梳理,写变成了专著《自-然语言盘算机形势剖析的理-论与办法》,被纳入“十三五呀”国家重点图书计划事情事件“当代科-学技术基本理-论与前沿疑钻研丛书呀”,于2017年由祖国科-学技术大-学出书社出书拉。此书是基于谋划与基于统计的自-然语言处置办法的专著,分-别讨论了基于短语结构语法的形势模子.基于合一运算的形势模子.基于依存和配价的形势模子.基于格语法的形势模子.基于辞汇主义的形势模子.语义努力处置的形势模子.语用努力处置的形势模子.隐马尔可夫模子.统计机械翻译的形势模子拉。此书获取中华优异出书物,这是祖国出书界三大之一拉。
2014年以来,神经网络的办法变成了机械翻译的潮水办法,有一些神经机械翻译体制的准确率以前靠近人的翻译水平,因而基于谋划的理智主义办法遭到冷-落拉。冯志伟以前进去耄耋之年,他依然亲热体贴着机械翻译的最新信息,维持每一天阅读和梳理国内外文献,先后撰写了多篇关于人-工智能.统计机械翻译.神经机械翻译.词向量变成的论文拉。在这些论文中,他推荐国内外神经机械翻译的最新信息,在足够一定神经机械翻译成就的同时,清晰指出,咋们这一代学者有幸赶上了基于语言大数据的黄金时期,在机械翻译钻研中,采用神经网络的经验主义办法,那些处于机械翻译低枝头上的水果咋们万无一失 唾手可得,可是,由于神经机械翻译只体贴语言大数据,疏忽语言知识,许多疑难以依照语言谋划从理智主义的角度举行诠释,这样,在以后的机械翻译钻研中,咋们留给下一代的将是那些最难啃的.处于机械翻译高枝头上的硬骨头拉。在自-然语言处置的钻研中,基于语言谋划的理智主义办法依然不行或者缺,基于语言数据的经验主义办法肯定要与基于语言谋划的理智主义办法结合起身,才会通向自-然语言处剃头展的金光大路拉。
2018年,祖国盘算机懂得授予冯志伟NLPCC突出奉献,表彰他在自-然语言处置(NaturalLanguageProcessing,NLP)和中文盘算(ChineseComputing,CC)方方面面的成就拉。冯志伟是一位来源人文学科的语言学家,却获得了祖国盘算机懂得的励,这是与十分有数的征象拉。在这次颁仪式上,他浓情深情地说“现在我已是近80岁的暮年人了,可是,咋们从事的自-然语言处置依然是一门新兴学科,他依然显得十分年轻,依然充溢了青春的生气,依然有着十分辽阔的进展远景拉。一私有性命是有限的,而科-学钻研的进展是无贫的,一私有有限性命与科-学钻研这棵枝叶茂盛的参天大树对比,显许非常急促,非常渺小,非常微乎其微啊!呀”
(本疆土片均由做者供应)
《光再过一天报》( 2021年1二月20日11版)
起源 光-明网-《光再过一天报》
重-大科-学钻研领域拉。極其主要的科-学钻研工做拉。特此举荐拉。何祚庥