文浩资源

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 45|回复: 0

机器翻译技术的现状及发展

[复制链接]

0

主题

0

帖子

-2万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
-20126
发表于 2019-9-13 23:46:11 | 显示全部楼层 |阅读模式
篇一:机器翻译技术的现状及发展

机器翻译技术的现状及发展

摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。

关键词:机器翻译;自然语言;发展趋势

1.引言

《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。

2.机器翻译的定义

计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。

3.机器翻译的历史与现状

在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(Machine Translation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MT Summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。4.机器翻译面临的问题

4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:

原文:Thank-you notes are heart-warming.

机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。

在结构层面上,常见的结构歧义有 and(和)结构,如 nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。

4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。 以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。

原文:"But this beauty of Nature which is seen and felt as beauty, is the least part." —Beauty Ralph Waldo Emerson

机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。 夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。 以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。 原文:"I hauled down my colors and surrendered."

—Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。 张有松译文:我偃旗息鼓,甘拜下风。

以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工

修改、加工。

5.机器翻译的发展趋势

机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的塔利班俘虏。如果用人来做翻译,由于语言不通,即使翻译被塔利班收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。” 因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”——这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。

6.结语

目前,机器翻译的水平较50年前有了很大的提升,但要彻底克服语言障碍,使MT投入实际应用,还需数学家、计算机专家、人工智能专家、语言学家、心理学家、认知学家、逻辑学家等通力合作,共同努力,从理论研究和应用开发上有所突破,相信机器翻译会到达光明的彼岸。

参考文献

[1] 李娟,《圣经旧约名篇精选(英汉对照)》[M]. 天津人民出版社,2002

[2] Hutehins, W.J. et al. An Introduction to Machine Translation[M].Academic Press, 1992

[3] 张有松译,《百万英镑/马克.吐温中短篇小说选》 [M]. 译林出版社,2008

篇二:2016年翻译现状研究及发展趋势

中国翻译行业现状调查分析及市场前景预

测报告(2016年版)

报告编号:1889553

行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容:

一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性的思路和参考。

一份有价值的行业研究报告,可以完成对行业系统、完整的调研分析工作,使决策者在阅读完行业研究报告后,能够清楚地了解该行业市场现状和发展前景趋势,确保了决策方向的正确性和科学性。

中国产业调研网Cir.cn基于多年来对客户需求的深入了解,全面系统地研究了该行业市场现状及发展前景,注重信息的时效性,从而更好地把握市场变化和行业发展趋势。

一、基本信息

报告名称: 中国翻译行业现状调查分析及市场前景预测报告(2016年版) 报告编号: 1889553←咨询时,请说明此编号。 优惠价: ¥7020 元 可开具增值税专用发票 Email: kf@Cir.cn

网上阅读: http:///R_QiTaHangYe/53/FanYiWeiLaiFaZhanQuShi.html 温馨提示: 如需英文、日文等其他语言版本,请与我们联系。

二、内容介绍

翻译是在准确、通顺的基础上,把一种语言信息转变成另一种语言信息的行为。翻译是将一种相对陌生的表达方式,转换成相对熟悉的表达方式的过程。其内容有语言、文字、图形、符号的翻译。其中,“翻”是指对交谈的语言转换,“译”是指对单向陈述的语言转换。“翻”是指对交谈中的两种语言进行即时的、一句对一句的转换,即先把一句甲语转换为一句乙语,然后再把一句乙语转换为甲语。这是一种轮流的、交替的语言或信息转换。“译”是指单向陈述,即说者只说不问,听者只听不答,中间为双语人士,只为说者作语言转换。

2009-2015年我国翻译行业市场规模及预测

中国翻译行业现状调查分析及市场前景预测报告(2016年版)是对翻译行业进行全面的阐述和论证,对研究过程中所获取的资料进行全面系统的整理和分析,通过图表、统计结果及文献资料,或以纵向的发展过程,或横向类别分析提出论点、分析论据,进行论证。中国翻译行业现状调查分析及市场前景预测报告(2016年版)如实地反映了翻译行业客观情况,一切叙述、说明、推断、引用恰如其分,文字、用词表达准确,概念表述科学化。

中国翻译行业现状调查分析及市场前景预测报告(2016年版)揭示了翻译市场潜在需求与机会,为战略投资者选择恰当的投资时机和公司领导层做战略规划提供准确的市场情报信息及科学的决策依据,同时对银行信贷部门也具有极大的参考价值。 正文目录

章 语言服务行业发展环境

1.1 语言服务行业概述1.1.1 语言服务的含义1.1.2 语言服务行业定义1.1.3 语言服务主要内容1.1.4 语言服务行业参与方 1.2 语言服务行业政策环境1.2.1 行业管理体制1.2.2 行业标准规范1.2.3 政策环境缺陷 1.3 语言服务行业经济环境1.3.1 国民经济增长情况 (1)国内经济运行 (2)国内经济走势预测1.3.2 对外贸易形势1.3.3 外资在华投资情况1.3.4 经济环境与行业相关性 1.4 语言服务行业技术环境1.4.1 翻译记忆技术发展1.4.2 机器翻译技术的发展1.4.3 翻译管理系统的发展 章 全球语言服务行业发展分析 2.1 全球语言服务市场规模分析2.1.1 全球语言服务市场规模2.1.2 全球语言服务地区分布

(1)市场份额分布 (2)企业数量分布 2.2 全球语言服务需求特点 2.3 全球语言服务市场预测 2.4 全球语言服务市场趋势

章 中国语言服务行业规模与需求分析 3.1 语言服务行业发展历程 3.2 语言服务行业发展规模3.2.1 语言服务行业产值3.2.2 语言服务企业数量3.2.3 语言服务人员数量 3.3 语言服务行业需求分析3.3.1 国际贸易对行业需求

第四章 中国语言服务行业竞争强度分析 4.1 语言服务行业竞争分析4.1.1 语言服务行业总体竞争态势4.1.2 翻译与本地化服务行业竞争分析 (1)供应商议价能力 (2)下游客户议价能力 (3)行业潜在进入者威胁 (4)替代品的替代能力 (5)行业内部企业的竞争 (6)竞争情况总结 4.2 语言培训行业竞争态势分析

篇三:机器翻译:现状与展望

机器翻译:现状与展望

中国专利信息中心 王 丹 李 进

机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。

步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速,网络信息急剧膨胀,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题。由于人工翻译的方式远远不能满足需求,利用机器翻译技术协助人们快速获取信息,已经成为必然的趋势。

一、机器翻译简史

机器翻译的研究历史可以追溯到20世纪四五十年代。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W. Weaver和英国工程师A. D. Booth在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,W. Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:

1.开创期(1946-1964)

1954年,美国乔治敦大学(Georgetown University)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。

中国开始这项研究也并不晚,早在1956年,国家就把这项研究列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。1957年,中国科学院语言研究所与计算技术研究所合作开展俄汉机器翻译试验,翻译了9种不同类型的较为复杂的句子。

从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。

2.受挫期(1964-1975)

1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期

两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞了。机器翻译步入萧条期。

3.恢复期(1975-1989)

进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如Weinder系统、EURPOTRA多国语翻译系统、TAUM-METEO系统等。

而我国在“十年浩劫”结束后也重新振作起来,机器翻译研究被再次提上日程。“748”工程给予了机器翻译研究足够的重视,80年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了KY-1和MT/EC863两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。

4.新时期:(1990~现在)

随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

二、主要的机器翻译方法评述

机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。表象上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术层面则是机器翻译系统采用的方法论问题。

在方法论层面,机器翻译系统可分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者是由词典和语法规则库构成翻译知识库,后者则是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。其中,基于语料库的方法又可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。

换个角度说,基于规则的方法属于理性主义范畴,基于语料库的方法则属于经验范畴。回顾近六十年的机器翻译发展史,翻译方法论的演变实际上就是“经验”与“理性”的相互

“交流”。

1.主导地位的基于规则的方法

(1)基于规则方法的发展历程

早期的机器翻译系统基本上都采用基于规则的方法。1954年,世界上第一台机器翻译系统IBM701诞生,它只有250条俄语词汇、6条基本语法规则以及49个俄语翻译例句,通过直译法完成了世界上第一次机器翻译实验。所谓直译法,即把源语言中的单词或句子直接替换成相应目标语的单词或句子,必要时对词序进行适当的调整。直译法一般是针对特殊的语言对来设计,系统移植比较困难,缺乏通用性。

典型的直译法翻译系统是Systran系统,它是美国在乔治敦大学机器翻译系统的基础上进一步开发的,设计之初只能完成从俄文到英文的翻译,后来改进为可实现多语种之间的互译。这个系统对机器翻译的后续发展有着很大的影响,目前仍有不少翻译系统采用直译法。

在直译法逐步改进的同时,基于转换的方法也相伴而生。所谓基于转换,就是对句子结构进行层次分析,在词对词翻译的基础上,根据不同语言的不同规则生成相应的译文。这种方法需要三部字典:源语字典、源语—目标语双语字典和目标语字典。

最直观的例子就是中英文互译,中国人的名字是先姓后名,美国人的名字是先名后姓;中文句子是主谓宾加名词短语,英文句子是主谓宾加从句。诸如此类的不同规则,在转换法的翻译过程中,都需要通过三部字典中的特定描述才能顺利转化。

伴随着直译法和转换法的发展,另外一种基于规则的方法—中间语法应运而生。它先把源语言分析转换成对所有语言都适合的一种句法—语义表示,再由此转换为目标语言。也就是说,基于该方法的翻译过程包括两个阶段:从源语言到中间语言,再从中间语言到目标语言。

这种方法有一个典型的好处:节省开发费用。当需要多种语言翻译的时候,可以直接通过中间语言翻译到目标语言,而不需要每一种语言都设立一套规则程序。假如有6种语言需要彼此相互翻译,采用基于转换的方法需要30个语言转换模块(每对语言都需要一个模块),而采用中间语法的系统只需要12个模块。

虽然提出了三种方法,但显然当时的研究者还没有意识到机器翻译的难度,这些简单的方法对于稍复杂的句子就已经无能为力了。随着研究的深入,人们逐渐认识到:要完成机器翻译,计算机必须能够在一定程度上理解源语言的句子。与此同时,人工智能这门学科在20世纪70年代有了很大的发展,各种知识表示和知识推理的理论和算法纷纷被研究者提出。人们对自然语言的理解和机器翻译的认识有了质的飞跃。

这一阶段研究人员对基于规则的方法进行了创新性的改进,其主要特点是对语言进行了深层次的分析、转换和生成,也就是说,翻译不再是只在句子的表层(词序列)上进行,而是在句子的某种更深层结构(例如句法结构、语义结构或知识表示)的层面上进行。要实现这一点,系统就需要大量的语言知识和翻译知识,为此,机器翻译程序采用了数据与程序

相分离的存储形式,语言知识和翻译知识以数据形式存在,而翻译程序利用这些数据进行翻译。这种数据最常见的表现形式就是规则和词典。

基于规则的机器翻译系统在1980年代达到一个高峰期,市场上涌现出很多基于规则的机器翻译系统,其中一些已经步入实用化阶段。国际上也出现了一些大规模的研究计划,例如欧盟的Eurotran项目和日本的亚洲五国语言机器翻译项目。即使到目前,大多数实用型机器翻译系统也都是以基于规则为主。整体而言,基于规则方法的翻译系统覆盖面宽,但译文质量的一致性有待提高。

(2)基于规则方法的现状

纵观机器翻译发展的历程,可以看出,机器翻译的主流方法一直是基于规则的方法。国际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也要包含规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广的方法。基于规则的机器翻译系统就是对语言语句的词法、语义进行分析、判断和取舍,然后重新排列组合,最后生成等价的目标语言。

基于规则的机器翻译方法导致了程序工作者和语言工作者的一种合作范式:程序工作者和语言工作者先共同制定数据规范,确定翻译算法、语言知识和翻译知识的表示形式,然后程序工作者编写程序实现翻译算法,语言工作者编写语言知识和翻译知识驱动翻译算法的运行,两者分工合作,缺一不可。

在这种工作范式下,系统翻译性能通常受到两方面因素的制约:一是算法的设计是否合理,另一个是语言知识是否足够丰富,其中最主要的瓶颈还在于后者。一旦翻译程序编程结束,并经过调试稳定以后,基本上就不需要再做修改,改进翻译性能的任务完全落在了语言工作者的身上。对于基于规则的机器翻译系统而言,知识获取实际上是最大的瓶颈。通常,经过一个人一年左右的调试就能得到一个可以翻译简单句子的演示系统,但要真正得到一个初步实用的机器翻译系统,非得要通过一批人经年累月的调试和积累不可。

在上述背景下,一方面,研究者们已经建立了一定规模的规则库,覆盖了相当多的语言现象。另一方面,基于规则的机器翻译技术不断借鉴和融合其他方法的优点,这些变化主要体现在:

在规则的获取方面,传统的规则方法主要依靠语言学家的总结进行调试,而现在更加重视从大规模语料库中自动获取规则。

传统的规则方法往往偏重描述粗粒度、全局化的大范围语言学规则知识,而现在则更加重视描述细粒度、局部的小范围的语言学知识,呈现出“小规则库、大词典”的趋势。 在知识表示方面,为了以更小的粒度、更加准确地对翻译知识进行描述,一般要对单纯的与上下文无关的规则作一些改进。改进的方法有以下两种:一种是采用特征结构与合一算法,例如LFG、GPSG 等等,这种方法一般要求具有较好的语言学背景;另外一种是采用词汇化的方法对规则加以细化。

传统的规则方法采用的往往是非此即彼的确定性原则,系统的鲁棒性较差,而现在的规则系统中一般都引入各种形式的概率或者评分函数,系统的鲁棒性有所提高。概率与评分函数方法的区别在于:前者一般有比较严格的数学模型做基础,概率值的计算要以对大规模语料库的统计为依据;后者的主观性较强,评分规则的确定以及具体规则的分值都是人为的,人们可以根据经验进行调整。

随着机器翻译研究的不断深入,规则方法存在的问题逐渐暴露出来。该方法最大的问题在其知识获取方面,单纯依靠语言工作者人工编写规则似乎永远也不能满足实际应用的需要。一个在市场上销售的机器翻译系统通常都要经过数十人乃至数百人的调试,但翻译效果还是远远不能达到令人满意的程度。

更为糟糕的是,人工添加规则的做法导致规则库的规模更大,而系统性能的改进则更为困难。因为一方面规则库越大,规则之间的冲突就越多,出现了所谓的“跷跷板现象”,系统虽然对某些句子翻译效果好了,但对另外一些句子的翻译效果反而差了,系统的整体性能并没有提高;另一方面,在后面加入的规则通常都是一些粒度非常小的规则,只能处理非常个别的语言现象,对系统整体性能的改进很小,整个系统的性能提升极为缓慢,而这个时期一些大型的机器翻译研究项目也都以失败而告终。基于规则的机器翻译方法似乎走到了尽头。

2.异军突起的基于统计的方法

基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。

实际上,用统计学方法解决机器翻译问题的想法并非是20 世纪90年代的全新思想,1949年W. Weaver就已经提出使用这种方法,只是由于乔姆斯基(Chomsky)等人的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。另外,限于当时的计算机速度,统计的价值也无从谈起。而现在,计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。

统计机器翻译方法的数学模型是由国际商业机器公司(IBM)的研究人员提出的。统计机器翻译的基本思想是:从理论上说,这种模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻


《机器翻译技术的现状及发展》出自:百味书屋
链接地址:http://www.850500.com/news/12479.html
转载请保留,谢谢!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

代学代考网络课程远程培训

QQ|手机版|文浩资源 ( 湘ICP备17017632号 )文浩资源

GMT+8, 2024-12-22 22:43 , Processed in 0.278556 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表