計(jì)算機(jī)輔助翻譯系統(tǒng)漫談_第1頁(yè)
已閱讀1頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算機(jī)輔助翻譯系統(tǒng)漫談,陳群秀清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國(guó)家實(shí)驗(yàn)室 北京 100084cqx@s1000e.cs.tsinghua.edu.cn,摘要 本文首先簡(jiǎn)單介紹機(jī)器翻譯研究發(fā)展簡(jiǎn)史和研究動(dòng)向。然后本文闡述機(jī)器翻譯系統(tǒng)的分類及特點(diǎn):機(jī)器翻譯系統(tǒng)從系統(tǒng)研制的方法分為基于規(guī)則的機(jī)器翻譯系統(tǒng)和基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng),后者又分為基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)、基于實(shí)例的機(jī)器翻譯系統(tǒng)和翻譯記憶系統(tǒng);從自動(dòng)化程度分為全自動(dòng)

2、機(jī)器翻譯系統(tǒng)、人助機(jī)譯系統(tǒng)和機(jī)助人譯系統(tǒng),后兩種合稱為計(jì)算機(jī)輔助翻譯系統(tǒng);從翻譯轉(zhuǎn)換方式分為直譯式系統(tǒng)、基于轉(zhuǎn)換方式的翻譯系統(tǒng)和基于中間語(yǔ)言(樞軸式)的翻譯系統(tǒng);從翻譯用戶的需求分為為瀏覽者研制、為修訂者研制、為翻譯者研制和為寫作者研制的系統(tǒng)等四種類型。進(jìn)而本文提出機(jī)器輔助翻譯系統(tǒng)最好同時(shí)包含基于翻譯記憶技術(shù)和基于實(shí)例模式翻譯這兩種翻譯功能并且這兩種翻譯方法和翻譯過(guò)程最好分階段進(jìn)行。最后本文對(duì)基于翻譯記憶技術(shù)的輔助翻譯有關(guān)技術(shù)和基于實(shí)例

3、模式翻譯的有關(guān)技術(shù)進(jìn)行了討論。 關(guān)鍵詞 計(jì)算機(jī)輔助翻譯系統(tǒng);機(jī)器翻譯系統(tǒng)的分類及特點(diǎn);基于翻譯記憶技術(shù)的輔助翻譯有關(guān)技術(shù);基于實(shí)例模式翻譯的有關(guān)技,機(jī)器翻譯研究發(fā)展簡(jiǎn)史和研究動(dòng)向 隨著因特網(wǎng)的日益普及應(yīng)用和全球一體化日益進(jìn)展,不同語(yǔ)種間人們交流的語(yǔ)言障礙日益顯得更為突出。為解決這一難題而進(jìn)行的機(jī)器翻譯研究是一個(gè)涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)等多學(xué)科的綜合性研究領(lǐng)域。目前,機(jī)器翻譯研究是國(guó)際上激烈競(jìng)爭(zhēng)的

4、高科技研究領(lǐng)域之一,也是信息處理的實(shí)用學(xué)科。機(jī)器翻譯研究是1946年計(jì)算機(jī)產(chǎn)生后的第一個(gè)應(yīng)用。機(jī)器翻譯研究自1947年美國(guó)洛克菲勒基金會(huì)自然科學(xué)部主任華倫·韋弗提出用現(xiàn)代電子計(jì)算機(jī)進(jìn)行語(yǔ)言翻譯的設(shè)想至今,已有五十多年近六十年的歷史,它的發(fā)展歷史波波折折、起起復(fù)復(fù)。它經(jīng)歷過(guò)最初近二十年的初創(chuàng)期和第一個(gè)興旺期,但由于當(dāng)時(shí)人們對(duì)機(jī)器翻譯的期望值過(guò)高,而機(jī)器翻譯當(dāng)時(shí)的研究水平和技術(shù)的歷史局限,也因?yàn)楫?dāng)時(shí)的大學(xué)科人工智能研究沒(méi)抓住本質(zhì)而

5、又頭腦發(fā)熱盲目樂(lè)觀,致使人工智能和機(jī)器翻譯的研究進(jìn)入了低谷期,即機(jī)器翻譯自1966年美國(guó)發(fā)表了ALPAC報(bào)告(黑皮書)后經(jīng)歷了1966年~1976年長(zhǎng)達(dá)十年的蕭條低迷期。到二十世紀(jì)七十年代中期機(jī)器翻譯研究才開始逐漸復(fù)蘇并進(jìn)入了第二個(gè)興旺期。特別是八十年代以來(lái),機(jī)器翻譯研究得到了長(zhǎng)足的發(fā)展,進(jìn)入了發(fā)展的黃金時(shí)代。這個(gè)時(shí)代有四個(gè)顯著特點(diǎn):,(1) 機(jī)器翻譯研究走出實(shí)驗(yàn)室開始進(jìn)入實(shí)用階段。 這個(gè)階段相繼出現(xiàn)了一些實(shí)用型的機(jī)器翻

6、譯系統(tǒng),例如美國(guó)的SYSTRAN系統(tǒng)(1975年)、加拿大蒙特利爾大學(xué)的TAUM-METEO系統(tǒng)(1976年)、日本富士通公司的ATLAS系統(tǒng)、法國(guó)紡織研究所的TITUS-IV系統(tǒng)(翻譯編織專業(yè)文摘)等。機(jī)器翻譯研究面向應(yīng)用、走向應(yīng)用、邁向商品化,同時(shí)又以應(yīng)用推動(dòng)更高層次的研究,是這一時(shí)代最主要的特點(diǎn)。 (2) 電子和軟件產(chǎn)業(yè)部門直接卷入機(jī)器翻譯研究是這個(gè)時(shí)代的第二個(gè)特點(diǎn)。產(chǎn)業(yè)部門的直接卷入對(duì)機(jī)器翻譯研究發(fā)展產(chǎn)生深遠(yuǎn)的影

7、響。 (3) 國(guó)際間的交流與合作十分活躍是這個(gè)時(shí)代的又一特點(diǎn)。 國(guó)家政府間的合作、民間組織間的合作形式都有。國(guó)家間的合作主要有歐洲共同體EUROTRA計(jì)劃和亞洲由日本政府支持的ODA計(jì)劃。EUROTRA計(jì)劃開始于1978年,主要目的在于開發(fā)一個(gè)能處理歐洲共同體成員國(guó)語(yǔ)言的機(jī)器翻譯系統(tǒng),當(dāng)時(shí)就投入4000萬(wàn)美元,參加的國(guó)家有法國(guó)、德國(guó)、比利時(shí)、丹麥、荷蘭、希臘、愛爾蘭、意大利、盧森保和美國(guó),大約有100多名

8、的研究人員。ODA計(jì)劃是由日本通產(chǎn)省發(fā)起和資助、由日本國(guó)際情報(bào)協(xié)力中心CICC組織、有中國(guó)、泰國(guó)、馬來(lái)西亞和印度尼西亞參加的機(jī)譯合作計(jì)劃,開始于1987年,預(yù)定1992年完成(實(shí)際1993年結(jié)束),政府投資60億日元,翻譯策略為中間語(yǔ)言表示和概念詞典。 (4) 加速吸收和采用新理論和新技術(shù)是這個(gè)時(shí)代的第四個(gè)特點(diǎn)。,機(jī)器翻譯研究雖然進(jìn)入了全面發(fā)展的黃金時(shí)代,但仍然面臨著重重的困難,困難歸困難,但因機(jī)器翻譯的市場(chǎng)是巨大的,

9、前景也是遠(yuǎn)大的,因此各個(gè)國(guó)家對(duì)機(jī)器翻譯研究的興趣正在持續(xù)增長(zhǎng),特別是日本,熱情有增無(wú)減。全世界從事機(jī)器翻譯的研究人員有幾千人,其中日本就將近占了一半。機(jī)器翻譯面臨一些嚴(yán)峻問(wèn)題,例如,機(jī)器翻譯系統(tǒng)的譯準(zhǔn)率長(zhǎng)期徘徊在70%左右(大規(guī)模真實(shí)語(yǔ)料文本下更低),譯文的可讀性、系統(tǒng)對(duì)語(yǔ)言現(xiàn)象的覆蓋面、系統(tǒng)的魯棒性尤其是開放性都不盡人意。社會(huì)迫切需要對(duì)真實(shí)文本(尤其是網(wǎng)上海量文本)進(jìn)行大規(guī)模的處理,而機(jī)器翻譯系統(tǒng)同當(dāng)今社會(huì)對(duì)大規(guī)模真實(shí)文本處理的期望相

10、差甚遠(yuǎn)。機(jī)器翻譯系統(tǒng)的譯準(zhǔn)率和譯文可讀性(可理解度,可懂度)之所以不盡人意是因?yàn)樵诜g過(guò)程中存在著下列問(wèn)題:①源文句子分析時(shí)語(yǔ)法結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)存在歧義;②多義詞在不同語(yǔ)境中存在譯詞選擇問(wèn)題;③譯文生成時(shí)存在介詞、助詞的多義選擇問(wèn)題;④譯文生成時(shí)還存在性、數(shù)、格一致性問(wèn)題、時(shí)態(tài)、語(yǔ)態(tài)、語(yǔ)氣、尊稱選擇問(wèn)題和符合母語(yǔ)語(yǔ)言習(xí)慣、語(yǔ)序選擇問(wèn)題;⑤代詞指代問(wèn)題、相關(guān)詞照應(yīng)問(wèn)題、省略成分復(fù)原問(wèn)題,等等。,目前,機(jī)器翻譯研究領(lǐng)域有幾個(gè)研究動(dòng)向值得注意:

11、 (1) 為解決機(jī)器翻譯系統(tǒng)面臨的重重困難,采用多種翻譯分析策略、多種翻譯方法的結(jié)合是當(dāng)前機(jī)器翻譯研究的動(dòng)向和前沿性研究; 現(xiàn)有基于規(guī)則的翻譯技術(shù)和基于語(yǔ)料統(tǒng)計(jì)的翻譯技術(shù)各有其不足之處,考慮到語(yǔ)言的規(guī)律性和重復(fù)性,一些研究者又提出了一種基于翻譯記憶技術(shù)的機(jī)器翻譯方法,即利用先驗(yàn)的或者人機(jī)交互過(guò)程中生成的翻譯記憶,實(shí)現(xiàn)對(duì)輸入文本的翻譯,例如歐共體(德國(guó)TRADOS公司)開發(fā)的“Trados Translat

12、or’s workbench”系統(tǒng)、美國(guó)的CMU大學(xué)研究開發(fā)的Pangloss系統(tǒng)等,并已取得了很好的效果。不過(guò)由于它們是基于例子的完全匹配,有下面三方面的問(wèn)題:一方面這種例子庫(kù)無(wú)法包容所有的現(xiàn)實(shí)自然語(yǔ)言句子;另一方面由于例子的適應(yīng)性不強(qiáng),如要使這種例子庫(kù)具有一定的語(yǔ)言現(xiàn)象覆蓋面的話,勢(shì)必會(huì)使例子庫(kù)非常龐大,并且細(xì)微差別不能夠有效泛化,冗余度很大;第三方面是例子庫(kù)的譯文構(gòu)造基本局限在模式匹配的語(yǔ)言處理層次上,譯文近似構(gòu)造能力很低。但是基

13、于實(shí)例模式庫(kù)的基于實(shí)例的翻譯方法則能克服以上問(wèn)題,是對(duì)基于簡(jiǎn)單翻譯記憶方法的改造和完善。實(shí)際上現(xiàn)在很多機(jī)器翻譯系統(tǒng)或研究基本上都是采用基于規(guī)則翻譯方法和基于語(yǔ)料庫(kù)翻譯方法相結(jié)合,形成一種研究的潮流和動(dòng)向。,(2) 在機(jī)器翻譯系統(tǒng)中實(shí)現(xiàn)參數(shù)化,這也是現(xiàn)在機(jī)器翻譯系統(tǒng)的一個(gè)發(fā)展方向和新動(dòng)向。 為了提高機(jī)器翻譯的譯文質(zhì)量,有效的方法是將通用的機(jī)器翻譯系統(tǒng)進(jìn)行專一領(lǐng)域化(可在很大程度上提高機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量),而專一領(lǐng)域化又

14、必須對(duì)每一個(gè)領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典加上通用詞典,這就必須花費(fèi)巨大的人力、物力和時(shí)間。為了既能對(duì)機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)專一領(lǐng)域化而又不必對(duì)每一個(gè)領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典,對(duì)機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)參數(shù)化是一種解決辦法。參數(shù)化的機(jī)器翻譯系統(tǒng)有一個(gè)翻譯核心,而且只有一套詞典和一套語(yǔ)法規(guī)則,但在模型的建立中設(shè)置了很多的參數(shù)。對(duì)于不同領(lǐng)域的需求,參數(shù)化的機(jī)器翻譯系統(tǒng)采用自動(dòng)學(xué)習(xí)的方法來(lái)調(diào)整參數(shù)的設(shè)置,以達(dá)到符合這個(gè)領(lǐng)域的要求。臺(tái)灣清華大學(xué)的蘇克毅教授與英

15、群公司研制的英漢機(jī)器翻譯系統(tǒng)ARCHTRAN(采用ATN、RULE、統(tǒng)計(jì)方法三結(jié)合),1989年5月完成,一直為IBM、HP、SUN等公司翻譯手冊(cè)。蘇克毅教授的英漢機(jī)器翻譯系統(tǒng)中實(shí)現(xiàn)了參數(shù)化。,國(guó)內(nèi)翻譯軟件市場(chǎng)上的商業(yè)軟件主要有詞典類軟件和翻譯類軟件兩種。前者包括金山詞霸、東方快車、華建詞海等產(chǎn)品,后者包括華建網(wǎng)上通系列、銘泰公司的東方快譯系列、金山公司的金山快譯、IBM的翻譯家和中軟公司的譯星系列等全文翻譯軟件。華建機(jī)器翻譯有限公司的

16、IAT系統(tǒng)(單板版和局域網(wǎng)絡(luò)版)、德國(guó)TRADOS公司的TRADOS系統(tǒng)(在英語(yǔ)類國(guó)家中市場(chǎng)占有明顯領(lǐng)先地位,有60多個(gè)國(guó)家)、北京雅信誠(chéng)軟件公司的雅信CAT系統(tǒng)(按設(shè)定的匹配率給出參考譯文)則是輔助翻譯類的產(chǎn)品代表。,2. 機(jī)器翻譯系統(tǒng)的分類及特點(diǎn) 從機(jī)器翻譯系統(tǒng)研制的方法來(lái)分,機(jī)器翻譯系統(tǒng)可以分為如下類型: (1) 基于規(guī)則的機(jī)器翻譯系統(tǒng)(Rule-Based MT system,簡(jiǎn)稱RBM

17、TS):它是根據(jù)專家的知識(shí)歸納的語(yǔ)言的規(guī)則設(shè)計(jì)的機(jī)器翻譯系統(tǒng)?;谝?guī)則翻譯方法在機(jī)器翻譯界一直占有主導(dǎo)地位,直到今天仍發(fā)揮著重要作用,現(xiàn)在有影響的MTS都是基于規(guī)則的。 (2) 基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng)(Corpus-Based MT system,簡(jiǎn)稱CBMTS):它是根據(jù)從語(yǔ)料庫(kù)中獲取的統(tǒng)計(jì)數(shù)據(jù)或者語(yǔ)言實(shí)例來(lái)設(shè)計(jì)的機(jī)器翻譯系統(tǒng)。基于語(yǔ)料庫(kù)方法的MTS通常稱為第三代MTS。基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng)還可以進(jìn)一步再分類,分

18、為如下三種類型:,a.基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)(Statistic-Based MT system,簡(jiǎn)稱SBMTS):它是根據(jù)從語(yǔ)料庫(kù)中獲取的統(tǒng)計(jì)數(shù)據(jù)來(lái)設(shè)計(jì)的機(jī)器翻譯系統(tǒng)。統(tǒng)計(jì)機(jī)器翻譯的數(shù)學(xué)模型是由IBM公司的Brown等人提出的(1990,1993),它包括語(yǔ)言模型和復(fù)雜程度遞增的5種翻譯模型(數(shù)學(xué)模型),簡(jiǎn)稱IBM Model 1~5。IBM公司的英法機(jī)譯系統(tǒng)Candide在統(tǒng)計(jì)機(jī)器翻譯方法上做出了有益嘗試。 b.

19、基于實(shí)例的機(jī)器翻譯系統(tǒng)(Example-Based MT system,簡(jiǎn)稱EBMTS):它是根據(jù)從語(yǔ)料庫(kù)中獲取的語(yǔ)言實(shí)例來(lái)設(shè)計(jì)的機(jī)器翻譯系統(tǒng)?;趯?shí)例翻譯方法最早是由日本著名的機(jī)器翻譯專家長(zhǎng)尾真1984年提出的,其基本設(shè)想是不通過(guò)深層的分析,僅僅利用已有的翻譯經(jīng)驗(yàn)知識(shí),通過(guò)類比原理進(jìn)行翻譯。日本京都大學(xué)的英日實(shí)驗(yàn)系統(tǒng)MBT2在基于實(shí)例翻譯方法上做出了有益嘗試。 c.翻譯記憶系統(tǒng)(Translation Memory

20、MT system,簡(jiǎn)稱TMMTS):它是能夠保存和重復(fù)使用翻譯工作者已經(jīng)翻譯好的譯文的翻譯系統(tǒng)。翻譯記憶軟件在內(nèi)容修訂和更新的全過(guò)程中能保存和重復(fù)使用譯文。如果有新的資料需要翻譯,可以使用原來(lái)存儲(chǔ)在翻譯記憶中的譯文,重復(fù)使用原來(lái)的譯文。關(guān)于翻譯記憶機(jī)制的設(shè)想,最早提出這一想法的是Peter Arthern(1978)。他指出:如果能在線檢索已有的、相似文檔的譯文,翻譯人員就能從中獲得很大的幫助。他還主張開發(fā)一個(gè)程序,讓系統(tǒng)記住已經(jīng)翻譯

21、過(guò)的文本,新文本輸入后系統(tǒng)檢查“記憶庫(kù)”,找到相似的文本并輸出其譯文。翻譯記憶技術(shù)系統(tǒng)產(chǎn)品包括Transit(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translator’s Workbench(Trados)、TransPro(TranPro)、WorldLingo等。,從機(jī)器翻譯系統(tǒng)的自動(dòng)化程度來(lái)分,機(jī)器翻譯系統(tǒng)可以分為如下類型: (1) 全自動(dòng)機(jī)器翻

22、譯系統(tǒng)(Full Automatic MT system, 簡(jiǎn)稱FAMTS):它是由計(jì)算機(jī)全部自動(dòng)地進(jìn)行翻譯的機(jī)器翻譯系統(tǒng)。 (2) 人助機(jī)譯機(jī)器翻譯系統(tǒng)(Human-Assisted MT system,簡(jiǎn)稱HAMTS):它是由人來(lái)輔助計(jì)算機(jī)進(jìn)行翻譯的機(jī)器翻譯系統(tǒng)。可以通過(guò)譯前編輯對(duì)于要翻譯的原文進(jìn)行加工,使之適合機(jī)器翻譯系統(tǒng)的要求,或者通過(guò)譯后編輯對(duì)于翻譯好的譯文進(jìn)行修改,使之滿足用戶的需要。 (3)

23、 機(jī)助人譯機(jī)器翻譯系統(tǒng)(Machine-Assisted MT system,簡(jiǎn)稱MAMTS):它是由計(jì)算機(jī)輔助人來(lái)進(jìn)行翻譯的機(jī)器翻譯系統(tǒng)。例如,人可以使用計(jì)算機(jī)來(lái)查詢?cè)~典,修改譯文錯(cuò)誤等。 這后兩種翻譯系統(tǒng)合稱計(jì)算機(jī)輔助翻譯系統(tǒng)。,從翻譯轉(zhuǎn)換方式和翻譯過(guò)程來(lái)分,機(jī)器翻譯系統(tǒng)又可以分為以下三種類型: (1) 直譯方式和直譯式系統(tǒng)(Driect Translation MTS,簡(jiǎn)稱DTMTS):它是以直接翻

24、譯方法為基礎(chǔ)的第一代機(jī)器翻譯系統(tǒng)。直譯法的基本原則是把原語(yǔ)的詞或句子替換成相應(yīng)的譯語(yǔ)的詞或句子,必要時(shí)對(duì)譯文詞序進(jìn)行適當(dāng)?shù)恼{(diào)整。早期的MTS主要采用直譯式的翻譯模式。 (2) 基于轉(zhuǎn)換翻譯方式和基于轉(zhuǎn)換方式的機(jī)器翻譯系統(tǒng)(Transfer Based MTS,簡(jiǎn)稱TBMTS):它包括源語(yǔ)言分析、源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換和目標(biāo)語(yǔ)言生成三個(gè)階段。轉(zhuǎn)換方法保留了較多的源語(yǔ)句型信息和源語(yǔ)到目標(biāo)語(yǔ)的結(jié)構(gòu)轉(zhuǎn)換信息,同時(shí)也較依賴雙語(yǔ)詞典

25、來(lái)提供轉(zhuǎn)換時(shí)所需的源語(yǔ)到目標(biāo)語(yǔ)的結(jié)構(gòu)轉(zhuǎn)換信息。轉(zhuǎn)換可以在詞法、句法或語(yǔ)義等不同的層次上進(jìn)行,即一類系統(tǒng)僅有句法轉(zhuǎn)換,另一類則超越了表層結(jié)構(gòu)加入了語(yǔ)義分析?;谵D(zhuǎn)換翻譯方式其中的許多方法和技術(shù)相對(duì)比較成熟,直到今天仍被沿用。有些基于轉(zhuǎn)換策略的MTS采用了在源語(yǔ)和譯語(yǔ)之間能表現(xiàn)句法關(guān)系并在一定程度上表現(xiàn)語(yǔ)義關(guān)系的中間表達(dá)式(例如句法結(jié)構(gòu)樹、語(yǔ)義網(wǎng)絡(luò)等)。在翻譯過(guò)程中先把源語(yǔ)句子分析結(jié)果轉(zhuǎn)化為中間表達(dá)式,再由中間表達(dá)式轉(zhuǎn)換生成譯文。第二代MT

26、S以基于轉(zhuǎn)換的方法為代表,普遍采用以句法分析為主、語(yǔ)義分析為輔的基于規(guī)則方法、采用由抽象的轉(zhuǎn)換表示的分層次實(shí)現(xiàn)策略。比如著名的有加拿大蒙特利爾大學(xué)的TAUM-METEO系統(tǒng),法國(guó)Grenoble大學(xué)的英法機(jī)器翻譯系統(tǒng)GETA系統(tǒng)和TITUS系統(tǒng),美國(guó)Texas大學(xué)的德英機(jī)器翻譯系統(tǒng)METAL系統(tǒng)和LOGOS系統(tǒng)、德國(guó)Saar大學(xué)的德俄英法多語(yǔ)機(jī)器翻譯系統(tǒng)SUSY系統(tǒng)和日本FUJITSU公司的日英機(jī)器翻譯系統(tǒng)ATLAS-I、ATLAS-I

27、I。,(3) 基于中間語(yǔ)言(中介語(yǔ))方式和基于中間語(yǔ)言(樞軸式)的機(jī)器翻譯系統(tǒng)(Interlingua-Based MTS,簡(jiǎn)稱IBMTS):它將語(yǔ)義表達(dá)推至極限,試圖創(chuàng)造一個(gè)獨(dú)立于各種自然語(yǔ)言同時(shí)又能表達(dá)各種自然語(yǔ)言的無(wú)歧義人工語(yǔ)言作為中間語(yǔ)言。中間語(yǔ)言方法的基本論點(diǎn)是:雖然各種語(yǔ)言的表層結(jié)構(gòu)(句法結(jié)構(gòu))差異比較大,但卻有相同的深層結(jié)構(gòu)表達(dá)式,這些表達(dá)式可以看作通用的語(yǔ)義表達(dá)式。源語(yǔ)經(jīng)過(guò)各個(gè)層次的分析由表層結(jié)構(gòu)到達(dá)深層結(jié)構(gòu),而目標(biāo)語(yǔ)的

28、生成也是從深層結(jié)構(gòu)經(jīng)過(guò)各個(gè)層次最后到達(dá)表層結(jié)構(gòu)。其特點(diǎn)是對(duì)多語(yǔ)翻譯系統(tǒng)非常經(jīng)濟(jì)合算,將n(n-1)個(gè)雙語(yǔ)有向系統(tǒng)變?yōu)?n個(gè)語(yǔ)言分析模塊和生成模塊。法國(guó)Grenoble大學(xué)的俄法系統(tǒng)CETA和美國(guó)Texas大學(xué)的德英機(jī)器翻譯系統(tǒng)METAL在基于中間語(yǔ)言翻譯方法上都做出了有益嘗試。歐共體的EUROTRA計(jì)劃包括多種語(yǔ)言互譯,向多種語(yǔ)言間全自動(dòng)翻譯這一艱巨目標(biāo)邁出實(shí)實(shí)在在的步伐。由日本政府(日本國(guó)際情報(bào)化合作中心CICC)資助的ODA計(jì)劃從1

29、987年至1992年(實(shí)際上是1993年)有日本、中國(guó)、泰國(guó)、馬來(lái)西亞、印度尼西亞等五個(gè)亞洲國(guó)家參加,投資六十億日元,對(duì)中間語(yǔ)言翻譯方法進(jìn)行了探索。,從機(jī)器翻譯用戶的需求來(lái)分,機(jī)器翻譯系統(tǒng)可以分為如下四種類型: (1) 為瀏覽者研制的機(jī)器翻譯(MT for the Watcher,簡(jiǎn)稱MT-W,或MT for the Browser,簡(jiǎn)稱MT-B):其目的是幫助瀏覽者查閱外文資料,對(duì)于譯文質(zhì)量要求不高,瀏覽者可以接受粗糙

30、的譯文。 (2) 為修訂者研制的機(jī)器翻譯(MT for the Reviser,簡(jiǎn)稱MT-R):其目的是幫助用戶修訂粗糙的譯文,粗糙的譯文經(jīng)過(guò)修訂之后,質(zhì)量應(yīng)該比為瀏覽者研制的機(jī)器翻譯的譯文有所提高。 (3) 為翻譯者研制的機(jī)器翻譯(MT for the Translator,簡(jiǎn)稱MT-T):其目的是幫助用戶進(jìn)行在線機(jī)器翻譯,用戶在翻譯時(shí)可以使用在線機(jī)器詞典、翻譯實(shí)例庫(kù)等,因此,對(duì)于譯文質(zhì)量的要求比較高。

31、 (4) 為寫作者研制的機(jī)器翻譯(MT for the Author,簡(jiǎn)稱MT-A):其目的在于幫助用戶進(jìn)行翻譯或?qū)懽鳎M量避免翻譯中的歧義,因此,對(duì)于譯文質(zhì)量要求更高。,3. 機(jī)器輔助翻譯系統(tǒng) 前面已經(jīng)講過(guò),機(jī)器翻譯系統(tǒng)(全自動(dòng)翻譯)的譯準(zhǔn)率長(zhǎng)期徘徊在70%左右,譯文的可讀性、系統(tǒng)對(duì)語(yǔ)言現(xiàn)象的覆蓋面、系統(tǒng)的魯棒性尤其是開放性都不盡人意。社會(huì)迫切需要對(duì)真實(shí)文本(尤其是網(wǎng)上海量文本)進(jìn)行大規(guī)模的處理,而機(jī)

32、器翻譯系統(tǒng)同當(dāng)今社會(huì)對(duì)大規(guī)模真實(shí)文本處理的期望相差甚遠(yuǎn)。機(jī)器輔助翻譯(Computer Aided Translation,簡(jiǎn)稱CAT)的思想就是在這樣的背景下產(chǎn)生的。與全自動(dòng)機(jī)器翻譯系統(tǒng)相比較,機(jī)器輔助翻譯系統(tǒng)是一種人機(jī)交互式系統(tǒng)。在這種翻譯模式中,計(jì)算機(jī)負(fù)責(zé)輔助翻譯人員的任務(wù),不僅給翻譯人員提供一些詞匯、術(shù)語(yǔ)、短語(yǔ)、慣用語(yǔ)翻譯的知識(shí),而且從已翻譯過(guò)文本中查找相同或相似語(yǔ)句的譯文,使翻譯人員避免不必要的重復(fù)勞動(dòng),進(jìn)行高效率的翻譯工作。

33、計(jì)算機(jī)輔助翻譯的重要思想(包括基于翻譯記憶技術(shù)和基于實(shí)例模式的翻譯技術(shù))是在翻譯記憶庫(kù)(雙語(yǔ)對(duì)齊庫(kù))和實(shí)例模式庫(kù)中搜索相同或相似的句子或短語(yǔ),給出參考譯文。翻譯人員充分利用已有的翻譯資源,盡量避免重復(fù)勞動(dòng)。這種輔助翻譯機(jī)制特別適合于科技專著、科技文獻(xiàn)、產(chǎn)品說(shuō)明書、用戶手冊(cè)、產(chǎn)品的幫助文件、聯(lián)合國(guó)文件等這種篇幅長(zhǎng)、重復(fù)語(yǔ)言現(xiàn)象較多的文本類型的翻譯,能幫助翻譯人員消除重復(fù)的翻譯勞動(dòng),只需專注于新內(nèi)容的翻譯。,機(jī)器輔助翻譯系統(tǒng)有不同層次的系統(tǒng)

34、,最早最低級(jí)的是各種雙語(yǔ)電子詞典,第二層是單純的翻譯記憶系統(tǒng)(如德國(guó)Trados公司的Translator’s Workbench),第三層是同時(shí)含有翻譯記憶功能、基于實(shí)例模式翻譯功能、甚至包括規(guī)則翻譯功能的系統(tǒng),例如國(guó)內(nèi)的華建公司的基于多策略的交互式智能輔助翻譯平臺(tái)華建智能輔助翻譯系統(tǒng)HJ-IAT。智能化的機(jī)器輔助翻譯系統(tǒng)至少應(yīng)該包括譯前編輯、譯后編輯、翻譯記憶和檢索、基于實(shí)例模式翻譯、項(xiàng)目工程管理等功能。在基于實(shí)例模式翻譯和基于翻

35、譯記憶技術(shù)翻譯的翻譯流程設(shè)計(jì)上,有幾種做法: (1) 第一種做法是僅僅包含基于翻譯記憶技術(shù)功能或僅僅包含基于實(shí)例模式翻譯功能; (2) 第二種做法是同時(shí)包含基于翻譯記憶技術(shù)功能和基于實(shí)例模式翻譯功能,但兩種翻譯方法和兩種翻譯過(guò)程混合在一起; (3) 第三種做法是同時(shí)包含基于翻譯記憶技術(shù)功能和基于實(shí)例模式翻譯功能,而且兩種翻譯方法和翻譯過(guò)程分階段進(jìn)行。 這第一種做法的兩種都不

36、夠全面,功能也不全,一般不應(yīng)取這種做法。第二種做法能比第一種做法功能要強(qiáng)要全面,但是兩種方法和兩種過(guò)程混合在一起,技術(shù)難度要大,過(guò)程也不好控制。我自己的機(jī)器翻譯系統(tǒng)研究經(jīng)驗(yàn)和體會(huì)是第三種做法總體上最好,兩種方法和兩種過(guò)程的各自目標(biāo)清晰明確,兩種方法可以將自己的優(yōu)勢(shì)發(fā)揮到極致,過(guò)程也好控制。,4. 基于翻譯記憶技術(shù)的輔助翻譯的有關(guān)技術(shù) 前面提到關(guān)于翻譯記憶機(jī)制的設(shè)想是Peter Arthern(1978)最早提出的。198

37、0年前后一些研究人員紛紛開始收集和保存翻譯樣例,希望能將已有的翻譯資源重新利用并資源共享。但當(dāng)時(shí)計(jì)算機(jī)硬件限制(儲(chǔ)存空間有限),建設(shè)雙語(yǔ)語(yǔ)料庫(kù)的費(fèi)用高,雙語(yǔ)語(yǔ)料對(duì)齊的算法不成熟,因此翻譯記憶技術(shù)一直處于探索階段。到1990年左右才有實(shí)際上的翻譯記憶系統(tǒng)在市場(chǎng)上出現(xiàn),如Sadler & Vendelman(1990)的“Bilingual Knowledge Bank”。之后支持翻譯記憶的翻譯工作站首次上市,產(chǎn)品包括Transit

38、(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translator’s Workbench(Trados)、TransPro(TransPro)、WorldLingo等。而且隨著計(jì)算機(jī)存儲(chǔ)空間擴(kuò)大、處理速度加快、大量文本數(shù)據(jù)數(shù)字化又相當(dāng)容易,翻譯記憶系統(tǒng)越來(lái)越得到翻譯人員的關(guān)注和重視(John Hutchins,1998)。目前翻譯記憶機(jī)制不僅是絕大多數(shù)機(jī)器輔助翻譯系統(tǒng)的核心甚至

39、已經(jīng)成為機(jī)器輔助翻譯的代名詞,而且已經(jīng)成為一些多種翻譯策略的機(jī)器翻譯系統(tǒng)的組成部分,成為基于規(guī)則翻譯方法和基于統(tǒng)計(jì)方法的輔助手段和提高翻譯效率的手段。,近幾年各種機(jī)器輔助翻譯軟件在國(guó)內(nèi)外不斷面世,它們的應(yīng)用在國(guó)外翻譯界較為普遍,如歐盟、德國(guó)大眾、西門子、聯(lián)合國(guó)、Microsoft、Cisco、Intel、HP等企業(yè)和國(guó)際組織使用“塔多思專業(yè)輔助翻譯軟件(Trados Translator’s Workbench)”來(lái)進(jìn)行大量科技文獻(xiàn)的翻

40、譯?!癟ranslator’s Workbench”是由德國(guó)Trados公司開發(fā)的面向企業(yè)及個(gè)人的互動(dòng)式翻譯系統(tǒng),該系統(tǒng)直接和微軟的Word集成,界面友好,此外還有強(qiáng)大的網(wǎng)絡(luò)共享、術(shù)語(yǔ)管理、翻譯項(xiàng)目管理,為專業(yè)翻譯領(lǐng)域提供了一整套的解決方案。塔多思基本壟斷了國(guó)際大型翻譯和本地化公司以及全球四萬(wàn)多企業(yè)和國(guó)際組織,市場(chǎng)占有率達(dá)70%以上。中國(guó)對(duì)外翻譯出版公司使用英國(guó)著名的翻譯系統(tǒng)SDLX進(jìn)行大量的專業(yè)文本的翻譯。中國(guó)國(guó)內(nèi)主要產(chǎn)品有雅信CAT

41、和華建智能輔助翻譯系統(tǒng)HJ-IAT,這兩個(gè)系統(tǒng)都支持漢英、英漢雙向翻譯。,基于翻譯記憶技術(shù)的輔助翻譯的研制牽涉到雙語(yǔ)語(yǔ)料庫(kù)的庫(kù)構(gòu)造、語(yǔ)料管理和語(yǔ)料對(duì)齊技術(shù)、輔助翻譯平臺(tái)的翻譯句對(duì)檢索算法、項(xiàng)目工程管理有關(guān)技術(shù),其中最重要的是雙語(yǔ)語(yǔ)料庫(kù)的規(guī)模、語(yǔ)料加工深度、加工質(zhì)量、對(duì)齊描述的對(duì)齊信息描述內(nèi)容和對(duì)齊技術(shù)以及對(duì)齊工具的開發(fā)。雙語(yǔ)對(duì)齊可在篇章級(jí)、段落級(jí)、句子級(jí)、子句級(jí)、短語(yǔ)級(jí)、詞匯級(jí)多種級(jí)別進(jìn)行。目前比較實(shí)用的、技術(shù)比較成熟的是句子級(jí)的對(duì)齊。

42、句子對(duì)齊現(xiàn)有方法基本上有三種:①基于長(zhǎng)度的方法:依據(jù)的是兩種語(yǔ)言譯文的長(zhǎng)度滿足一定比例關(guān)系。②基于雙語(yǔ)詞典的方法:根據(jù)雙語(yǔ)單詞對(duì)譯的分布信息和詞典翻譯模型進(jìn)行句子對(duì)齊。③基于雙語(yǔ)詞典和基于長(zhǎng)度的混合方法:基于長(zhǎng)度的對(duì)齊方法模型簡(jiǎn)單,獨(dú)立于語(yǔ)言知識(shí)和其他外部資源,對(duì)齊效率高,但容易造成錯(cuò)誤蔓延?;陔p語(yǔ)詞典對(duì)齊方法相對(duì)可靠精確,但計(jì)算相當(dāng)復(fù)雜并且詞典譯文覆蓋率先對(duì)較低。將這兩種方法結(jié)合起來(lái)進(jìn)行句子對(duì)齊,有互補(bǔ)優(yōu)勢(shì),可提高對(duì)齊的召回率和正確

43、率。句子對(duì)齊模式可能存在多種模式,例如1:1,1:n,n:1,m:n,甚至0:1或1:0模式。,同句子對(duì)齊相比,短語(yǔ)對(duì)齊或詞匯對(duì)齊可以提供更細(xì)粒度的對(duì)譯信息,能有效地提高譯文準(zhǔn)確度和可讀性,因此對(duì)它的研究具有重要意義。就詞匯級(jí)對(duì)齊技術(shù)而言,目前有基于統(tǒng)計(jì)的和基于詞典的兩類主要方法。統(tǒng)計(jì)方法的主要思想是通過(guò)對(duì)大規(guī)模雙語(yǔ)語(yǔ)料的統(tǒng)計(jì)訓(xùn)練,獲得雙語(yǔ)對(duì)譯詞同現(xiàn)概率,以此作為對(duì)齊的根據(jù)。Brown首先實(shí)現(xiàn)了基于統(tǒng)計(jì)的機(jī)器翻譯模型的詞對(duì)齊,Dagan

44、等對(duì)Brown的模型進(jìn)行了改進(jìn)。Gale & Church等人使用概率分布統(tǒng)計(jì)雙語(yǔ)對(duì)譯詞的同現(xiàn)概率。Vogel等把HMM模型引入詞對(duì)齊。雖然基于統(tǒng)計(jì)的詞對(duì)齊方法已被證明有效,但是該方法需要超大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)作為訓(xùn)練基礎(chǔ)(Brown所用語(yǔ)料庫(kù)規(guī)模是1778620句對(duì),Gale所用語(yǔ)料庫(kù)的規(guī)模是897077句對(duì))但一般人很難獲得如此規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)。而在小規(guī)模語(yǔ)料庫(kù)中直接應(yīng)用基于詞匯同現(xiàn)的統(tǒng)計(jì)方法不可避免出現(xiàn)數(shù)據(jù)稀疏問(wèn)題。由于語(yǔ)言

45、學(xué)信息在雙語(yǔ)語(yǔ)料庫(kù)詞對(duì)齊中有著重要的作用,所以近年來(lái)基于詞典和語(yǔ)言學(xué)知識(shí)的詞對(duì)齊方法也逐漸得到了人們的重視?;陔p語(yǔ)詞典的方法可以獲得可靠的非空匹配。但是由于真實(shí)文本翻譯上下文的多樣性和翻譯的靈活性,詞典譯文的覆蓋率相對(duì)比較低。因此有些研究使用詞性對(duì)齊統(tǒng)的計(jì)方法和基于雙語(yǔ)詞典方法結(jié)合的方法來(lái)進(jìn)行雙語(yǔ)詞匯對(duì)齊。另外還有基于位置變形距離的方法等。華建公司在詞法分析的基礎(chǔ)上利用有限的語(yǔ)言資源(主要是用一部雙語(yǔ)詞典),采取多級(jí)匹配和消歧算法,將

46、詞對(duì)齊問(wèn)題轉(zhuǎn)化為迭代問(wèn)題求解錨點(diǎn)詞對(duì)的過(guò)程。,5. 基于實(shí)例模式翻譯的有關(guān)技術(shù) 由日本著名機(jī)器翻譯專家長(zhǎng)尾真首先提出的基于實(shí)例的翻譯方法的基本思想是根據(jù)已經(jīng)翻譯過(guò)的句子實(shí)例,通過(guò)效仿人類類比思想獲得當(dāng)前帶翻譯句子結(jié)果,即我們平常說(shuō)的觸類旁通,舉一反三。 為了增強(qiáng)機(jī)器翻譯系統(tǒng)的魯棒性和開放性使之適應(yīng)當(dāng)今信息社會(huì)對(duì)大規(guī)模真是文本翻譯處理的迫切需要,更是為了增強(qiáng)機(jī)器輔助翻譯的功能,研究和實(shí)現(xiàn)基于實(shí)例模式翻譯具有

47、重大的意義?;趯?shí)例的翻譯方法有一系列的技術(shù)問(wèn)題,例如實(shí)例的選取、實(shí)例模式的機(jī)內(nèi)表示和存儲(chǔ)結(jié)構(gòu)、查詢算法、復(fù)雜句長(zhǎng)難句的分析和實(shí)例組合、實(shí)例模式自動(dòng)積累、實(shí)例精煉和泛化、待翻句子與實(shí)例庫(kù)中實(shí)例句子相似度的計(jì)算等。其中句子相似度的計(jì)算是其核心技術(shù)之一。 句子相似度的計(jì)算包括詞的相似度計(jì)算、句子句法結(jié)構(gòu)的相似度計(jì)算、句子語(yǔ)義結(jié)構(gòu)的相似度計(jì)算?;趯?shí)例模式翻譯方法的特點(diǎn)為:如在實(shí)例庫(kù)中找到句法結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)都相似的例句便可得到

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論