英文地址圖像識別與翻譯研究.pdf_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、經(jīng)濟全球化的發(fā)展推進了國際信函的廣泛使用,從國外寄達中國國內(nèi)的信函業(yè)務(wù)量迅猛增長。這類信函的收信人地址一般是用英文書寫的,為了保證投遞的效率和質(zhì)量,郵局專業(yè)人員需要將英文表述的收信人地址翻譯成中文并批注到信封上。省會級城市的郵局每天的國際信函處理量達5萬件且逐年遞增。如何實現(xiàn)英文地址自動翻譯成為郵政自動化的一個重要課題。成熟的字符識別技術(shù)以及蓬勃發(fā)展的機器翻譯技術(shù)為此提供了可行的技術(shù)平臺。
   本文提出的英文地址自動翻譯系統(tǒng)是

2、以信封圖像為處理對象,采用文本圖像分割方法和字符識別技術(shù)獲取信封圖像上用英文書寫的地址內(nèi)容,并自動將其翻譯成中文地址的郵政自動化系統(tǒng)。英文地址圖像識別和翻譯涉及文本圖像處理、自然語言處理、機器翻譯、數(shù)據(jù)挖掘、人工智能等多個學(xué)科領(lǐng)域,是字符識別技術(shù)和機器翻譯技術(shù)的有效結(jié)合。本文有以下研究成果:
   根據(jù)信封圖像的特點,提出基于灰度梯度連續(xù)變化特征的窗口定位法,以及復(fù)雜背景下基于連通元特征的地址文字定位法。這兩種方法的組合有效地將

3、收信人地址區(qū)域從信封圖像區(qū)分離出來。本文還提出一種基于游程的快速連通元標(biāo)記方法,大大加快連通元的處理速度,僅需掃描圖像一次即可獲得連通元的相關(guān)信息。
   提出一種基于最大匹配算法的地址理解方法,以及一種基于柔性字符串匹配和有限自動機的地址理解(FPMDFA)方法,對識別得到的地址文本進行分析和理解,從中將路名、樓宇、居民區(qū)、門牌號、公司或者收件人等地址信息提取出來。實驗結(jié)果表明基于最大匹配算法的地址理解方法獲得的結(jié)果正確率高,

4、而FPMDFA方法則在有OCR識別錯誤的情況下能提取更多的地址信息。
   運用變精度粗糙集理論,提出一種基于屬性核的βDP區(qū)間約簡的消歧規(guī)則挖掘方法,即采用基于屬性核的βDP區(qū)間約簡算法對決策表的條件屬性進行約簡,然后再生成相關(guān)的消歧規(guī)則。該方法在一定程度上避免了基于經(jīng)典粗糙集理論的挖掘方法對分類數(shù)據(jù)正確性要求高、不利于規(guī)則泛化的缺點,既有利于從決策表中提取共性規(guī)則,也便于得到單獨情況的個性規(guī)則,同時讓規(guī)則的正確性可控。

5、>   提出一種基于塊距離的柔性字符串匹配方法。即在計算一個字符串通過刪除、插入和替換編輯成另一個字符串的步驟時,將子串的移動也作為編輯操作的一種。這解決了如何度量兩個含義一致但詞序不同的地址之間的相似性問題。實驗表明運用柔性字符串匹配方法度量地址和地址之間的相似性有效地降低了字符識別錯誤對系統(tǒng)造成的影響,提高了系統(tǒng)的容錯性。
   集成上述成果開發(fā)的英文地址自動翻譯系統(tǒng)已經(jīng)在上海郵政速遞局的外信批譯環(huán)節(jié)得到成功應(yīng)用和推廣,產(chǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論