基于筆段的脫機(jī)手寫(xiě)體漢字識(shí)別方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩69頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、脫機(jī)手寫(xiě)體漢字識(shí)別具有廣闊的應(yīng)用前景和很高的理論價(jià)值。從應(yīng)用角度來(lái)看,它可以廣泛應(yīng)用于各種紙質(zhì)文檔的高速自動(dòng)錄入,圖書(shū)資料的數(shù)字化,郵件的自動(dòng)分揀,證件的自動(dòng)閱讀,票據(jù)的自動(dòng)處理等方面。從理論方面來(lái)講,研究脫機(jī)手寫(xiě)體漢字識(shí)別可以認(rèn)識(shí)高難度模式識(shí)別的一般規(guī)律,有助于發(fā)展新的模式識(shí)別理論,從而對(duì)傳統(tǒng)的模式識(shí)別理論和技術(shù)在脫機(jī)手寫(xiě)體漢字識(shí)別中的局限性有所突破,且因它涉及到模式識(shí)別、圖像處理、數(shù)字信號(hào)處理、自然語(yǔ)言理解、人工智能、模糊數(shù)學(xué)、信息

2、論、中文信息處理等許多學(xué)科,故脫機(jī)手寫(xiě)體漢字識(shí)別在相關(guān)學(xué)科研究和多學(xué)科的融合研究中都有很高的理論價(jià)值。 從1966年IBM公司的Casey和Nagy首次發(fā)表印刷體漢字識(shí)別的文章開(kāi)始算起,到現(xiàn)在漢字識(shí)別已有40多年的歷史。經(jīng)過(guò)無(wú)數(shù)科研工作者的不懈努力,漢字識(shí)別中的聯(lián)機(jī)手寫(xiě)體識(shí)別和脫機(jī)印刷體識(shí)別已日趨成熟,出現(xiàn)了很多有實(shí)用價(jià)值的產(chǎn)品。只有脫機(jī)手寫(xiě)體識(shí)別至今還不能達(dá)到令人滿意的效果,被稱為文字識(shí)別中“最難征服的領(lǐng)域”,尤其是基于結(jié)構(gòu)特

3、征的手寫(xiě)體漢字識(shí)別更具有挑戰(zhàn)性。它不能利用筆劃順序、書(shū)寫(xiě)輕重等重要信息,而且手寫(xiě)體漢字因人而異,字體繁多,其中連筆問(wèn)題和變形問(wèn)題是手寫(xiě)體漢字識(shí)別中的兩大難點(diǎn)。因此,如何解決這些問(wèn)題已經(jīng)成為研究的熱點(diǎn)。 本文主要研究脫機(jī)手寫(xiě)體漢字識(shí)別中基于筆段的識(shí)別方法,涉及到模式識(shí)別、圖像處理等技術(shù)。預(yù)處理在識(shí)別過(guò)程中占有重要地位,其中細(xì)化和特征點(diǎn)提取是本文的研究重點(diǎn)。細(xì)化方法主要有2類,第1類是一遍掃描,得到單側(cè)邊緣;第2類是多遍掃描,得到中

4、心線(骨架)。在第2類方法中,目前較成熟的是利用模板細(xì)化,但存在著模板數(shù)目太多,內(nèi)存需求大,運(yùn)算速度慢等缺陷。為彌補(bǔ)這一缺陷,一些學(xué)者提出了基于分組的細(xì)化方法,但遠(yuǎn)未成熟。有鑒于此,本文在此基礎(chǔ)上提出了分組細(xì)化法,不僅能夠較快地實(shí)現(xiàn)細(xì)化,而且同時(shí)能夠標(biāo)記出除拐點(diǎn)之外的特征點(diǎn)。具體地說(shuō),即逐個(gè)掃描字符圖像像素點(diǎn),由當(dāng)前像素點(diǎn)8鄰點(diǎn)的分組個(gè)數(shù)來(lái)判斷此點(diǎn)類型,對(duì)筆劃圖像前景點(diǎn)逐層做類型標(biāo)記(刪除某點(diǎn)時(shí)僅做刪除標(biāo)記,不立即置為背景,直到下一輪掃

5、描時(shí),才視為背景),如此循環(huán),直到所有前景點(diǎn)被標(biāo)記完為止。在細(xì)化過(guò)程中,根據(jù)分組數(shù),標(biāo)記字符圖像中心線中的孤立點(diǎn)(0分叉)、端點(diǎn)(1分叉)、骨架點(diǎn)(2分叉)和交叉點(diǎn)(3~8分叉)。 拐點(diǎn)提取方法可分為以下2類:第1類方法是按局部特征來(lái)提取拐點(diǎn),即從像素點(diǎn)入手。這一類方法運(yùn)算量大,易受噪聲干擾。第2類方法按全局特征來(lái)檢測(cè)拐點(diǎn),從筆劃的整體形狀入手,略去骨架的小波折。這類方法簡(jiǎn)單,檢測(cè)速度快,受噪聲影響小,適合于尋找漢字骨架上的拐點(diǎn)

6、,如最大距離法。但最大距離法只能處理單拐點(diǎn)筆劃,不能處理多拐點(diǎn)筆劃,也不能判斷筆劃上拐點(diǎn)的個(gè)數(shù)。本文提出的遠(yuǎn)端拐點(diǎn)法,對(duì)最大距離法進(jìn)行了改進(jìn)。既保持了運(yùn)算速度快、受噪聲影響小的優(yōu)點(diǎn),又能判斷筆劃上拐點(diǎn)的個(gè)數(shù),找出多拐點(diǎn)筆劃上的所有拐點(diǎn)。 實(shí)驗(yàn)證明,分組細(xì)化法和遠(yuǎn)端拐點(diǎn)法執(zhí)行速度快,內(nèi)存需求小,算法簡(jiǎn)單,效率高。最后,本文給出了脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)的流程,其中有些模塊尚未實(shí)現(xiàn),或尚有一定缺陷,這有待進(jìn)一步研究。文中給出了部分算法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論