基于深度學習和知識策略的蒙古文古籍識別研究_第1頁
已閱讀1頁,還剩114頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、分類號!里三坌!UDC論文題目密級編號——基于深度學習和知識策略的蒙古文古籍識別研究研究生:蒸囪丕指導教師:直迸塞教援專業(yè):讓篡扭應恿撞本研究方向:蟹篚信皇處堡所在學院:讓篡扭堂院2016年03月01日內(nèi)蒙古大學博士學位論文基于深度學習和知識策略的蒙古文古籍識別技術(shù)研究摘要蒙古文古籍為研究蒙古社會政治和歷史文化提供了豐富和可靠的資料。為更好地搶救、整理和利用蒙古文古籍,內(nèi)蒙古大學圖書館啟動了古籍電子化工作,將其掃描轉(zhuǎn)換成圖像格式存儲,并

2、向讀者提供了電子化服務。但是,古籍圖像不能再編輯,且檢索效率低,分析和挖掘難度大,亟需利用文字識別技術(shù)將其轉(zhuǎn)換為文本文檔。蒙古文古籍采用木刻雕版工藝印刷,具有排版不夠規(guī)整、字形差異顯著、文字顏料擴散和脫落等特點,給識別工作帶來很大挑戰(zhàn)。本文以《御制蒙古文甘珠爾經(jīng)》為研究對象,在蒙古文古籍識別方面開展了一系列研究,主要內(nèi)容如下:1本文提出了蒙古文古籍單詞的有效識別方法。在分析整詞識別和基于切分的單詞識別兩種方案優(yōu)缺點的基礎(chǔ)上,結(jié)合蒙古文古

3、籍單詞特點,提出了整詞識別和基于切分的單詞識別的混合策略,對高度較低且字形基元切分難度大的單詞采用整詞識別的方法進行識別,對其余單詞采用基于字形基元切分的識別方法進行識別,通過實驗確定了兩種方法的選擇依據(jù)。2本文提出了半自動樣本選取方法。為達到理想的識別精度,需要大量樣本訓練識別中使用的卷積神經(jīng)網(wǎng)絡,為克服人工選取樣本效率低的缺點,提出了半自動的樣本選取方法,首先利用分類器對未分類的全部樣本進行粗分類,然后人工去除每類中不正確的樣本,最

4、后將每類中剩余樣本作為最終訓練樣本。訓練樣本選取分類器的過程采用了書寫者適應性調(diào)整、利用形態(tài)學方法生成偽訓練樣本、多次循環(huán)策略。3本文提出了蒙古文古籍單詞的字形基元切分方法。由于蒙古文古籍單詞存在嚴重的形變和字形基元重疊現(xiàn)象,針對機器印刷體蒙古文單詞的切分方法難以奏效。分析了蒙古文古籍單詞外形特征,提出了基于輪廓分析的字形基元切分方法,首先提取單詞輪廓上的關(guān)鍵點,其次利用輪廓關(guān)鍵點定位單詞主干線,最后利用輪廓關(guān)鍵點和主干線信息生成分割線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論