2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、漢字篆字識別系統(tǒng)文獻綜述 漢字篆字識別系統(tǒng)文獻綜述機械工程學院 研 1201 班 吳金明1.1 1.1 概述 概述漢字識別是用計算機自動辨識寫在紙(或介質) 上的漢字, 是智能計算機接口的一個重要組成部分, 也是中文信息處理中漢字自動、高速輸人的一種最重要手段.作為模式識別和人工智能學科的一個分支一文字(漢字) 識別技術在我國 自 70 年代末起步, 至今已有 30 多

2、 年了, 目前正向實用化大步邁進。在本文中所要解決的問題是對漢字中的篆字進行識別,對于漢字篆字識別系統(tǒng)目前國內(nèi)還沒有成熟的研究,但是其基本原理同其他字體的識別相似。篆字是很古老的一種漢字,在我國漢文字發(fā)展史上,篆字是大篆、小篆的統(tǒng)稱,亦稱篆書。大篆指甲骨文、金文、籀文、六國文字,它們保存著古代象形文字 的明顯特點。小篆也稱“秦篆”,是秦國的通用文字,大篆的簡化字體,其特點是形體勻逼齊整、字體較籀文容易書寫。它是大篆由隸、楷之間的過渡。所

3、以研究篆字文化具有十分重要的歷史意義。掌握了篆字的特征是漢字識別很重要的前提。目前,對于漢字識別系統(tǒng)應用最廣泛的就是光學字符識別(Optical Character Recognition),自從 1929 年Tausheck 取得光學字符識別(Optical Character Recognition)專利以來,經(jīng)過近一個世紀的發(fā)展,OCR 已經(jīng)成為當今模式識別領域中最活躍的研究內(nèi)容之一。它 綜合了數(shù)字圖像處理、計算機圖形學和人工智能

4、等多方面的知識,并在計算機及其相關領域中得到了廣泛應用。漢字識別過程大體如下:1.2 1.2 光學字符識別方法及分類 光學字符識別方法及分類光學字符識別過程首先使識別設備學習、記憶將要辨識字符的特征,使這些特征成為識別系統(tǒng)自身的知識,然后再利用這些先驗知識對輸入圖像進行判 決,得到字符的識別結果。字符的特征不僅僅局限于平面上的點陣位置信息, 在頻率空間、投影空間,甚至語義空間字符都有各自的特征。這些特征在識別字符時又有各自的特點及優(yōu)勢。

5、根據(jù)識別字符所采用具體特征的不同便衍生出 了不同的識別技術。通常,根據(jù)不同的技術策略,識別方法可以分為如下 3類:統(tǒng)計特征字符識別技術、結構字符識別技術和基于神經(jīng)網(wǎng)絡的識別技術。1.3 1.3 光學字符識別的近期發(fā)展 光學字符識別的近期發(fā)展1.采用激光作為掃描光源。這是因為激光光束集中, 方向性強, 掃描光點極小, 因而能顯著地提高分辨能力。另外, 激光光源的壽命比普通光源長許多倍, 光學系統(tǒng)比較簡單, 不需要特制的高精度高壓電源,因此

6、, 其造價也可大幅度降 低。但其缺點是掃描系統(tǒng)大都采用機械式的光點偏轉機構, 對激光束控制不夠靈活, 掃描速度較慢。除激光掃描法外, 還有用半導體光敏元件組成的二維面板(3)多種策略的綜合集成 在 OCR 領域,雖然新的算法思路不斷涌現(xiàn),但是在一個高效的 OCR 系統(tǒng)中 僅僅采用一種識別方式是無法滿足現(xiàn)實要求的。單個識別策略的能力有限,因 此采用多種策略實現(xiàn)優(yōu)勢互補,多角度利用字符的特征信息是 OCR 發(fā)展的方向。在這個方向上經(jīng)常采用的

7、集成策略有投票法、概率法、Dempster-Shafer 法以及行為知識空間法等多種綜合方法。以投票法為例,顧名思義,每種識別策略都擁有一張選票,對于同一個字符不同策略各自產(chǎn)生自己的結果即投票,所有策略投票之后,得票最多的識別結果就是最終的識別結果。顯然,在這種 綜合方式中需要大量資源。一方面要使各種算法都能夠完成,另一方面,如果 各種算法間的并行性不好,總的執(zhí)行時間就要成倍增長。1.5 1.5 漢字識別現(xiàn)狀分析 漢字識別現(xiàn)狀分析漢字識

8、別方法盡管多種多樣〔洲, 但關鍵問題是特征提取和分類器的設計, 穩(wěn)定的特征提取方法和良好性能的分類器設計是整個識別系統(tǒng)的核心,它們直接決定了識別系統(tǒng)的能。目前,有許多漢字特征提取的方法, 例如基于模糊方向像素的特征提取、基于彈性網(wǎng)格方向的分解特征提取、基于梯度的特征提取、基于筆畫和筆順的特征提取、基于結構的特征提取等特征提取的方法。另外, 也有人把小波變換技術用于漢字的識別。再者, 隨著人工神經(jīng)網(wǎng)絡技術的日益發(fā)展, 基于 RBF-DDA

9、神經(jīng)網(wǎng)絡、Hopfield 網(wǎng)絡、ART 網(wǎng)絡、自組織特征映射網(wǎng)絡、認知器模型等的漢 字識別技術也越來越被人們重視。總的來說, 漢字識別方法按特征提取和分類器設計不同, 通??煞譃榻y(tǒng)計模式識別法、結構模式識別法(或稱句法識別法)、統(tǒng)計與結構相結合的識別法(或稱語義句法識別法) 及人工神經(jīng)網(wǎng)絡識別法等。1.6 1.6 我國漢字識別技術的展望 我國漢字識別技術的展望當前漢字識別的發(fā)展非常迅速, 許多成果均已走向實用, 但是不少成果還不成熟,

10、主要問題是識別率還不很令人滿意, OCR 輸出結果還需要費力校對才可, 這大大限制了其實用性。此外我國對漢識別成果缺乏公共的評價材料和手段, 即對漢字識別成果沒有建立一種公共的測試方法,也沒有公共的測試數(shù)據(jù)庫, 因 此其成果缺乏可比性, 難以判斷成果的實際水平。對于漢字識別未來的發(fā)展前途, 我們應抱著樂觀的態(tài)度。因為無論是腦機能的研究( 主要是指人的文字識別 機制的研究) 還是計算機性能的提高都會不斷促進文字識別理論和技術發(fā)展, 并

11、最終達到理想的目標。1.識別方法上仍走統(tǒng)計和結構方法相結合的道路 一種漢字識別的方法就是指特征選擇抽取、分類判別的方法. 特征抽取、分類判別是漢字識別的核心, 決定了識別系統(tǒng)的品質。盡管不同的識別系統(tǒng)具 體的識別方法各不相同, 但就本質而言, 可以歸納為統(tǒng)計和結構兩類基本方法。 目前漢字識別在結構方法中應用了統(tǒng)計方法的模式分布性質, 而在統(tǒng)計方法中, 模式的表示也體現(xiàn)了模式結構特征.統(tǒng)計法宜識別有噪聲的文字, 特征抽取容易 且穩(wěn)定, 但

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論