人工智能在自動文本分類系統(tǒng)中的應(yīng)用研究new_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、人工智能在自動文本分類系統(tǒng)中的應(yīng)用研究摘要:摘要:人工智能與信息社會人工智能研究的就是怎樣利用機器模仿人腦從事推理規(guī)劃、設(shè)計、思考、學習等思維活動。文本分類是指在給定分類體系下根據(jù)文本內(nèi)容(自動)確定文本類別的過程。該文闡述了自動文本分類分類在利用人工智能技術(shù)設(shè)計時的必要性和重要性通過對當前具有代表性的分類算法原理進行分析、比較總結(jié)出每種算法的性能特征既便于使用者了解掌握各種分類算法、更好地選擇合適的算法又便于研究者對算法進行研究改進提

2、出性能更好的分類算法。關(guān)鍵詞:關(guān)鍵詞:人工智能;分類文本分類分類方法1引言引言數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富但信息貧乏”??焖僭鲩L的海量數(shù)據(jù)收集、存放在大型和大量的數(shù)據(jù)庫中沒有強有力的工具理解它們已經(jīng)遠遠超出了人的能力。人工智能的一個重要支柱是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘一開始只是一種從大規(guī)模數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱藏的預(yù)測性信息的科學方法。它讓人們有能力最終認識數(shù)據(jù)的真正價值即數(shù)據(jù)中潛在的可用信息和

3、知識。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)的核心步驟它研究的主要目標是發(fā)展有關(guān)的方法論、理論工具以支持從大量數(shù)據(jù)中提取有用的和讓人們感興趣的知識、模式和規(guī)則。其主要研究內(nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術(shù)、定性定量互換模型、知識表示方法、知識分類算法、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等而分類作為數(shù)據(jù)挖掘的一種模式可以用于提取描述重要數(shù)據(jù)的模型通常是預(yù)測分類標號(或離散值)。例如可以建立一個分類模型對銀行貸款的安全或風險

4、進行分類。許多分類的方法已被機器學習、專家系統(tǒng)、統(tǒng)計學和神經(jīng)生物學方面的研究者提出。文本自動分類技術(shù)是自然語言處理的一個重要的應(yīng)用領(lǐng)域是替代傳統(tǒng)的繁雜人工分類方法的有效手段和必然趨勢特別是隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展網(wǎng)絡(luò)成為人們進行信息交互和處理的最有效的平臺各種數(shù)字化的信息每天以極高的速度增長面對如此巨大的信息人工分類選擇已經(jīng)無能為力計算機自動分類已成為網(wǎng)絡(luò)時代的必然選擇通過利用先進的計算機技術(shù)、人工智能技術(shù)不僅可以實現(xiàn)方便快捷的分類效果節(jié)省

5、大量的人力物力并且可以進一步進行更深層次的信息挖掘處理提高信息的利用效率。文本分類處理的研究是計算機、信息處理領(lǐng)域的重要內(nèi)容特別是隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展這種應(yīng)用也變得更加迫切。2基本概念基本概念2.1人工智能效果然而該方法具有分類規(guī)則制定困難、推廣性差的缺點很難大規(guī)模推廣應(yīng)用;進入90年代以來隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展文檔自動分類的研究也進入了一個新的階段各種分類方法相繼得到了發(fā)展包括機器學習技術(shù)為主的信息分類技術(shù)逐漸取代了基于知識工程的

6、方法成為文本自動分類研究的主要形式如NaveBayes、DecisionTree、LinearClassifiers、神經(jīng)網(wǎng)絡(luò)等等1998年Dtmund大學的T.Joachimes探討了支持向量機方法進行文本分類取得了很好的效果。此外一些學者還采用Boosting方法來探討提高分類處理的方法。國內(nèi)許多研究院所也對中文信息分類技術(shù)進行了大量的研究在具體分類算法上與國外是相同的只是由于中文的詞與詞之間一沒有明顯的分割因此需要首先進行切詞處理

7、。根據(jù)目前對于文本分類技術(shù)的研究大多數(shù)研究者的精力主要放在各種不同分類的方法探索與改進上。然而根據(jù)目前的結(jié)果表明雖然不同的分類方法在進行分類處理時性能上確實存在一些差異但并非是唯一因素而且單純從算法上進一步提高文本分類的效果已經(jīng)相當困難。事實表明分類系統(tǒng)作為一個復(fù)雜系統(tǒng)其它因素對分類性能的影響也是非常大的包括文檔集的選擇、特征詞的處理等等對于具體文本分類技術(shù)的應(yīng)用需要從文本分類處理的多個環(huán)節(jié)著手用綜合的方法來改善和提高分類的性能。3文本

8、分類的特性文本分類的特性文本分類的基本原理是將待處理文本集D=d1d2…,dn按照一定的規(guī)則劃分到預(yù)定義的類別C=c1c2…ck中的過程其基本處理流程如圖1。從具體處理上分為訓練與分類兩個階段因此文本分類是一種有監(jiān)督的學習過程在訓練階段需要人工提供大量的進行了類別標記的事例文檔進行學習在此之間需要首先進行文檔的向量化即將文檔用其特征組成的向量來表示??傮w來講文檔分類處理具有以下特點:文本分類需要先訓練再使用因此訓練樣本的質(zhì)量對分類有較大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論