版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、機器學習研究進展,周志華,http://cs.nju.edu.cn/people/zhouzh/Email: zhouzh@nju.edu.cn,南京大學計算機軟件新技術國家重點實驗室,提綱,國際動向我們的一些工作,機器學習是人工智能的核心研究領域之一經典定義:利用經驗改善系統(tǒng)自身的性能隨著該領域的發(fā)展,主要做智能數(shù)據(jù)分析典型任務:根據(jù)現(xiàn)有數(shù)據(jù)建立預測模型,機器學習,美國航空航天局JPL實驗室的科學家在《Science》(20
2、01年9月)上撰文指出:機器學習對科學研究的整個過程正起到越來越大的支持作用,……,該領域在今后的若干年內將取得穩(wěn)定而快速的發(fā)展,機器學習的重要性,美國航空航天局JPL實驗室的科學家在《Science》(2001年9月)上撰文指出:機器學習對科學研究的整個過程正起到越來越大的支持作用,……,該領域在今后的若干年內將取得穩(wěn)定而快速的發(fā)展,機器學習的重要性,,入侵檢測:是否是入侵?是何種入侵?,如何檢測?歷史數(shù)據(jù):以往的正常訪問模式及其
3、表現(xiàn)、以往的入侵模式及其表現(xiàn)……對當前訪問模式分類,這是一個典型的機器學習問題常用技術:神經網絡 決策樹支持向量機 貝葉斯分類器k近鄰 序列分析 聚類…… ……,,例1:網絡安全,常用技術:神經網絡 支持向量機隱馬爾可夫模型貝葉斯分類器 k近鄰決策樹 序列分析 聚類…… ……,,,,例2:生物信息學,Google的成功,使得Interne
4、t 搜索引擎成為一個新興的產業(yè)不僅有眾多專營搜索引擎的公司出現(xiàn)(例如專門針對中文搜索的就有百度、慧聰?shù)龋?,而且Microsoft等巨頭也開始投入巨資進行研發(fā)Google掘到的第一桶金,來源于其創(chuàng)始人Larry Page和Sergey Brin提出的PageRank算法機器學習技術正在支撐著各類搜索引擎,例3:搜索引擎,DARPA 2003年開始啟動PAL(Perceptive Assistant that
5、 Learns)計劃5年期,首期(1-1.5年)投資2千9百萬美元以機器學習為核心的計劃(涉及到AI的其他分支,如知識表示和推理、自然語言處理等);包含2個子計劃總目標:“is expected to yield new technology of significant value to the military, business, and academic sectors” “develop software that
6、will help decision-makers manage their complex worlds of multiple simultaneous tasks and unexpected events”,美國的PAL計劃,RADAR (Reflective Agents with Distributed Adaptive Reasoning),承擔單位為CMU, 首期7百萬美元目標:“the sy
7、stem will help busy managers to cope with time-consuming tasks” “RADAR must learn by interacting with its human master and by accepting explicit advice and instruction”,美國的PAL計劃: RADAR子計劃,CALO (Cognitive Agent
8、 that Learns and Observes), 承擔單位為SRI,首期2千2百萬美元除SRI外,這個子計劃的參加單位有20家:Boeing, CMU, Dejima Inc., Fetch Tech Inc., GATech, MIT, Oregon HSU, Stanford, SUNY-Stony Brook, UC Berkeley, UMass, UMich, UPenn, Rochester, USC,
9、 UT Austin, UW, Yale, …CALO無疑是PAL中更核心的部分,美國的PAL計劃: CALO子計劃(1),目標: “the name CALO was inspired by the Latin word ‘calonis’, which means ‘soldier’s assistant’”,“the CALO software, which will learn by working with and
10、being advised by its users, will handle a broad range of interrelated decision-making tasks … It will have the capability to engage in and carry out routine tasks, and to assist when the unexpected happens”,從CALO的目標來看,DA
11、RPA已經開始把機器學習技術的重要性放到了國家安全的角度來考慮,美國的PAL計劃: CALO子計劃(2),美國的PAL計劃: CALO子計劃(3),為什么要研究集成學習?,我們最近關于集成學習的一些工作,泛化能力是機器學習關注的一個根本問題 泛化能力(generalization ability)表征了學習系統(tǒng)對新事件的適用性 泛化能力越強越好 提高泛化能力是機器學習永遠的追求,泛化能力,集成學習(Ensemble
12、 Learning)是一種機器學習范式,它使用多個學習器來解決同一個問題,,集成學習,由于集成學習可以有效地提高學習系統(tǒng)的泛化能力,因此它成為國際機器學習界的研究熱點“當前機器學習四大研究方向之首” [T.G. Dietterich, AIMag97],我們的一些工作,選擇性集成集成可理解性多示例集成應用,既然多個學習器的集成比單個學習器更好,那么是不是學習器越多越好?,更多的個體意味著: 在預測時需要更大的計算開銷,因為要計
13、算更多的個體預測 更大的存儲開銷,因為有更多的個體需要保存,1. 選擇性集成,提出了選擇性集成(Selective Ensemble) 證明了 “Many Could be Better Than All” Theorem在有一組個體學習器可用時,從中選擇一部分進行集成,可能比用所有個體學習器進行集成更好,1. 選擇性集成 (con’t),Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neu
14、ral networks: many could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2002年1月以來該刊發(fā)表的所有論文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selecti
15、ve neural network ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.,提出了GASEN算法顯示出選擇性集成理論的可操作性使用少得多的個體學習器,取得了比Bagging和Boosting更高的精度,1. 選擇性集成 (con’t),Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neural networks: m
16、any could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2002年1月以來該刊發(fā)表的所有論文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selective neural netwo
17、rk ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.,選擇性集成思想的一般性:利用多個個體,并對個體進行選擇,可以獲得更好的結果,選擇性集成的思想可以用到更多的領域中去選擇的基本原則:個體的效用高、差異大,1. 選擇性集成 (con’t),國際上的一些研究: 基于選擇性集成的時序預報 [S. Chiewchanwattana et al., ICONIP’02]
18、 GASEN的Grid實現(xiàn) [T.K. Vin et al., IEEE ICDFMA’05] 新的選擇性集成方法 [N. Garcia-Pedrajas, TEC’05] … …,1. 選擇性集成 (con’t),top 1% cited paper since 2000 -ISI “非常重要,非常新穎” (“very significant, very original”)
19、 – IJCAI’01 Review “優(yōu)秀論文” (“excellent paper”) – 《AIJ》 editor “最佳論文之一” (“one of the best papers” ) – 《IJCIA》 editor “了不起的是,該方法比以往著名的
20、集成方法性能更好,而且只用了較小的計算代價” (“It is remarkable that this strategy performs better than well-established ensembling approaches,…, at a much lower computational cost”) – C. Torras “開辟了廣闊的領
21、域” (“opens a wide field” ) – N. Garcia-Pedrajas 《IEEE Trans. EC》,1. 選擇性集成 (con’t),理想的學習系統(tǒng)強泛化能力好可理解性 (comprehensibility) 在很多應用中,學習系統(tǒng)只是一種輔助手段,最終的決策還是需要由用戶來做,2. 集成可理解性,“增強集成可理解性是一個有待研究的問題” [T.G. Dietterich, AIMag97
22、],2. 集成可理解性 (con’t),提出了REFNE方法從功能分析的角度出發(fā)可以從集成中抽取符號規(guī)則,使得集成的功能可以由符號規(guī)則來描述,Z.-H. Zhou, Y. Jiang, and S.-F. Chen. Extracting symbolic rules from trained neural network ensembles. AI Communications, 2003, 16(1): 3-15.據(jù)ISI統(tǒng)
23、計, 該文被引次數(shù)在2003年1月以來該刊發(fā)表的所有論文(共67篇)中排第1,提出了二次學習 (twice-learning)提出了C4.5Rule-PANE算法,Z.-H. Zhou and Y. Jiang. Medical diagnosis with C4.5 rule preceded by artificial neural network ensemble. IEEE Transactions on Informatio
24、n Technology in Biomedicine, 2003, 7(1): 37-42. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2003年1月以來該刊發(fā)表的所有論文(共160篇)中排第5,2. 集成可理解性 (con’t),獲得: 強泛化能力 + 好可理解性,提出了NeC4.5算法從理論上分析了二次學習奏效的原因,推導出條件數(shù)據(jù)中包含噪音數(shù)據(jù)沒有完全表達目標分布直接用L1學得結果的泛化能力顯著優(yōu)于用L2學得的結果,Z.-H.
25、 Zhou and Y. Jiang. NeC4.5: neural ensemble based C4.5. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(6): 770-773.,2. 集成可理解性 (con’t),,“總之,C4.5Rule-PANE應被視為追求完美規(guī)則抽取技術這一圣杯的人的武器” (“In summary, C4.5 Rule-PANE
26、 should be viewed as yet another weapon in the armoury of those seeking the holy grail of a perfect rule extraction technique” )- M. Pennington’s thesis supervised by A.J.C. Sharkey,2. 集成可理解性 (con’t),Free C4.5Rule-PANE
27、package:http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/annex/C45Rule-PANE.htmFree NeC4.5 package:http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/annex/NeC45.htm,3. 多示例集成,三種機器學習框架: 監(jiān)督學習(superv
28、ised learning)所有訓練樣本都有標記(label) 非監(jiān)督學習(unsupervised learning)所有訓練樣本都沒有標記 強化學習(reinforcement learning)延遲標記(延遲獎賞),集成學習的以往研究集中在監(jiān)督學習框架下,一種新的學習框架:多示例學習 (multi-instance learning) [T.G. Dietterich et al., AIJ97],3. 多示例集成,3
29、. 多示例集成 (con’t),以往學習框架:,多示例學習框架:,“能否為常用的機器學習算法設計其多示例版本?” [T. G. Dietterich et al., AIJ97],3. 多示例集成 (con’t),提出了監(jiān)督學習算法向多示例學習轉化的一般準則“Shift the focuses of supervised l
30、earning algorithms from the discrimination on the instances to the discrimination on the bags”提出了多示例集成用集成學習技術來解決多示例學習問題在基準測試上獲得了迄今為止最高的精度記錄,Z.-H. Zhou and M.-L. Zhang. Ensembles of multi-instance learners. In: Proc. E
31、CML'03, Cavtat-Dubrovnik, Croatia, pp.492-502.,3. 多示例集成 (con’t),“關于一個重要話題的寫得非常好的文章” (“Very well written paper on an important topic”) “其新思想和觀點有助于機器學習界更好地理解多示例學習涉及的問題” (“New ideas and points of view that help the com
32、munity to better understand the issues involved in multi-instance learning”) “該工作是創(chuàng)新的并且很可能被其他研究者進行跟隨研究” (“The work is original and likely to give rise to follow-up papers”)- ECML’03 Reviewer,3. 多示例集成 (con’t),我們使用多示例學習器
33、來構建多示例集成,論文 發(fā)表半年后,機器學習工具庫WEKA的創(chuàng)始人、著名學者 E. Frank 的研究組在我們工作的基礎上做了進一步的工作 [X. Xu & E. Frank, PAKDD’04] ,使用單示例學習器來構建多示例集成,也獲得了很好的結果,,,4. 應用,單一學習器:誤識率45.5%假陰性率 17.4%, 二級集成方法:誤識率11.6%假陰性率 2.7% (552幅真實圖像),假陰性率降低意味著漏診的
34、病人減少,對肺癌早期診斷很重要,4. 應用,Z.-H. Zhou, Y. Jiang, Y.-B. Yang, and S.-F. Chen. Lung cancer cell identification based on artificial neural network ensembles. Artificial Intelligence in Medicine, 2002, 24(1): 25-36. 據(jù)ISI統(tǒng)計, 該文被引次
35、數(shù)在2002年1月以來該刊發(fā)表的所有論文(共201篇)中排第1,4. 應用,“這篇文章的質量給我留下了非常深刻的印象。我發(fā)現(xiàn)它非常有趣、信息豐富,我真的很享受閱讀這篇文章” (“The quality of the article impressed me very much. I found the article very interesting and informative and, indeed, enjoyed readin
36、g it.” )- M.R. Graczynski, editor of 《Medical Science Monitor》,“您的杰出工作及研究興趣與Artificial Intelligence in Medicine非常相關,您的支持將極大地促進該刊的發(fā)展” (“Your outstanding work and research interests are very close to the various areas of
37、artificial intelligence in medicine. I am sure your support will greatly enhance the AIM journal.” )- P. Adlassnig, editor of 《AIM》,小結,近5年來: 國際刊物/會議論文60+篇,其中重要國際刊物(IEEE Trans或相當)15+篇包括權威國際刊物AIJ、TKDE、權威國際會議IJCAI等 授權專
38、利4項,另有2項正在受理 據(jù)不完全統(tǒng)計,被國際同行他引170余次(其中SCI他引近90次),一些工作得到國際同行好評,產生了一定影響應邀擔任:6家國際刊物的副編輯/編委/客座編輯 20余國際會議顧問委員/程序委員 荷蘭國家科學基金等一些境外基金機構特邀評審 20余國際刊物(包括AIJ和9種IEEE Trans)的審稿專家,下一步的工作,非
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機器人的學習研究進展深度學習及應用
- 前牙微創(chuàng)種植修復研究進展.pdf
- [學習]肺動脈高壓研究進展
- 肝纖維化無創(chuàng)性診斷的研究進展.pdf
- 微創(chuàng)膝關節(jié)單髁置換術研究進展
- adiponectin研究進展
- nampt在腫瘤中的研究進展
- 微創(chuàng)膝關節(jié)單髁置換術研究進展.pdf
- 機器學習研究進展-西安電子科技大學電子工程學院
- 環(huán)境中多環(huán)芳烴的研究進展
- 土壤-植物系統(tǒng)中鉛的研究進展
- 骨代謝研究進展
- 醬油生產研究進展
- 靜脈治療研究進展
- 胰腺移植研究進展
- 惰性nhl研究進展
- 疼痛機制研究進展
- 重癥康復研究進展
- 房顫的研究進展
- 孤立濕地研究進展
評論
0/150
提交評論