信息檢索綜合課程設(shè)計 課程介紹_第1頁
已閱讀1頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、信息檢索綜合課程設(shè)計課程介紹,主講人:李正華蘇州大學(xué)計算機學(xué)院2016年2月29日,主要參考陳文亮老師課件,自我介紹,姓名:李正華電子郵件:zhli13@suda.edu.cn個人主頁:http://hlt.suda.edu.cn/~zhli 課程主頁:http://hlt.suda.edu.cn/~zhli/teach/ir-2016-spring 研究方向:自然語言處理、人工智能,學(xué)生情況調(diào)查,修過哪些編程課?這學(xué)期修

2、什么課程?C++中的string; vector; map等會很方便;Java中也有類似的東西有的編程作業(yè)直接用C實現(xiàn)稍微復(fù)雜一些寫過多大規(guī)模的程序?,學(xué)習(xí)目的,學(xué)習(xí)信息檢索基礎(chǔ)知識動手構(gòu)建一些小系統(tǒng)(編程實踐)拿到本門課學(xué)分,,計分方式,5,實驗作業(yè):70分(可能會酌情調(diào)整)小作業(yè)3個*10分=30分大作業(yè)2個*20分=40分平時出勤、回答問題等:10分不能遲到、早退,特殊情況必須請假,并帶輔導(dǎo)員簽字的假條;點

3、名時,如果發(fā)現(xiàn)名單上沒有你的名字,及時提出;(選修課的名單有時候會變)作業(yè)完成非常好的同學(xué)可以告訴我,特殊對待。期末小測驗:20分考察課程相關(guān)的基礎(chǔ)知識,提綱,6,什么是信息檢索?為什么要學(xué)習(xí)信息檢索?,提綱,7,什么是信息檢索?為什么要學(xué)習(xí)信息檢索?,什么是信息檢索,現(xiàn)場問答來幾個互聯(lián)網(wǎng)應(yīng)用例子……,8,,,,你們來之前,什么是信息檢索?我得先調(diào)查一下,免得被蒙了。,,,,,,,,,接著,信息檢索挺有趣的哈!先整件衣

4、服吧,有點冷!,,,,接著,,其實我還缺個女朋友!,,,中科院研究生院2011年度秋季課程,16,什么是信息檢索?,提問(隨機點名系統(tǒng)),17,三個應(yīng)用例子的共同特征,給定需求(或者是對象),從信息庫中找出與之最匹配的信息(或?qū)ο?Google/百度的例子:需求 “信息檢索”淘寶的例子:對象 “男士西服”世紀(jì)佳緣網(wǎng)的例子:對象 “女朋友”!,18,信息檢索的一些官方定義,給定用戶需求,返回滿足該需求的信息的一門學(xué)科。通常涉及信

5、息的獲取、存儲、組織和訪問。從大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的集合中找出滿足用戶信息需求的資料的過程。非結(jié)構(gòu)化數(shù)據(jù)通常指文本什么是結(jié)構(gòu)化數(shù)據(jù)?(提問),19,本課程的內(nèi)容,主要關(guān)注面向文本數(shù)據(jù)幾部分內(nèi)容:爬蟲(Crawler),得到網(wǎng)頁(wget可以遞歸爬取靜態(tài)網(wǎng)頁html)網(wǎng)頁正文提?。╤tml文件的處理),得到文檔中文分詞文檔存儲(倒排;快速查詢)用戶query分詞檢索:找到相關(guān)文檔相關(guān)文檔簡單排序,20,本課程不涉及內(nèi)容

6、,非文本數(shù)據(jù)Query深度分析和擴展網(wǎng)頁鏈接分析(PageRank)等復(fù)雜排序方法...,21,22,完整的搜索系統(tǒng)示意圖,,,22,,信息檢索技術(shù)的應(yīng)用,,23,搜索,推薦,挖掘,,,,IR技術(shù),情報處理,內(nèi)容安全,輿情分析,,,,信息檢索應(yīng)用系統(tǒng),搜索系統(tǒng)Web搜索引擎IBM Waston問答系統(tǒng)……推薦系統(tǒng)淘寶網(wǎng)豆瓣網(wǎng)當(dāng)當(dāng)網(wǎng),24,從信息規(guī)模上分類,個人信息檢索:個人相關(guān)信息的組織、整理、搜索等。桌面搜索(De

7、sktop Search)、個人信息管理(PIM = Personal Information Management)、個人數(shù)字記憶(Personal Digital Memory)企業(yè)級信息檢索:在企業(yè)內(nèi)容文檔的組織、管理、搜索等。內(nèi)容管理(Content Management)Web信息檢索:在超大規(guī)模數(shù)據(jù)集上的檢索。,25,提綱,中科院研究生院2011年度秋季課程,26,什么是信息檢索?為什么要學(xué)習(xí)信息檢索?課程情況,直接

8、經(jīng)濟效益-能賺錢?。?世界級牛公司很多互聯(lián)網(wǎng)的公司:Google, baidu, … 高市值公司軟件工程師年薪高,市場發(fā)展的需求,用戶需要信息檢索技術(shù):互聯(lián)網(wǎng)的信息量太大、噪音太多,尋找所需要的信息非常不容易公司需要信息檢索技術(shù):搜索引擎改變了很多傳統(tǒng)的生活方式,Yahoo、Google、Baidu,還有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到這個搜索技術(shù)的競爭。不只是搜索引擎才需要

9、信息檢索技術(shù),電子商務(wù)(如亞馬遜網(wǎng)站、阿里巴巴)、社交網(wǎng)(微博、Facebook、twitter、校內(nèi)網(wǎng))、數(shù)字圖書館、大規(guī)模數(shù)據(jù)分析等都需要信息檢索技術(shù)人才的競爭:搜索相關(guān)人才人數(shù)出現(xiàn)缺口,他們非常搶手,待遇如日中天是不是泡沫:2000年左右出現(xiàn)的網(wǎng)絡(luò)泡沫和現(xiàn)在的互聯(lián)網(wǎng)有什么不同,搜索引擎在其中占什么位置?,28,幾個應(yīng)用需求,移動搜索產(chǎn)品搜索專利搜索廣告推薦消費行為分析網(wǎng)絡(luò)評論分析SEO營銷……,29,對相關(guān)專業(yè)學(xué)

10、生的基本要求,信息檢索技術(shù)是內(nèi)容應(yīng)用特別是互聯(lián)網(wǎng)內(nèi)容應(yīng)用的核心技術(shù),可以說在這些應(yīng)用中無處不在信息檢索將會成為一門計算機專業(yè)的基礎(chǔ)學(xué)科搜索(狹義的信息檢索)的三個層次,30,,,中科院研究生院2011年度秋季課程,31,應(yīng)用層次:搜索是一項非常重要的應(yīng)用!,,,中科院研究生院2011年度秋季課程,32,中間層次:搜索是極其重要的API,,,中科院研究生院2011年度秋季課程,33,www.Googlefight.com,,,中科院研

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論