2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1,第2章 數(shù)據(jù)預處理,,主要內(nèi)容,2.1 為什么要預處理數(shù)據(jù)2.2 描述性數(shù)據(jù)匯總2.3 數(shù)據(jù)清理2.4 數(shù)據(jù)集成和變換2.5 數(shù)據(jù)歸約2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生,2,3,2.1 數(shù)據(jù)預處理的原因,正確性(Correctness)一致性(Consistency)完整性(Completeness) 可靠性(Reliability),數(shù)據(jù)質(zhì)量的含義,現(xiàn)實世界的數(shù)據(jù),不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集

2、數(shù)據(jù)。含噪聲的包含錯誤或存在偏離期望的離群值。不一致的采用的編碼或表示不同,如屬性名稱不同冗余的如屬性之間可以相互導出,5,數(shù)據(jù)錯誤的不可避免性,數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯誤數(shù)據(jù)集成所表現(xiàn)出來的錯誤數(shù)據(jù)傳輸過程所引入的錯誤 據(jù)統(tǒng)計有錯誤的數(shù)據(jù)占總數(shù)據(jù)的5%左右[Redmen],[Orr98],數(shù)據(jù)錯誤的危害性,高昂的操作費用糟糕的決策制定組織的不信任分散管理的注意力,7,數(shù)據(jù)預處理的形式,數(shù)據(jù)清理補充缺失數(shù)據(jù)、平

3、滑噪聲數(shù)據(jù)、識別或刪除離群點,解決不一致數(shù)據(jù)集成集成多個數(shù)據(jù)庫、數(shù)據(jù)立方或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約簡化數(shù)據(jù)、但產(chǎn)生同樣或相似的結(jié)果,數(shù)據(jù)預處理的形式,,小結(jié),現(xiàn)實世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預處理技術(shù)可以改進數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預處理是知識發(fā)現(xiàn)過程的重要步驟。檢測異常數(shù)據(jù)、盡早地調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),將在決策過

4、程中得到高回報。,2.2 描述性數(shù)據(jù)匯總,獲得數(shù)據(jù)的總體印象對于成功的數(shù)據(jù)預處理是至關(guān)重要的。描述性數(shù)據(jù)匯總技術(shù)可以用來識別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應當視為噪聲或離群點。動機:更好的理解數(shù)據(jù)。主要內(nèi)容:度量數(shù)據(jù)的中心趨勢和離散程度、描述數(shù)據(jù)匯總的圖形顯示。,2.2.1 度量數(shù)據(jù)的中心趨勢,算數(shù)平均值最常用分布式度量可以通過如下方法計算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計算每個子集的度量,然后合并計算結(jié)果,得到原

5、(整個)數(shù)據(jù)集的度量值。sum()、count()、min()、max(),2.2.1 度量數(shù)據(jù)的中心趨勢…,代數(shù)度量可以通過應用一個代數(shù)函數(shù)于一個或多個分布度量計算的度量。mean()、中列數(shù)整體度量必須對整個數(shù)據(jù)集計算的度量。中位數(shù)、眾數(shù),代數(shù)度量,mean():加權(quán)平均:截斷均值:去掉高、低極端值得到的均值。減小極端值對均值的影響。中列數(shù)(midrange ):(max+min)/2,整體度量,中位數(shù)(medi

6、an):適用于傾斜的數(shù)據(jù)。近似值計算如下:設N個數(shù)值排序,若N為奇數(shù),中位數(shù)是有序集的中間值;若N為偶數(shù),中位數(shù)是中間兩個值的平均值。例如:1,3,5,7 中位數(shù)4 1,3,5,6,7 中位數(shù)5,整體度量,眾數(shù)(mode):集合中出現(xiàn)頻率最高的值。單峰、多峰(雙峰、三峰…)、無眾數(shù)對于適度傾斜的單峰頻率曲線,有如下的經(jīng)驗關(guān)系:,16,中位數(shù)、均值和眾數(shù),17,極差最大值與最小值之差四分位

7、數(shù)中位數(shù)是第50個百分位數(shù),是第2個四分位數(shù)第1個是第25個百分位數(shù),Q1 中間四分位數(shù)極差 IQR = Q3 – Q1 離群點outlier與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象盒圖方差、標準差反映了每個數(shù)與均值相比平均相差的數(shù)值,2.2.2 度量數(shù)據(jù)的離散程度,度量數(shù)據(jù)的離散程度…,盒圖boxplot,也稱箱線圖從下到上五條線分別表示最小值、下四分位數(shù)Q1 、中位數(shù)、上四分位數(shù)Q3和最大值盒的長度等于IRQ中位

8、數(shù)用盒內(nèi)的橫線表示盒外的兩條線(胡須) 分別延伸到最小和最大觀測值。,,,盒圖的功能1.直觀明了地識別數(shù)據(jù)集中的離群點 2.判斷數(shù)據(jù)集的偏態(tài)和尾重 3.比較幾批數(shù)據(jù)的形狀,,22,直方圖、分位數(shù)圖、分位數(shù)-分位數(shù)圖(q-q圖)散布圖、散布圖矩陣局部回歸(Loess)曲線,2.2.3 基本描述數(shù)據(jù)匯總的圖形顯示,直方圖 Histogram,概括給定屬性分布的圖形方法每個矩形等寬,分位數(shù)圖 Quantile Pl

9、ot,觀察單變量數(shù)據(jù)分布的簡單有效方法,散布圖scatter plot,直接觀察是否存在簇(cluster),離群點等每個點對應一個坐標對,局部回歸(Loess)曲線,添加一條光滑曲線到散布圖,2.3 數(shù)據(jù)清理,現(xiàn)實世界的數(shù)據(jù)一般是不完整的、有噪聲的和不一致的。數(shù)據(jù)清理的任務:填充缺失的值,光滑噪聲并識別離群點,糾正數(shù)據(jù)中的不一致。,28,忽略元組人工填寫空缺值使用一個全局常量填充空缺值 使用屬性的平均值填充空缺值使用與給

10、定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值,2.3.1 缺失值,29,分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑?;貧w:用一個函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。聚類:將類似的值聚集為簇。其他:如數(shù)據(jù)歸約、離散化和概念分層。,2.3.2 噪聲數(shù)據(jù),30,分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑。劃分:等頻、等寬光滑:用箱均值、用箱中位數(shù)、用箱邊界(去替

11、換箱中的每個數(shù)據(jù)),2.3.2 噪聲數(shù)據(jù),分箱法光滑數(shù)據(jù),Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34* Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25

12、 - Bin 3: 26, 28, 29, 34* Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29,* Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21,

13、21, 25, 25 - Bin 3: 26, 26, 26, 34,,回歸:用一個函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。線性回歸多元線性回歸聚類:將類似的值聚集為簇。檢測離群點,回歸Regression,,,,,,,,,,,,,,,,,x,y,y = x + 1,,,,X1,Y1,Y1’,聚類Cluster Analysis,,,,2.3.3 數(shù)據(jù)清理作為一個過程,偏差檢測使用“元數(shù)據(jù)”編碼使用的不一致、數(shù)據(jù)表示的

14、不一致、字段過載等一些規(guī)則:唯一性規(guī)則、連續(xù)性規(guī)則、空值規(guī)則。商業(yè)工具:數(shù)據(jù)清洗工具、數(shù)據(jù)審計工具數(shù)據(jù)變換(糾正偏差)數(shù)據(jù)遷移工具提取/變換/載入(ETL)工具加強交互性數(shù)據(jù)清理工具:Potter’s Wheel開發(fā)數(shù)據(jù)變換操作規(guī)范說明語言,2.4 數(shù)據(jù)集成和變換,數(shù)據(jù)集成合并多個數(shù)據(jù)源中的數(shù)據(jù),存放在一個一致的數(shù)據(jù)庫(如數(shù)據(jù)倉庫)中。源數(shù)據(jù)可能包括多個數(shù)據(jù)庫,數(shù)據(jù)立方體或一般文件。數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖

15、掘的形式。,37,實體識別元數(shù)據(jù)可幫助避免錯誤屬性冗余相關(guān)分析數(shù)據(jù)重復(元組冗余)數(shù)據(jù)值沖突的檢測與處理表示、比例或編碼不同,2.4.1 數(shù)據(jù)集成,38,平滑:去掉數(shù)據(jù)中的噪聲。技術(shù)包括分箱、回歸、聚類。聚集Aggregation :對數(shù)據(jù)進行匯總或聚集。數(shù)據(jù)泛化(概化):使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù)。規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。最小-最大、Z-Score、按小數(shù)定標規(guī)范化

16、。屬性構(gòu)造(特征構(gòu)造):由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程。可以幫助提高準確率和對高維數(shù)據(jù)結(jié)構(gòu)的理解。,2.4.2 數(shù)據(jù)變換,規(guī)范化,1)最小-最大規(guī)范化:將原始數(shù)據(jù)v經(jīng)線性變換,映射到區(qū)間[new_minA, new_maxA]例如:income的最大,最小值分別為9000,2000,則將它的值映射到[0,1]時,若income的值6800規(guī)范后為: (6800-2000)/(9000-2000)*(1

17、-0)+0=0.686,,存在問題:若存在離群點,可能影響規(guī)范化若在規(guī)范化后添加新的數(shù)據(jù),當新數(shù)據(jù)落在原數(shù)據(jù)的區(qū)間[minA, maxA]之外,將導致“越界”錯誤。,規(guī)范化…,2) z-score規(guī)范化(零均值規(guī)范化):屬性A的值基于A的平均值和標準差規(guī)范化。對離群點不敏感,2.5 數(shù)據(jù)歸約 Data Reduction,對海量數(shù)據(jù)進行復雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L時間,使得這種分析不現(xiàn)實或不可行。數(shù)據(jù)歸約技術(shù)可以用來得到

18、數(shù)據(jù)集的歸約表示,它小得多,但仍接近保持原數(shù)據(jù)的完整性。對歸約后的數(shù)據(jù)集挖掘?qū)⒏行?,并產(chǎn)生相同(或幾乎相同)的結(jié)果。,數(shù)據(jù)歸約,數(shù)據(jù)歸約策略:(1)數(shù)據(jù)立方體聚集:對數(shù)據(jù)立方體做聚集操作(2)屬性子集選擇:檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性和維。(3)維度歸約:刪除不重要的屬性(4)數(shù)值歸約:用規(guī)模較小的數(shù)據(jù)表示、替換或估計原始數(shù)據(jù)(5)離散化和概念分層(concept hierarchy)產(chǎn)生屬性的原始數(shù)值用區(qū)間值

19、或較高層的概念替換,2.5.1 數(shù)據(jù)立方體聚集,數(shù)據(jù)立方體存儲多維聚集信息,提供對預計算的匯總數(shù)據(jù)進行快速訪問。如:立方體內(nèi)存儲季度銷售額,若對年銷售額感興趣,可對數(shù)據(jù)執(zhí)行聚集操作,例如sum()等。,,,,,2.5.2 屬性子集選擇,通過刪除不相關(guān)或冗余的屬性(或維)減小數(shù)據(jù)集。其目標是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性得到的原分布。通過窮舉搜索找出有屬性的最佳子集是不現(xiàn)實的。通常采用壓縮搜索空間的啟發(fā)

20、式算法。如貪心算法:從局部最優(yōu)到全局最優(yōu)。逐步向前選擇逐步向后刪除向前選擇和向后刪除的結(jié)合決策樹歸納,2.5.3 維度歸約,維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。分為無損和有損兩種。主要方法:串壓縮:無損,但只允許有限的數(shù)據(jù)操作。小波變換(DWT):有損,適合高維數(shù)據(jù)。主成分分析(PCA):有損,能更好地處理稀疏數(shù)據(jù)。,2.5.4 數(shù)值歸約,通過選擇替代的、“較小的”數(shù)據(jù)表示形式來減少數(shù)據(jù)量。

21、可以分為參數(shù)方法和非參數(shù)方法。參數(shù)方法:回歸(regression )和對數(shù)線性模型非參數(shù)方法:直方圖、聚類、抽樣,抽樣,用數(shù)據(jù)的小得多的隨機樣本(子集)不是大型數(shù)據(jù)集。抽樣方法s個樣本無放回簡單隨機抽樣(SRSWOR)s個樣本有放回簡單隨機抽樣(SRSWR)聚類抽樣分層抽樣,2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生,數(shù)據(jù)離散化技術(shù)用少數(shù)區(qū)間標記替換連續(xù)屬性的數(shù)值,從而減少和簡化了原來的數(shù)據(jù)??梢詫σ粋€屬性遞歸地進行離散化,產(chǎn)生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論