隨機森林方法在電信行業(yè)客戶流失預測中的應用_第1頁
已閱讀1頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、收稿日期:收稿日期:20160808錄用日期:錄用日期:20161209基金項目:基金項目:福建省軟科學項目(2015R0083)通信作者:通信作者:qiuyihui@xmut.1doi:10.6043j.issn.04380479.201608004基于分類回歸決策樹算法的專利價值評估指標體系基于分類回歸決策樹算法的專利價值評估指標體系邱一卉張馳雨(廈門理工學院經(jīng)濟與管理學院,福建廈門361024)摘要:摘要:科學、準確的專利價值評估

2、將有效地促進專利的產(chǎn)業(yè)化、商業(yè)化,是提升國家、企業(yè)綜合實力的重要關(guān)鍵點。針對我國專利數(shù)據(jù)來源眾多、指標關(guān)系復雜等特點,現(xiàn)有專利價值評估過程依賴人為主觀,缺乏客觀、合理評估方法等問題,提出了一種基于分類回歸決策樹(classificationregressiontreeCART)模型的屬性選擇方法,用于構(gòu)建專利價值評估的指標體系。實驗結(jié)果表明相較于基于隨機森林的屬性選擇方法,該方法不僅能有效地降低指標體系的規(guī)模,并且能提高評估建模的效率,

3、在兼顧評估模型可解釋性的基礎上更好地提高專利價值評估的準確性。進一步通過枚舉遍歷的方法,約減指標集大小,構(gòu)建出規(guī)模更小的指標體系,結(jié)合專家知識和實證研究,有效地驗證了該指標體系的可解釋性和現(xiàn)實意義。關(guān)鍵詞:關(guān)鍵詞:專利價值評估指標體系;屬性選擇;決策樹算法中圖分類號:中圖分類號:TP181文獻標志碼文獻標志碼:A近年來,我國的專利總量快速增長。2015年,我國全年科研經(jīng)費支出達14220億元,比上年增長9.2%,全年受理專利申請279.

4、9萬件,為171.8萬件授予專利權(quán)[1]。據(jù)世界銀行統(tǒng)計,我國的科技成果轉(zhuǎn)換率為15%,其中專利轉(zhuǎn)換率為25%,專利推廣率在15%~20%左右,與龐大的專利數(shù)量相比,如此之低的轉(zhuǎn)換率使得大量優(yōu)秀專利技術(shù)處于閑置和浪費狀態(tài),缺乏有效的專利價值評估手段就是影響專利快速轉(zhuǎn)換的一大阻礙。若能快速有效地對專利進行評估,不僅可以節(jié)約60%的研究時間,更可以節(jié)省40%的研究經(jīng)費[1~3]。因此,進行有效地專利價值評估是最為關(guān)鍵的一環(huán)。專利價值評估涉及

5、諸多的指標,因此識別影響專利價值的關(guān)鍵指標有利于我們進行更加準確和有效的專利評估。近年來國內(nèi)外學者在專利價值評估指標體系方面研究取得了不少成果,Park[4]和Hou[5]分別提出了影響專利價值評估的主要因素,也出現(xiàn)了CHI專利價值評估指標體系[6]和佐治亞太平洋(GegiaPacific)評估體系[7]等相關(guān)指標體系。楊丹丹、李清海、趙蘊華等[8~14]提出了影響專利價值評估的關(guān)鍵指標,并構(gòu)建了專利價值評估指標體系。國家知識產(chǎn)權(quán)局于2

6、012年出版了《專利價值分析指標體系操作手冊》[15],該體系主要包括技術(shù)價值因素、法律價值因素及經(jīng)濟價值因素3個一級指標及一系列二級指標,為專利價值評估提供指導性的先驗信息。綜上,國內(nèi)外學者對專利價值評估指標體系研究取得了不少成果,在實際應用鄰域仍未形成統(tǒng)一的評估模型及標準。我國專利數(shù)據(jù)庫也存在不完善、未標準化等問題使得很多國外的研究成果不適用于我國的專利價值評估,導致以往的專利價值評估過程中過于依賴人為評價、主觀性太強,缺乏公正、合

7、理和易操作的評估方法。在這一背景下,利用跨領域的新方法對專利價值評估指標體系進行進一步研究將具有重要的理論意義和實踐價值。專利價值評估數(shù)據(jù)具有來源眾多、指標關(guān)系復雜、類別不平衡等特點,為進一步提高評估性能,對專利價值評估數(shù)據(jù)進行屬性選擇、建立一個簡約的專利價值評估指標體系十分必要。機器學習領域的屬性選擇分為三種模式:第一種模式是過濾器(Filter)方法,獨立的對數(shù)據(jù)屬性進行選擇處理,與后續(xù)模型無關(guān);第二種模式是包裹式(Wrapper)

8、方法,直接把最終將使用的模型性能作為特征子集的評價準則;第三種模式是嵌入式(Embedding)方法,將屬性選擇過程與模型訓練過程融為一體。一般而言,由于包裹式屬性選擇方法直接針對模型進行優(yōu)化,因此從最終模型性能來看,包裹式特征選擇比過濾式特征選擇更好。Fisher’sratio、Fsce[16]和之間的關(guān)系,所選取的屬性之間可能存在嚴重冗余,提高過擬合風險。而KPSVM[18](KernelPenalizedSupptVectMach

9、ine)和BoostingSVM[19](BoostingSupptVectMachine)則是嵌入式的屬性選擇方法,嵌入式的屬性選擇方法效率較高,它們在構(gòu)造分類器的同時選擇相關(guān)的屬性?;陔S機森林[20]的屬性選擇方法也是一種嵌入式屬性選擇方法,在建立隨機森林的同時可以得到變量重要性的排序列表,根據(jù)該列表進行屬性選擇。但是這類方法依賴于特定的數(shù)據(jù)類型,在專利價值評估的數(shù)據(jù)上運用效果不佳。針對以上屬性選擇方法在專利價值評估指標體系應用中

10、出現(xiàn)的問題。本文提取出一種基于CART決策樹算法的屬性選擇方法,用于構(gòu)建專利價值評估的指標體系。實驗結(jié)果表明相較于基于隨機森林的屬性選擇方法,該方法具有更大的優(yōu)勢,能夠有效地降低指標體系的規(guī)模。相較于上述屬性選擇方法該方法能快速簡潔地對屬性進行選擇,得到屬性的重要性程度排序,并可適用于多種數(shù)據(jù)類型。本文進一步通過枚舉遍歷的方法,約減指標集大小,構(gòu)建出規(guī)模更小的指標體系,結(jié)合專家知識和實證研究,有效地驗證了該指標體系可解釋性和現(xiàn)實意義。與

11、傳統(tǒng)的成本法[21]和市場法[22]相比本文提出的專利價值評估指標體系不受市場波動影響,更具客觀性,數(shù)據(jù)獲取也更加準確、便利。1屬性選擇方法屬性選擇方法1.1CART決策樹算法決策樹算法為提高專利評估的效率,本文利用在機器學習領域應用最為廣泛的CART決策樹算法進行屬性選擇。決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu),樹中包含三種結(jié)點:根結(jié)點、內(nèi)部結(jié)點、終結(jié)點。決策樹僅有一個根結(jié)點,是全體訓練數(shù)據(jù)集合。樹中的每個內(nèi)部結(jié)點是一個分裂問題,它

12、將到達該結(jié)點處的樣本按某個特定屬性分塊。每個終結(jié)點是帶有分類標簽的數(shù)據(jù)集合。從決策樹的根結(jié)點到葉結(jié)點的一條路徑形成一個判別規(guī)則。CART決策樹算法是Breiman[23]于1984年提出的,該算法可以處理處理高度傾斜或多態(tài)的數(shù)值型數(shù)據(jù),也可以處理順序或無序的類屬型數(shù)據(jù)[24]。CART算法使用基尼系數(shù)(GiniIndex)作為不純度的度量,CART算法選擇具有最小Gini系數(shù)值的屬性作為決策樹的分裂屬性,Gini系數(shù)值越小,表明樣本對于

13、分類問題的純凈度越高,劃分效果越好?;嵯禂?shù)的定義如公式1所示:(1)21()1CiiGiniAp????公式1表示一個節(jié)點A的Gini不純度,其中表示屬于類的概率,C表示測試集樣本共有Cipi類。當時表明所有樣本屬于同類,當所()0GiniA?有類在節(jié)點中以等概率出現(xiàn)時,()(1)2GiniACC??最大化。在實際遞歸劃分中,如果當前節(jié)點()GiniA的中的樣本數(shù)不為1并且所有樣本不屬于同一類,則此節(jié)點為非葉子節(jié)點,嘗試樣本中的每個屬

14、性作為分裂屬性進行計算,嘗試找出不純度最小的一個劃分,該屬性劃分即為該節(jié)點下的最優(yōu)分支。按上述生成過程遞歸得到的完整的決策樹往往都會出現(xiàn)“過擬合”現(xiàn)象,因此需要對決策樹進行剪枝。CART算法采用交叉驗證法進行剪枝,最終得到的是一棵兼顧復雜度和錯誤率的最優(yōu)二叉樹。1.2基于基于CART樹預測準確率的屬性選樹預測準確率的屬性選擇方法擇方法本文提出一種基于CART決策樹預測準確率計算的屬性選擇方法,基本思路是利用對決策樹模型預測準確率的影響程

15、度來定義某個屬性(指標)的重要程度,影響程度越高說明該屬性對評估預測越重要,影響程度越低說明該屬性與評估預測越不相關(guān),即越不重要?;谝陨纤悸穪磉M行屬性選擇,首先根據(jù)去除某一屬性之后對模型預測準確率的影響程度定義“影響系數(shù)值”,其次根據(jù)加入某一屬性之后對模型預測準確率的提升程度定義“提升系數(shù)值”,最終結(jié)合以上兩個系數(shù)值,找到對評估預測影響最大的關(guān)鍵指標,建立專利評估的指標體系。首先定義“影響系數(shù)值”如式2所示。(2)0iiAAI??其中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論