【摘 要】筆者以復雜的數據環境為研究對象,提出了層次分析法構建挖掘模型的主體結構與應用效能,從而為當前復雜數據環境中的數據挖掘提供一種新的應用策略。

【關鍵詞】復雜數據環境 多維數據挖掘 層次分析法構建挖掘模型 應用效能

一般來說,在系統的“層次分析法構建挖掘模型”體系結構之中,主要包括數據挖掘處理模式、知識數據庫、數據挖掘處理方法、數據模型學習與數據模型評估等幾個方面的重要內容。該系統從整個戰略的高度、不同層面的技術水平以及差異化的抽象層面來支撐不同挖掘組件之間的設置與組合,隨后再重新設計、實施整個數據挖掘過程,最終形成一個合理的“數據挖掘模型結構”。

具體來說,“層次分析法構建挖掘模型”從不同的角度和層次上對整個數據挖掘的過程進行結構化、系統化的處理和改進。在層次分析法構建挖掘模型流程開始的時候,為了提升整個模型的準確性與高效性,知識數據庫會與各種挖掘模型方法通過交互或者是互動的方式實施系統模型的自我學習。隨后,每一個模型也會與知識數據庫的構成部分之一Analytical Base通過交互的方式對現存的模型系統進行打分和評估。在完成了具體的評估與打分工作之后,它便會進入到挖掘模式環節,然后對比分析每一個“挖掘模型方法”,對其進行聚類、分類、回歸等相關的處理活動,最后會在挖掘模式層之中按照從優至劣的順序將各種模型進行排列,并通過數據表格的方式表示出來。一般來說,“優秀”的挖掘模型處于結構的最頂端,隨后的是“成功”的挖掘模型。這些以數據表格呈現出來的排列結果會傳輸給執行引擎進行相關的處理,也即是對“優秀”挖掘模型進行數據的挖掘與預測活動。在充分使用“Analytical Base”與“Knowledge Engine”的時候,執行條件不同,挖掘模型評估結果的質量水平也會呈現出比較大的差異,但是其模式分支可以自由地進行插播,因此,不僅大大提升了工作效率,而且準確性也會隨之有明顯的提高。這是層次分析法構建挖掘模型的優良之處。

“層次分析法構建挖掘模型”的數據挖掘與處理的流程可以概括為:首先是建立相應的層次結構;其次是與知識數據庫進行相關的交互活動;第三是對既定模型系統的分析和學習;第四是選擇和評估合適的模型樣式。在整體的層次結構設計過程中,通過先分解、后綜合的思想達到對“層次分析法構建挖掘模型”系統分析的目的。

模型學習、模型評估以及模型學習與評估的影響關系是“層次分析法構建挖掘模型”中的三個重要概念。第一,模型學習主要是在M-KPI環節實現的。其核心目的在于通過使用新的數據來更新原有模型,從而形成一個嶄新的模型樣式。模型之間的不同之處就在于新的數據建構起新的模型,計算的設置、類型以及模型的范式都是一樣的。第二,模型評估是在M-KPI和M-CSF兩個層面發生的。輸入“樣品數據”,隨后進行相關的評估和打分活動,得到相應的預測結果之后,通過實際結果來評估模型,并且給其賦予相關的“權值”。從而使所有M-KPI都能夠得到相應的“權值”,以此來篩選評估模型和計算方法。第三,在模型學習與評估的影響關系方面,首先是各個M-KPI刷新模型,由此產生適合于新數據內容的模型;其次通過“Analytics Data”來評估各個模型,因此,輸入迥異的需求數據,也能夠產生不同的線性結構圖。通過綜合分析各個KPI的影響,各個M-CSF也就形成了特定的自適應影響的波動效果圖。

層次分析法構建挖掘模型中包括諸多的成功關鍵因素,其中,分類-CSF作為層次分析法構建挖掘模型中一個非常重要的成功關鍵因素,其目的是學會一個分類模型或者是分類函數,從而把復雜數據庫中的數據項映射到特定類別中的某一個模型之上,由此實現數據信息的聚合、分類與預測活動。從系統內容的角度來說,分類-CSF中包含決策樹算法、Bayes算法等諸多計算方式。比如Bayes分類算法假設是在特定的數據樣本中通過一個n維特征的向量來描述n個屬性特征的值。也即是說,X={x1,x2,x3,……,xm},如果擁有m個類別,就可以使用C1,C2,C3,……,Cm來進行表示。預存一個未知的數據樣本X,也即是沒有類標號,如果將其分配給類Ci,也就一定會存在P(Ci/X)>P(Cj/X),1≤i≤m,1≤j≤m,j≠i。

根據此原理,對于所有類P(X)都為常數,因此P(Ci/X)作為最大化后驗概率能夠轉換成為P(X/Ci)P(Ci),即最大化先驗概率。假設諸多屬性和元組存在于訓練數據集之中,核算P(X/Ci)開銷的概率就非常高。因此,大部分情況下假設各個屬性的取值都是相互獨立的。在此情況下,就能夠從訓練數據庫中獲得先驗概率P(X1/Ci),P(X2/Ci),P(X3/Ci),……P(Xn/Ci)。依據此種計算方式,針對特定的未知樣本X,可以先計算出X樣本屬于每一個類別Ci的概率,隨后以概率最大的類別作為該未知樣本的類別。

為了識別該模型數據預測結果的準確性,筆者以某醫院的醫療數據作為數據庫樣本來進行數據挖掘的驗證。首先通過DRUGIN系統來建立和學習該模型系統,隨后采用DRUG4N的真實數據來評估ACMC建立的諸多模型樣式,最終通過該系統得到Bayes分類算法所構建的系統模型作為取得的最優模型樣式。在此基礎上,筆者使用該模型來決定特定患者該使用什么樣類型的藥品。

參考文獻:

[1]韓家煒,孟小峰.Web挖掘研究[J].計算機研究與發展,2011,(4):92-95.

[2]琚春華,郭飛鵬.基于支持向量機的分布數據挖掘模型DSVM[J].系統工程理論與實踐,2010,(10):29-32.

[3]胡文瑜,孫志輝.數據挖掘取樣方法研究[J].計算機研究與發展,2011,(1):43-46.