1 背景
隨著信息技術(shù)的迅猛發(fā)展,人們可以利用計(jì)算機(jī)方便地獲取和存儲(chǔ)大量的數(shù)據(jù)。但是,僅僅停留在對(duì)于已獲得的數(shù)據(jù)進(jìn)行一些表層的處理(如查詢、統(tǒng)計(jì)等)已越來(lái)越不能滿足日常工作的需要,因而人們把需要深入挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系和隱含的信息作為下一步的研究目標(biāo)。人們迫切需要一種能夠智能的、自動(dòng)的將數(shù)據(jù)轉(zhuǎn)換成有用信息和知識(shí)的技術(shù)和工具,這種對(duì)強(qiáng)有力數(shù)據(jù)分析工具的迫切需求使得數(shù)據(jù)挖掘技術(shù)成為了信息技術(shù)中的一個(gè)前沿的焦點(diǎn)。
2 數(shù)據(jù)挖掘的相關(guān)理論
2.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘從大量的,不完整的,有噪聲進(jìn)行模糊隨機(jī)在原始數(shù)據(jù),提取隱瞞,人們事先不知道,而且是潛在有用的,可信的,新穎的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘由三個(gè)步驟組成:數(shù)據(jù)預(yù)處理階段、模型設(shè)計(jì)階段和數(shù)據(jù)分析階段(見(jiàn)圖1)。
圖1 數(shù)據(jù)挖掘流程
(1)數(shù)據(jù)預(yù)處理階段(Data Preprocessing Phase)中,特定的業(yè)務(wù)問(wèn)題必須得到明確的定義,否則數(shù)據(jù)挖掘?qū)⒆兊寐䶮o(wú)目的。在業(yè)務(wù)問(wèn)題的域知識(shí)基礎(chǔ)上,該階段的任務(wù)包括驗(yàn)證、選擇和準(zhǔn)備被要求用來(lái)論述問(wèn)題的數(shù)據(jù)。在構(gòu)造良好的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境里,這些步驟相對(duì)簡(jiǎn)單些,但是仍然會(huì)涉及到對(duì)采樣和平衡數(shù)據(jù)的考慮。
(2)模型設(shè)計(jì)階段(Model Design Phase)需要深入地檢查數(shù)據(jù),并從中選擇那些顯示與問(wèn)題最有關(guān)系的字段,它也需要選擇一個(gè)正確的數(shù)據(jù)挖掘算法以應(yīng)用于數(shù)據(jù)(如:決策樹(shù)、規(guī)則歸納)。然后,最小化地細(xì)分?jǐn)?shù)據(jù),一般需要將數(shù)據(jù)分為一個(gè)調(diào)整集或者多個(gè)測(cè)試集。
(3)數(shù)據(jù)分析階段(Data Analysis Phase)典型地包括一個(gè)附加的準(zhǔn)備活動(dòng)(數(shù)據(jù)轉(zhuǎn)換)來(lái)重組數(shù)據(jù),以求更好地匹配己選擇的算法和業(yè)務(wù)問(wèn)題(例如,處理數(shù)據(jù)中缺少的值)。此后將已經(jīng)選擇好的數(shù)據(jù)挖掘工具應(yīng)用于數(shù)據(jù),典型情況下包括創(chuàng)建一個(gè)采用數(shù)據(jù)修正集的模型,然后用至少一個(gè)測(cè)試數(shù)據(jù)的獨(dú)立集來(lái)證明這個(gè)模型。模型的準(zhǔn)確性和有效性需有效地評(píng)估。初始的模型將很可能沒(méi)法達(dá)到數(shù)據(jù)挖掘的目的,許多反復(fù)是有必要的,尤其是在模型設(shè)計(jì)和數(shù)據(jù)分析階段中。
2.2 決策樹(shù)的概念
決策樹(shù)是作為與樣本屬性結(jié)點(diǎn),用屬性的取值作為分支的樹(shù)型結(jié)構(gòu)。它是進(jìn)行了分析和歸納利用信息理論的原則,分析大規(guī)模的樣本屬性而產(chǎn)生的。決策樹(shù)的根節(jié)點(diǎn)是最大的屬性信息的內(nèi)容,在所有樣本。樹(shù)的中間節(jié)點(diǎn)是在示例子集的根樹(shù)包含的信息內(nèi)容最大的屬性點(diǎn)。決策樹(shù)的葉點(diǎn)是樣品類別的價(jià)值。決策樹(shù)使用新的樣本分類,即通過(guò)新的決策樹(shù)屬性值測(cè)試的樣本,從樹(shù)的根節(jié)點(diǎn)開(kāi)始,根據(jù)樣本屬性值逐漸向下沿決策樹(shù),直到樹(shù)的葉子點(diǎn),這一點(diǎn)表現(xiàn)的類是新的樣本類別。決策樹(shù)方法是在數(shù)據(jù)挖掘中非常有效的方法。決策樹(shù)是一種知識(shí)的一種表現(xiàn)形式,它是所有高采樣數(shù)據(jù)摘要,即決策樹(shù)能準(zhǔn)確識(shí)別所有的樣本類別,也可以有效識(shí)別地新樣本的類別。
決策樹(shù)包含許多不同的算法,主要分為3類:
(1)基于統(tǒng)計(jì)論的方法,以CART為代表,在這類算法中,對(duì)于非終端結(jié)點(diǎn)來(lái)說(shuō),有兩個(gè)分枝。
(2)基于信息論的方法,以D13算法為代表,此類算法中,非終端結(jié)點(diǎn)的分枝數(shù)由樣本類別個(gè)數(shù)決定。
(3)以AID,CHAIN為代表的算法,在此類算法中,非終端結(jié)點(diǎn)的分枝數(shù)在兩個(gè)到樣本類別個(gè)數(shù)范圍內(nèi)分布。
選擇決策樹(shù)算法的優(yōu)點(diǎn)有:在學(xué)習(xí)過(guò)程中不需要使用者了解很多的背景知識(shí)這同時(shí)是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),很容易被人理解。速度快。易改造分類規(guī)則。只要沿樹(shù)的根葉向下,沿途可以只確定一個(gè)分類規(guī)則的裂變條件。更高的精度。同時(shí),它也有許多不足之處,以處理設(shè)置每個(gè)算法(離散,樣品),不僅增加了排序算法的開(kāi)銷,而且降低了大型數(shù)據(jù)分類的準(zhǔn)確性。
2.3 決策樹(shù)的主要步驟
決策樹(shù)算法構(gòu)造決策樹(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)涵的分類規(guī)則,如何構(gòu)造精度高、規(guī)模小的決策樹(shù)是決策樹(shù)算法的核心內(nèi)容。決策樹(shù)構(gòu)造可以分兩步進(jìn)行:
第一步,決策樹(shù)的生成:由訓(xùn)練樣本集生成決策樹(shù)的過(guò)程。一般情況下,訓(xùn)練樣本數(shù)據(jù)集是據(jù)實(shí)際需要有歷史的、有一定綜合程度的、用于數(shù)據(jù)分析處理的數(shù)據(jù)集;
第二步,決策樹(shù)的剪枝:決策樹(shù)的剪枝是對(duì)上一階段生成的決策樹(shù)進(jìn)行檢驗(yàn)、校正和修正的過(guò)程。主要是用新的樣本數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集中的數(shù)據(jù)校驗(yàn)決策樹(shù)生成過(guò)程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)測(cè)準(zhǔn)確性的分枝剪除。
(1)樹(shù)以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開(kāi)始。
(2)如果樣本都在同一個(gè)類,則該結(jié)點(diǎn)成為樹(shù)葉,并用該類標(biāo)記。
(3)否則,算法選擇最有分類能力的屬性作為決策樹(shù)的當(dāng)前結(jié)點(diǎn)。
(4)根據(jù)當(dāng)前決策結(jié)點(diǎn)屬性取值的不同,將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集。每個(gè)取值形成一個(gè)分枝,有幾個(gè)取值形成幾個(gè)分枝。
(5)針對(duì)上一步得到的一個(gè)子集,重復(fù)進(jìn)行先前步驟,階梯形成每個(gè)劃分樣本上的決策樹(shù)。每當(dāng)某個(gè)屬性出現(xiàn)在結(jié)點(diǎn)上的時(shí)候,在該結(jié)點(diǎn)上就不需要做后續(xù)考慮了。
(6)階梯劃分步驟僅當(dāng)下列條件之一發(fā)生時(shí)停止:
①給定結(jié)點(diǎn)的所有樣本屬于同一類。
②當(dāng)剩余屬性無(wú)法可以用做進(jìn)一步劃分樣本。
此時(shí)需要使用多數(shù)表決,把給定的結(jié)點(diǎn)轉(zhuǎn)換成樹(shù)葉,并以樣本中元組個(gè)數(shù)最多的類別作為類別標(biāo)記,同時(shí)也可以存放該結(jié)點(diǎn)樣本的類別分布。
③如果某一分枝test-attribute=a*沒(méi)有樣本,則以樣本的多數(shù)類創(chuàng)建一個(gè)樹(shù)葉。
3 數(shù)據(jù)挖掘技術(shù)在實(shí)際中的應(yīng)用——以客戶關(guān)系系統(tǒng)為例
在競(jìng)爭(zhēng)全球化的環(huán)境下,信息化浪潮推動(dòng)了動(dòng)態(tài)聯(lián)盟的生產(chǎn),也同時(shí)改變了競(jìng)爭(zhēng)方式,導(dǎo)致競(jìng)爭(zhēng)不再是單一企業(yè)的競(jìng)爭(zhēng),而是整個(gè)供應(yīng)鏈的競(jìng)爭(zhēng)。這要求傳統(tǒng)管理模式向供應(yīng)鏈管理方式的轉(zhuǎn)變。在連鎖店的各企業(yè)供應(yīng)是一個(gè)利益共同體,已經(jīng)當(dāng)通過(guò)優(yōu)勝劣汰和協(xié)同效應(yīng)不能生產(chǎn)優(yōu)勢(shì)企業(yè)的獨(dú)立性,也使得兩家從通過(guò)雙方建立合作伙伴關(guān)系提高生產(chǎn)力,節(jié)約資源,以降低成本,獲得效益,同時(shí)創(chuàng)造更大的客戶價(jià)值。這也決定了客戶關(guān)系是企業(yè)的重要決定,如何進(jìn)行排序管理、篩選客戶關(guān)系對(duì)企業(yè)的健康發(fā)展有重要意義。
3.1 以數(shù)據(jù)挖掘?yàn)楹诵牡南到y(tǒng)架構(gòu)
數(shù)據(jù)挖掘是一個(gè)非常復(fù)雜的過(guò)程。每個(gè)類型的數(shù)據(jù)挖掘技術(shù)都有自己的特點(diǎn)與實(shí)現(xiàn)方法,輸入輸出數(shù)據(jù)的形式要求、結(jié)構(gòu)、參數(shù)設(shè)置、培訓(xùn)、測(cè)試和模型評(píng)價(jià)方法等都有不同要求,分別該算法的應(yīng)用程序域的意義和能力也有差異。數(shù)據(jù)挖掘和具體適用問(wèn)題密切相關(guān)的,每個(gè)數(shù)據(jù)挖掘問(wèn)題的應(yīng)用程序必須實(shí)現(xiàn)的目標(biāo),數(shù)據(jù)收集完整程度,問(wèn)題領(lǐng)域?qū)<业闹С殖潭龋鹊人惴ǖ倪x擇沒(méi)有任何共同之處。
針對(duì)客戶信息進(jìn)行挖掘,需要建立決策樹(shù),然后對(duì)客戶重要性做出判別,最后指導(dǎo)公司決策。現(xiàn)采用以下的流程來(lái)建立決策樹(shù)的模型,如圖2所示。
圖2 決策樹(shù)建模流程圖
3.2 系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)
3.2.1 數(shù)據(jù)的選擇
挖掘后確定的目標(biāo),必須對(duì)數(shù)據(jù)挖掘做出準(zhǔn)備。數(shù)據(jù)行為的制備根據(jù)需求的挖掘,收集數(shù)據(jù),并建立了數(shù)據(jù)庫(kù),良好的可發(fā)掘。數(shù)據(jù)占用的制備在整個(gè)數(shù)據(jù)挖掘過(guò)程中,規(guī)模最大的一次。在選擇數(shù)據(jù)庫(kù)從SQL senrer的客戶信息桌前進(jìn)行數(shù)據(jù)挖掘的對(duì)象。在客戶信息表中有大量的客戶信息,選擇部分原始數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。客戶信息表中包含的屬性,如表1所示。
表1 客戶信息屬性表
其中,客戶類別的取值為:{個(gè)人,團(tuán)體};信譽(yù)度的取值為:{高,一般};消費(fèi)水平的取值為:{高,中,低};購(gòu)買能力的取值為:{強(qiáng),一般,差};付款方式的取值為:{現(xiàn)金,匯付,本票,支票,其他};付款能力的取值為:{按時(shí),推遲};單位性質(zhì)的取值為:{國(guó)有,私營(yíng),個(gè)體}客戶級(jí)別的取值為:{vip,普通,不重要}。
3.2.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘過(guò)程中是一個(gè)重要步驟,尤其是在對(duì)包含有噪音,不完全,甚至是不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)挖掘?qū)ο蠛蛿?shù)據(jù)挖掘滿圖案的質(zhì)量。數(shù)據(jù)預(yù)處理技術(shù)的技術(shù)和數(shù)據(jù)轉(zhuǎn)換等,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)真實(shí)出售和購(gòu)買埃斯蓋特在同一個(gè)家庭。預(yù)處理后,可以提高數(shù)據(jù)挖掘算法的精度和有效性,并保存數(shù)據(jù)處理的時(shí)間。在客戶關(guān)系管理系統(tǒng)的特點(diǎn)認(rèn)為,現(xiàn)提出以下圖3的數(shù)據(jù)預(yù)處理模型。選取客戶信息表500多個(gè)樣本作為研究的對(duì)象,并在這些原始的客戶數(shù)據(jù)進(jìn)行預(yù)處理。
圖3 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)轉(zhuǎn)換,我們必須繼續(xù)就不斷離散屬性的處理。這個(gè)實(shí)驗(yàn)涉及的不斷屬性——消費(fèi)水平的項(xiàng)目,經(jīng)過(guò)分析,我們將其單獨(dú)的變化(0,50萬(wàn)):低,(50萬(wàn),100萬(wàn)):(100萬(wàn)):高。違規(guī)約預(yù)處理是過(guò)程中的重要步驟,其目的是消除一些挖掘沒(méi)有意義的屬性。在多數(shù)情況下,我們選擇挖掘?qū)傩圆缓茫瑢?duì)我們的挖掘,在挖掘時(shí),進(jìn)行幫助,我們要按照不同的數(shù)據(jù)情況,有關(guān)于客戶信息表,例如選擇之前,應(yīng)進(jìn)行的維吾爾族條款一般以消除領(lǐng)域的第一次和客戶的序列號(hào)等,客戶姓名,地址,電話,傳真號(hào)碼,請(qǐng)注意,因?yàn)檫@些信息可能沒(méi)有到數(shù)據(jù)挖掘的意義。
(2)數(shù)據(jù)清理,在之前的數(shù)據(jù)進(jìn)行了挖掘,需要進(jìn)行干凈的第一個(gè)數(shù)據(jù)。通過(guò)客戶關(guān)系系統(tǒng)的日常運(yùn)作發(fā)現(xiàn),在數(shù)據(jù)表存在的空缺和數(shù)據(jù)復(fù)制的價(jià)值。通常關(guān)于空缺值數(shù)據(jù),它使用的處理方法包括:忽略行、人工填寫(xiě)空缺值、平均值法等。
3.2.3 數(shù)據(jù)建模
用決策樹(shù)流程進(jìn)行建模,決策樹(shù)生成算法描述如下:
對(duì)原始數(shù)據(jù)經(jīng)過(guò)預(yù)處理,抽取其中部分?jǐn)?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,得到條件屬性集合C={信譽(yù)度,消費(fèi)水平,購(gòu)買能力,購(gòu)買能力,付款能力,單位性質(zhì),客戶類別},決策屬性集合D={客戶級(jí)別}。
經(jīng)過(guò)基于信息增益的ID3算法構(gòu)建決策樹(shù),我們得到如圖4的決策樹(shù)結(jié)果:
圖4 初步?jīng)Q策樹(shù)
3.2.4 數(shù)據(jù)挖掘的實(shí)現(xiàn)
在Analysis Senrices中設(shè)置將要訓(xùn)練數(shù)據(jù)的數(shù)據(jù)挖掘模型。然后使用客戶端工具對(duì)受訓(xùn)數(shù)據(jù)運(yùn)行高級(jí)分析,創(chuàng)建數(shù)據(jù)挖掘模型的步驟如下:
(1)在“客戶分析”樹(shù)窗格中右擊“挖掘模型”文件夾,然后選擇“新建挖掘模型”。
(2)打開(kāi)挖掘模型向?qū)В凇皻g迎使用挖掘模型向?qū)А敝校x擇“下一步”。
(3)在“選擇源類型”中,選擇“關(guān)系數(shù)據(jù)”。然后“下一步”。
(4)在“選擇事例表”中,選擇“單個(gè)表包含數(shù)據(jù)”,在“可用的表”中選“客戶分析”,然后選擇“下一步”。
(5)在“選擇數(shù)據(jù)挖掘技術(shù)”中選擇“技術(shù)”中的“Micmsoft決策樹(shù)”,然后選擇“下一步”。
(6)在“選擇鍵列”中選擇“事例鍵列”中的“ID”,然后選“下一步”。
(7)在“選擇輸入與可預(yù)測(cè)列”中選擇“重要性分析”,然后用“>”按鈕移動(dòng)到“可預(yù)測(cè)列”框中。
(8)這些列還將用作輸入列。選擇“單位性質(zhì)”、“購(gòu)買能力”、“信譽(yù)度”、“付款能力”、“付款方式”和“聯(lián)系電話”,并通過(guò)“輸入列”列表旁邊的“>”按鈕將其移動(dòng)到“輸入列”框中。單擊“下一步”按饑。
(9)最后在“模型名稱”框中輸入“重要客戶預(yù)測(cè)”。確保選擇了“保存并立即處理”,然后“完成”。
(10)出現(xiàn)“處理”窗口,顯示正在處理的模型。處理完成之后出現(xiàn)一則消息,說(shuō)明“已成功完成處理”,選擇“關(guān)閉”。
下面使用代碼通過(guò)DSO去創(chuàng)建了一個(gè)關(guān)系型數(shù)據(jù)挖掘模型。
4 算法評(píng)估
本研究采用UCI公共數(shù)據(jù)庫(kù)中的3個(gè)數(shù)據(jù)庫(kù)來(lái)進(jìn)行仿真試驗(yàn),并將本研究中提出的決策樹(shù)算法得出的結(jié)果和C4.5算法相應(yīng)結(jié)果進(jìn)行比較。表2為數(shù)據(jù)庫(kù)的基本信息:
表2 數(shù)據(jù)庫(kù)基本信息
表3 試驗(yàn)結(jié)果
通過(guò)對(duì)比發(fā)現(xiàn)決策樹(shù)算法明顯減少了建立決策樹(shù)所用的屬性個(gè)數(shù),決策樹(shù)的計(jì)算成本正比于建樹(shù)所用屬性個(gè)數(shù),因此,本文提出的算法明顯減少了計(jì)算成本。同時(shí),由于算法復(fù)雜度較小,構(gòu)建決策樹(shù)的效率也將有所提高。實(shí)驗(yàn)表明,在建樹(shù)規(guī)模相當(dāng)?shù)那闆r下,本決策樹(shù)算法的預(yù)測(cè)精度比C4.5有所提高。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.vmgcyvh.cn/
本文標(biāo)題:基于決策樹(shù)的數(shù)據(jù)挖掘算法的應(yīng)用與研究
本文網(wǎng)址:http://m.vmgcyvh.cn/html/consultation/1083934857.html