1. 引言
隨著管理信息系統(tǒng)的廣泛應用和逐趨完善, 相應的信息數(shù)據(jù)量也得到了快速增長, 人們所擁有的數(shù)據(jù)已經(jīng)達到了極大的豐富。同時, 隨著數(shù)據(jù)庫技術應用的發(fā)展, 用戶對于數(shù)據(jù)的應用提出了更高的要求, 用戶己不僅僅滿足于對事務處理的電子化與自動化, 還希望能夠更多的對于數(shù)據(jù)進行分析、統(tǒng)計、趨勢預測, 從而對于管理決策提供支持。由此, 數(shù)據(jù)倉庫及相關技術應運而生。
2. 相關概念
2.1 數(shù)據(jù)倉庫(Data Warehouse,DW)
W.H.Inmon 在他所著的《Building the Data Warehouse》一書中, 他給數(shù)據(jù)倉庫作出的定義是: 數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的、不同時間的數(shù)據(jù)集合, 用以支持經(jīng)營管理中的決策制訂過程。數(shù)據(jù)倉庫的構建是一個處理過程, 該過程從歷史的角度組織和存儲數(shù)據(jù), 并能集成地進行數(shù)據(jù)分析。
數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理系統(tǒng)、數(shù)據(jù)倉庫工具三個部分組成。在整個系統(tǒng)中, DW居于核心地位, 是信息挖掘的基礎;數(shù)據(jù)倉庫管理系統(tǒng)負責管理整個系統(tǒng)的運作;數(shù)據(jù)倉庫工具則是整個系統(tǒng)發(fā)揮作用的關鍵, 包含用于完成實際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的OLAP 分析工具、數(shù)據(jù)挖掘DM工具等, 以實現(xiàn)決策支持的各種要求。
2.2 聯(lián)機分析處理(Online Analytical Processing,OLAP)
OLAP 是一種重要的數(shù)據(jù)分析工具。OLAP 的概念最早是由關系數(shù)據(jù)庫之父E.F. Codd 于1993 年提出的, 他認為聯(lián)機事務處理OLTP(Online Transactional Processing) 己不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要, 因此他提出了多維數(shù)據(jù)庫和多維分析的概念, 即OLAP 的概念[2]。OLAP 是針對多維數(shù)據(jù)集的數(shù)據(jù)處理過程, 它使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的, 能夠真正為用戶所理解的并真實反映企業(yè)維持性的信息進行快速、一致、交互地存取, 從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術, 其目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求。
2.3 數(shù)據(jù)挖掘(Data Mining,DM)
1995 年, 在美國計算機年會(ACM) 上, 提出了數(shù)據(jù)挖掘的概念。從商業(yè)角度看, 數(shù)據(jù)挖掘技術是一種新的商業(yè)信息處理技術, 它把人們對數(shù)據(jù)的應用從低層次的聯(lián)機查詢操作, 提高到?jīng)Q策支持; 從技術角度看, 數(shù)據(jù)挖掘就是從真實的、大量的、不完全的、有噪聲的、模糊的和隨機應用的數(shù)據(jù)中, 提取隱含在其中的、人們事先不知道的、但卻是潛在有用的信息和知識的一個過程。
3. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘、OLAP 之間的關系
3.1 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間的關系
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是從20 世紀90 年代中期發(fā)展起來的新技術, 數(shù)據(jù)倉庫由數(shù)據(jù)庫演變而來, 而數(shù)據(jù)挖掘則是從人工智能的機器學習演變而來, 是一種知識發(fā)現(xiàn)技術, 它負責從豐富的數(shù)據(jù)中發(fā)現(xiàn)有價值的模型。二者的關系總結為:
1、數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)可以作為數(shù)據(jù)挖掘的數(shù)據(jù)源因為數(shù)據(jù)倉庫系統(tǒng)已經(jīng)按照主題將數(shù)據(jù)進行了集成、清理、轉(zhuǎn)換, 因此數(shù)據(jù)倉庫系統(tǒng)能夠滿足數(shù)據(jù)挖掘技術對數(shù)據(jù)環(huán)境的要求, 可以直接作為數(shù)據(jù)挖掘的數(shù)據(jù)源。如果將數(shù)據(jù)倉庫和數(shù)據(jù)挖掘緊密聯(lián)系在一起, 將獲得更好的結果, 同時能大大提高數(shù)據(jù)挖掘的工作效率。
2、數(shù)據(jù)挖掘的數(shù)據(jù)源不一定必須是數(shù)據(jù)倉庫系統(tǒng)作為數(shù)據(jù)挖掘的數(shù)據(jù)源不一定必須是數(shù)據(jù)倉庫。它可以是任何數(shù)據(jù)文件或格式, 但必須事先進行數(shù)據(jù)預處理, 處理成適合數(shù)據(jù)挖掘的數(shù)據(jù)。數(shù)據(jù)預處理是數(shù)據(jù)挖掘的關鍵步驟, 并占有數(shù)據(jù)挖掘全過程工作量的很大比重。
雖然數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是兩項不同的技術, 但是它們又有共同之處, 兩者都是從數(shù)據(jù)庫的基礎上發(fā)展起來的, 它們都是決策支持新技術。數(shù)據(jù)倉庫利用綜合數(shù)據(jù)得到宏觀信息, 利用歷史數(shù)據(jù)進行預測; 而數(shù)據(jù)挖掘是從數(shù)據(jù)庫中挖掘知識, 也用于決策分析。雖然數(shù)據(jù)倉庫和數(shù)據(jù)挖掘支持決策分析的方式不同, 但是它們可以結合起來, 提高決策分析的能力。
3.2 數(shù)據(jù)倉庫與OLAP 的關系
建立數(shù)據(jù)倉庫的目的是為了支持管理中的決策制定過程,OLAP 作為一種多維查詢和分析工具, 是數(shù)據(jù)倉庫功能的自然擴展, 也是數(shù)據(jù)倉庫中的大容量數(shù)據(jù)得以有效利用的重要保障。
在數(shù)據(jù)倉庫中, OLAP 和數(shù)據(jù)倉庫是密不可分的, 但是兩者具有不同的概念。數(shù)據(jù)倉庫是一個包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫, 這些歷史數(shù)據(jù)主要用于對企業(yè)的經(jīng)營決策提供分析和
支持。而OLAP 技術則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進行聯(lián)機分析,OLAP 利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術對數(shù)據(jù)倉庫中的數(shù)據(jù)進行組織和匯總, 用聯(lián)機分析和可視化工具對這些數(shù)據(jù)迅速進行評價, 將復雜的分析查詢結果快速地返回用戶。
隨著數(shù)據(jù)倉庫的發(fā)展, OLAP 也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù), 而OLAP 的一個主要特點是多維數(shù)據(jù)分析, 這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結合、相互補充的關系。因此, OLAP 技術與數(shù)據(jù)倉庫的結合可以較好地解決傳統(tǒng)決策支持系統(tǒng)既需要處理大量數(shù)據(jù)又需要進行大量數(shù)值計算的問題, 進而滿足決策支持或多維環(huán)境特定的查詢和報表需求。
3.3 數(shù)據(jù)挖掘與OLAP 的關系
數(shù)據(jù)挖掘與OLAP 都是數(shù)據(jù)庫( 數(shù)據(jù)倉庫) 的分析工具, 但兩者之間有著明顯的區(qū)別。前者是挖掘型的, 后者是驗證型的。前者建立在各種數(shù)據(jù)源的基礎上, 重在發(fā)現(xiàn)隱藏在數(shù)據(jù)深層次的對人們有用的模式并做出有效的預測性分析, 一般并不過多考慮執(zhí)行效率和響應速度[4]; 后者建立在多維視圖的基礎之上,強調(diào)執(zhí)行效率和對用戶命令的及時響應, 而且其直接數(shù)據(jù)源一般是數(shù)據(jù)倉庫。
數(shù)據(jù)挖掘能自動地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式, 它與其他分析型工具最大的不同在于它的分析過程是自動的。一個成熟的數(shù)據(jù)挖掘系統(tǒng)除了具有良好的核心的技術外, 還應該
具有開放性的結構, 友好的用戶接口。數(shù)據(jù)挖掘的用戶不必提出確切的問題, 而只需挖掘工具去挖掘隱藏的模式并預測未來的趨勢, 這樣更有利于發(fā)現(xiàn)未知的事實。
OLAP 是一種自上而下、不斷深入的分析工具, 由用戶提出問題或假設, OLAP 負責從上至下深入地提取出關于該問題的詳細信息, 并以可視化的方式呈現(xiàn)給用戶。與數(shù)據(jù)挖掘相比, OLAP 更多地依靠用戶輸入問題和假設, 但用戶先入為主的局限性可能會限制問題和假設的范圍, 從而影響最終的結論。因此, 作為驗證型分析工具, OLAP 更需要對用戶需求有全面而深入的了解。
顯然, 從對數(shù)據(jù)分析的深度來看, OLAP 位于較淺的層次,而數(shù)據(jù)挖掘所處的位置則較深, 數(shù)據(jù)挖掘可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復雜而細致的信息。盡管數(shù)據(jù)挖掘與OLAP 存在著上面的差異, 但作為數(shù)據(jù)倉庫系統(tǒng)的工具層的組成部分, 兩者是相輔相成的。
4. 結束語
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘、OLAP 雖然是三種不同的信息技術,但其目標卻都是輔助決策, 所以它們之間又存在著千絲萬縷的聯(lián)系。數(shù)據(jù)倉庫擁有豐富的數(shù)據(jù), 但只有通過OLAP 和數(shù)據(jù)挖掘才能使數(shù)據(jù)變成有價值的信息, 才能體現(xiàn)出數(shù)據(jù)倉庫的輔助決策功能, 否則永遠都是數(shù)據(jù)豐富、信息匱乏; 反之, 盡管OLAP 和數(shù)據(jù)挖掘并不一定要建立在數(shù)據(jù)倉庫的基礎之上, 但數(shù)據(jù)倉庫卻能提高兩者的工作效率, 讓兩者有更大的發(fā)展空間。
同為數(shù)據(jù)分析工具的數(shù)據(jù)挖掘與OLAP, 隨著OLAP 的發(fā)展, 兩者的界限正在逐漸模糊, 因為越來越多的OLAP 廠商將數(shù)據(jù)挖掘的方法融入他們的產(chǎn)品中, 這可能是OLAP 產(chǎn)品的一個發(fā)展方向。在整個決策分析系統(tǒng)中, OLAP 與數(shù)據(jù)挖掘以及其他分析工具由于內(nèi)在技術以及適用范圍的不同, 必須協(xié)調(diào)使用才能發(fā)揮最佳的作用。OLAP 與數(shù)據(jù)挖掘各有所長, 如果能將二者結合起來, 發(fā)展一個建立在OLAP 和數(shù)據(jù)挖掘基礎上的新的挖掘技術, 將更能適應實際的需要。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.vmgcyvh.cn/
本文標題:數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及OLAP 之兩兩關系
本文網(wǎng)址:http://m.vmgcyvh.cn/html/consultation/10820616298.html