| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>企業(yè)管理知識(shí)庫(kù)

m.vmgcyvh.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉(cāng)庫(kù)管理軟件|免費(fèi)下載專業(yè)資訊網(wǎng)-大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)（上）

大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)（上）

發(fā)布日期：2013-07-03 10:33:53 來(lái)源：m.vmgcyvh.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評(píng)論

摘要：云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類社會(huì)的數(shù)據(jù)種類和規(guī)模正以前所未有的速度增長(zhǎng)，大數(shù)據(jù)時(shí)代正式到來(lái)。數(shù)據(jù)從簡(jiǎn)單的處理對(duì)象開(kāi)始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源，如何更好的管理和利用大數(shù)據(jù)已經(jīng)成為普遍關(guān)注的話題。大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析帶來(lái)了極大的挑戰(zhàn)，數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生。本文對(duì)大數(shù)據(jù)的基本概念進(jìn)行剖析，并對(duì)大數(shù)據(jù)的主要應(yīng)用做簡(jiǎn)單對(duì)比。在此基礎(chǔ)上，闡述大數(shù)據(jù)處理的基本框架，并就云計(jì)算技術(shù)對(duì)于大數(shù)據(jù)時(shí)代數(shù)據(jù)管理所產(chǎn)生的作用進(jìn)行分析。最后歸納總結(jié)大數(shù)據(jù)時(shí)代所面臨的新挑戰(zhàn)。 原標(biāo)題：大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)（上） 原作者：發(fā)表時(shí)間：2013/7/3 孟小峰慈祥來(lái)源：萬(wàn)方數(shù)據(jù)

1、引言

隨著以博客、社交網(wǎng)絡(luò)、基于位置的服務(wù)LBS 為代表的新型信息發(fā)布方式的不斷涌現(xiàn)，以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起，數(shù)據(jù)正以前所未有的速度在不斷的增長(zhǎng)和累積，大數(shù)據(jù)時(shí)代已經(jīng)來(lái)到。學(xué)術(shù)界、工業(yè)界甚至于政府機(jī)構(gòu)都已經(jīng)開(kāi)始密切關(guān)注大數(shù)據(jù)問(wèn)題，并對(duì)其產(chǎn)生濃厚的興趣。就學(xué)術(shù)界而言，Nature 早在2008 年就推出了Big Data 專刊。計(jì)算社區(qū)聯(lián)盟(Computing Community Consortium)在2008 年發(fā)表了報(bào)告《Big-Data Computing: Creatingrevolutionary breakthroughs in commerce, science, and society》,闡述了在數(shù)據(jù)驅(qū)動(dòng)的研究背景下，解決大數(shù)據(jù)問(wèn)題所需的技術(shù)以及面臨的一些挑戰(zhàn)。Science 在2011 年2 月推出專刊《Dealing with Data》，主要圍繞著科學(xué)研究中大數(shù)據(jù)的問(wèn)題展開(kāi)討論，說(shuō)明大數(shù)據(jù)對(duì)于科學(xué)研究的重要性。美國(guó)一些知名的數(shù)據(jù)管理領(lǐng)域的專家學(xué)者則從專業(yè)的研究角度出發(fā)，聯(lián)合發(fā)布了一份白皮書(shū)《Challenges and Opportunities with Big Data。該白皮書(shū)從學(xué)術(shù)的角度出發(fā)，介紹了大數(shù)據(jù)的產(chǎn)生，分析了大數(shù)據(jù)的處理流程，并提出大數(shù)據(jù)所面臨的若干挑戰(zhàn)。

全球知名的咨詢公司麥肯錫(McKinsey)去年6 月份發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告《Big data: The next frontier for innovation, competition, and productivity》，對(duì)大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。進(jìn)入2012 年以來(lái)，大數(shù)據(jù)的關(guān)注度與日俱增。1 月份的達(dá)沃斯世界經(jīng)濟(jì)論壇上，大數(shù)據(jù)是主題之一，該次會(huì)議還特別針對(duì)大數(shù)據(jù)發(fā)布了報(bào)告《Big Data, Big Impact: New Possibilities for International Development》，探討了新的數(shù)據(jù)產(chǎn)生方式下，如何更好的利用數(shù)據(jù)來(lái)產(chǎn)生良好的社會(huì)效益。該報(bào)告重點(diǎn)關(guān)注了個(gè)人產(chǎn)生的移動(dòng)數(shù)據(jù)與其他數(shù)據(jù)的融合與利用。3 月份美國(guó)奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》[7](Big Data Research and Development Initiative)，投資2 億以上美元，正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”。計(jì)劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破。奧巴馬政府的這一計(jì)劃被視為美國(guó)政府繼信息高速公路(Information Highway)計(jì)劃之后在信息科學(xué)領(lǐng)域的又一重大舉措。與此同時(shí)，聯(lián)合國(guó)一個(gè)名為Global Pulse 的倡議項(xiàng)目在今年5 月發(fā)布報(bào)告《Big Data for Development：Challenges & Opportunities》，該報(bào)告主要闡述大數(shù)據(jù)時(shí)代各國(guó)特別是發(fā)展中國(guó)家在面臨數(shù)據(jù)洪流(Data Deluge)的情況下所遇到的機(jī)遇與挑戰(zhàn)，同時(shí)還對(duì)大數(shù)據(jù)的應(yīng)用進(jìn)行了初步的解讀。《紐約時(shí)報(bào)》的文章《The Age of Big Data》則通過(guò)主流媒體的宣傳使普通民眾開(kāi)始意識(shí)到大數(shù)據(jù)的存在，以及大數(shù)據(jù)對(duì)于人們?nèi)粘Ｉ畹挠绊憽?/p>

大數(shù)據(jù)的火熱并不意味著對(duì)于大數(shù)據(jù)的了解深入，反而表明大數(shù)據(jù)存在過(guò)度炒作的危險(xiǎn)。大數(shù)據(jù)的基本概念、關(guān)鍵技術(shù)以及對(duì)其的利用上均存在很多的疑問(wèn)和爭(zhēng)議。本文從大數(shù)據(jù)問(wèn)題背后的本質(zhì)出發(fā)，對(duì)現(xiàn)有的大數(shù)據(jù)研究資料進(jìn)行全面的歸納和總結(jié)。首先簡(jiǎn)要介紹大數(shù)據(jù)的基本概念，闡述其同傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別。在此基礎(chǔ)上，對(duì)大數(shù)據(jù)處理框架進(jìn)行詳細(xì)解析。我們認(rèn)為大數(shù)據(jù)的發(fā)展離不開(kāi)云計(jì)算技術(shù)，云計(jì)算支撐著大數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析等。因此本文展開(kāi)介紹了大數(shù)據(jù)時(shí)代不可或缺的云計(jì)算技術(shù)和工具。最后全面闡述大數(shù)據(jù)時(shí)代面臨的新挑戰(zhàn)。

2、大數(shù)據(jù)的基本概念、來(lái)源與應(yīng)用

2.1 大數(shù)據(jù)的基本概念

大數(shù)據(jù)本身是一個(gè)比較抽象的概念，單從字面來(lái)看，它表示數(shù)據(jù)規(guī)模的龐大。但是僅僅數(shù)量上的龐大顯然無(wú)法看出大數(shù)據(jù)這一概念和以往的“海量數(shù)據(jù)”（Massive Data）、“超大規(guī)模數(shù)據(jù)”(Very Large Data)等概念之間有何區(qū)別。對(duì)于大數(shù)據(jù)尚未有一個(gè)公認(rèn)的定義，不同的定義基本是從大數(shù)據(jù)的特征出發(fā)，通過(guò)這些特征的闡述和歸納，試圖給出其定義。在這些定義中，比較有代表性的是3V 定義，即認(rèn)為大數(shù)據(jù)需滿足3 個(gè)特點(diǎn)：規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。除此之外，還有提出4V 定義的，即嘗試在3V 的基礎(chǔ)上增加一個(gè)新的特性。關(guān)于第四個(gè)V 的說(shuō)法并不統(tǒng)一，IDC 認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(Value)，大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn)。而IBM 認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Veracity)。維基百科對(duì)大數(shù)據(jù)的定義則簡(jiǎn)單明了：大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。

眼下在大數(shù)據(jù)定義問(wèn)題上很難達(dá)成一個(gè)完全的共識(shí)，這點(diǎn)和云計(jì)算的概念剛提出時(shí)的情況是相似的。在面對(duì)實(shí)際問(wèn)題時(shí)，不必過(guò)度的拘泥于具體的定義之中，把握3V 定義的基礎(chǔ)上，適當(dāng)?shù)目紤]4V 特性即可。

2.2 從數(shù)據(jù)庫(kù)(Database, DB)到大數(shù)據(jù)(Big Data, BD)

從數(shù)據(jù)庫(kù)(DB)到大數(shù)據(jù)(BD)，看似只是一個(gè)簡(jiǎn)單的技術(shù)演進(jìn)，但細(xì)細(xì)考究不難發(fā)現(xiàn)兩者有著本質(zhì)上的差別。大數(shù)據(jù)的出現(xiàn)，必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式。在數(shù)據(jù)來(lái)源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都會(huì)對(duì)其帶來(lái)革命性的變化。

如果要用簡(jiǎn)單的方式來(lái)比較傳統(tǒng)的數(shù)據(jù)庫(kù)和大數(shù)據(jù)的區(qū)別的話，我們認(rèn)為“池塘捕魚(yú)”和“大海捕魚(yú)”是個(gè)很好的類比。“池塘捕魚(yú)”代表著傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)代的數(shù)據(jù)管理方式，而“大海捕魚(yú)”則對(duì)應(yīng)著大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式，“魚(yú)”是待處理的數(shù)據(jù)。“捕魚(yú)”環(huán)境條件的變化導(dǎo)致了“捕魚(yú)”方式的根本性差異。這些差異主要體現(xiàn)在如下幾個(gè)方面：

1、數(shù)據(jù)規(guī)模：“池塘”和“大海”最容易發(fā)現(xiàn)的區(qū)別就是規(guī)模。“池塘”規(guī)模相對(duì)較小，即便是先前認(rèn)為比較大的“池塘”，譬如VLDB(Very Large Database)，和“大海”XLDB(Extremely Large Database)相比仍舊偏小。“池塘”的處理對(duì)象通常以MB 為基本單位，而“大海”則常常以GB，甚至是TB、PB 為基本處理單位。

2、數(shù)據(jù)類型：過(guò)去的“池塘”中，數(shù)據(jù)的種類單一，往往僅僅有一種或少數(shù)幾種，這些數(shù)據(jù)又以結(jié)構(gòu)化數(shù)據(jù)為主。而在“大海”中，數(shù)據(jù)的種類繁多，數(shù)以千計(jì)，而這些數(shù)據(jù)又包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)，并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份額越來(lái)越大。

3、模式(Schema)和數(shù)據(jù)的關(guān)系：傳統(tǒng)的數(shù)據(jù)庫(kù)都是先有模式，然后才會(huì)產(chǎn)生數(shù)據(jù)。這就好比是先選好合適的“池塘”，然后才會(huì)向其中投放適合在該“池塘”環(huán)境生長(zhǎng)的“魚(yú)”。而大數(shù)據(jù)時(shí)代很多情況下難以預(yù)先確定模式，模式只有在數(shù)據(jù)出現(xiàn)之后才能確定，且模式隨著數(shù)據(jù)量的增長(zhǎng)處于不斷的演變之中。這就好比先有少量的魚(yú)類，隨著時(shí)間推移，魚(yú)的種類和數(shù)量都在不斷的增長(zhǎng)。魚(yú)的變化會(huì)使大海的成分和環(huán)境處于不斷的變化之中。

4、處理對(duì)象：在“池塘”中捕魚(yú)，“魚(yú)”僅僅是其捕撈對(duì)象。而在“大海”中，“魚(yú)”除了是捕撈對(duì)象之外，還可以通過(guò)某些“魚(yú)”的存在來(lái)判斷其他種類的“魚(yú)”是否存在。也就是說(shuō)傳統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù)僅作為處理對(duì)象。而在大數(shù)據(jù)時(shí)代，要將數(shù)據(jù)作為一種資源來(lái)輔助解決其他諸多領(lǐng)域的問(wèn)題。

5、處理工具：捕撈“池塘”中的“魚(yú)”，一種漁網(wǎng)或少數(shù)幾種基本就可以應(yīng)對(duì)，也就是所謂的One Size Fits All。但是在“大海”中，不可能存在一種漁網(wǎng)能夠捕獲所有的魚(yú)類，也就是說(shuō)No Size Fits All。

從“池塘”到“大海”，不僅僅是規(guī)模的變大。傳統(tǒng)的數(shù)據(jù)庫(kù)代表著數(shù)據(jù)工程(Data Engineering)的處理方式，大數(shù)據(jù)時(shí)代的數(shù)據(jù)已不僅僅只是工程處理的對(duì)象，需要采取新的數(shù)據(jù)思維來(lái)應(yīng)對(duì)。圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專家Jim Gray 博士觀察并總結(jié)人類自古以來(lái)，在科學(xué)研究上，先后歷經(jīng)了實(shí)驗(yàn)、理論和計(jì)算三種范式。當(dāng)數(shù)據(jù)量不斷增長(zhǎng)和累積到今天，傳統(tǒng)的三種范式在科學(xué)研究，特別是一些新的研究領(lǐng)域已經(jīng)無(wú)法很好的發(fā)揮作用，需要有一種全新的第四種范式來(lái)指導(dǎo)新形勢(shì)下的科學(xué)研究。基于這種考慮，Jim Gray 提出了一種新的數(shù)據(jù)探索型研究方式，被他自己稱之為科學(xué)研究的“第四種范式”(The Fourth Paradigm)。

科學(xué)發(fā)現(xiàn)的四種范式

表1 科學(xué)發(fā)現(xiàn)的四種范式

四種范式的比較如表1所示。第四種范式的實(shí)質(zhì)就是從以計(jì)算為中心，轉(zhuǎn)變到以數(shù)據(jù)處理為中心，也就是我們所說(shuō)的數(shù)據(jù)思維。這種方式需要我們從根本上轉(zhuǎn)變思維。正如前面提到的“捕魚(yú)”，在大數(shù)據(jù)時(shí)代，數(shù)據(jù)不再僅僅是“捕撈”的對(duì)象，而應(yīng)當(dāng)轉(zhuǎn)變成一種基礎(chǔ)資源，用數(shù)據(jù)這種資源來(lái)協(xié)同解決其他諸多領(lǐng)域的問(wèn)題。計(jì)算社會(huì)科學(xué)(Computational SocialScience)基于特定社會(huì)需求，在特定的社會(huì)理論指導(dǎo)下，收集、整理和分析數(shù)據(jù)足跡(dataprint)，以便進(jìn)行社會(huì)解釋、監(jiān)控、預(yù)測(cè)與規(guī)劃的過(guò)程和活動(dòng)。計(jì)算社會(huì)科學(xué)是一種典型的需要采用第四種范式來(lái)做指導(dǎo)的科學(xué)研究領(lǐng)域。Duncan J. Watts 在《自然》雜志上的文章《Atwenty-first century science》也指出借助于社交網(wǎng)絡(luò)和計(jì)算機(jī)分析技術(shù)，21 世紀(jì)的社會(huì)科學(xué)有可能實(shí)現(xiàn)定量化的研究，從而成為一門真正的自然科學(xué)。

2.3 大數(shù)據(jù)的產(chǎn)生和應(yīng)用

人類歷史上從未有哪個(gè)時(shí)代和今天一樣產(chǎn)生如此海量的數(shù)據(jù)。數(shù)據(jù)的產(chǎn)生已經(jīng)完全不受時(shí)間、地點(diǎn)的限制。從開(kāi)始采用數(shù)據(jù)庫(kù)作為數(shù)據(jù)管理的主要方式開(kāi)始，人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3 個(gè)階段，而正是數(shù)據(jù)產(chǎn)生方式的巨大變化才最終導(dǎo)致大數(shù)據(jù)的產(chǎn)生。

1、運(yùn)營(yíng)式系統(tǒng)階段。數(shù)據(jù)庫(kù)的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低，實(shí)際中數(shù)據(jù)庫(kù)大都為運(yùn)營(yíng)系統(tǒng)所采用，作為運(yùn)營(yíng)系統(tǒng)的數(shù)據(jù)管理子系統(tǒng)。比如超市的銷售記錄系統(tǒng)，銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療記錄等。人類社會(huì)數(shù)據(jù)量第一次大的飛躍正是建立在運(yùn)營(yíng)式系統(tǒng)開(kāi)始廣泛使用數(shù)據(jù)庫(kù)開(kāi)始。這個(gè)階段最主要特點(diǎn)是數(shù)據(jù)往往伴隨著一定的運(yùn)營(yíng)活動(dòng)而產(chǎn)生并記錄在數(shù)據(jù)庫(kù)中的，比如超市每銷售出一件產(chǎn)品就會(huì)在數(shù)據(jù)庫(kù)中產(chǎn)生相應(yīng)的一條銷售記錄。這種數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的。

2、用戶原創(chuàng)內(nèi)容階段。互聯(lián)網(wǎng)的誕生促使人類社會(huì)數(shù)據(jù)量出現(xiàn)第二次大的飛躍。但是真正的數(shù)據(jù)爆發(fā)產(chǎn)生于Web 2.0 時(shí)代，而Web 2.0 的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容（UGC,User Generated Content）。這類數(shù)據(jù)近幾年一直呈現(xiàn)爆炸性的增長(zhǎng)，主要有兩個(gè)方面的原因。首先是以博客、微博為代表的新型社交網(wǎng)絡(luò)的出現(xiàn)和快速發(fā)展，使得用戶產(chǎn)生數(shù)據(jù)的意愿更加強(qiáng)烈。其次就是以智能手機(jī)、平板電腦為代表的新型移動(dòng)設(shè)備的出現(xiàn)，這些易攜帶、全天候接入網(wǎng)絡(luò)的移動(dòng)設(shè)備使得人們?cè)诰W(wǎng)上發(fā)表自己意見(jiàn)的途徑更為便捷。這個(gè)階段數(shù)據(jù)的產(chǎn)生方式是主動(dòng)的。

3、感知式系統(tǒng)階段。人類社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生，今天我們正處于這個(gè)階段。這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。隨著技術(shù)的發(fā)展，人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器，并開(kāi)始將這些設(shè)備廣泛的布置于社會(huì)的各個(gè)角落，通過(guò)這些設(shè)備來(lái)對(duì)整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控。這些設(shè)備會(huì)源源不斷的產(chǎn)生新數(shù)據(jù)，這種數(shù)據(jù)的產(chǎn)生方式是自動(dòng)的。

簡(jiǎn)單來(lái)說(shuō)，數(shù)據(jù)產(chǎn)生經(jīng)歷了被動(dòng)、主動(dòng)和自動(dòng)三個(gè)階段。這些被動(dòng)、主動(dòng)和自動(dòng)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來(lái)源，但其中自動(dòng)式的數(shù)據(jù)才是大數(shù)據(jù)產(chǎn)生的最根本原因。

典型大數(shù)據(jù)應(yīng)用的比較

表2 典型大數(shù)據(jù)應(yīng)用的比較

正如Google 的首席經(jīng)濟(jì)學(xué)家Hal Varian 所說(shuō)，數(shù)據(jù)是廣泛可用的，所缺乏的是從中提取出知識(shí)的能力。數(shù)據(jù)收集的根本目的是根據(jù)需求從數(shù)據(jù)中提取有用的知識(shí)，并將其應(yīng)用到具體的領(lǐng)域之中。不同領(lǐng)域的大數(shù)據(jù)應(yīng)用有不同的特點(diǎn)，表2 列舉了若干具有代表性的大數(shù)據(jù)應(yīng)用及其特征。

正是由于大數(shù)據(jù)的廣泛存在，才使得大數(shù)據(jù)問(wèn)題的解決很具挑戰(zhàn)性。而它的廣泛應(yīng)用，則促使越來(lái)越多的人開(kāi)始關(guān)注和研究大數(shù)據(jù)問(wèn)題。

3、大數(shù)據(jù)處理框架

3.1 大數(shù)據(jù)處理模式

大數(shù)據(jù)的應(yīng)用類型很多，主要的處理模式可以分為流處理(Stream Processing)和批處理(Batch Processing)兩種。批處理是先存儲(chǔ)后處理(Store-then-process)，而流處理則是直接處理(Straight-through processing)。

3.1.1 流處理

流處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少。因此盡可能快的對(duì)最新的數(shù)據(jù)做出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。需要采用流數(shù)據(jù)處理的大數(shù)據(jù)應(yīng)用場(chǎng)景主要有網(wǎng)頁(yè)點(diǎn)擊數(shù)的實(shí)時(shí)統(tǒng)計(jì)、傳感器網(wǎng)絡(luò)、金融中的高頻交易等。

流處理的處理模式將數(shù)據(jù)視為流，源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流。當(dāng)新的數(shù)據(jù)到來(lái)時(shí)就立刻處理并返回所需的結(jié)果。圖1是流處理中基本的數(shù)據(jù)流模型：

基本的數(shù)據(jù)流模型

圖1 基本的數(shù)據(jù)流模型

數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性的工作，數(shù)據(jù)流本身具有持續(xù)達(dá)到、速度快且規(guī)模巨大等特點(diǎn)，因此通常不會(huì)對(duì)所有的數(shù)據(jù)進(jìn)行永久化存儲(chǔ)，而且數(shù)據(jù)環(huán)境處在不斷的變化之中，系統(tǒng)很難準(zhǔn)確掌握整個(gè)數(shù)據(jù)的全貌。由于響應(yīng)時(shí)間的要求，流處理的過(guò)程基本在內(nèi)存中完成，其處理方式更多的依賴于在內(nèi)存中設(shè)計(jì)巧妙的概要數(shù)據(jù)結(jié)構(gòu)(Synopsis data structure)，內(nèi)存容量是限制流處理模型的一個(gè)主要瓶頸。以PCM(相變存儲(chǔ)器)為代表的SCM(Storage ClassMemory，儲(chǔ)存級(jí)內(nèi)存)設(shè)備的出現(xiàn)或許可以使內(nèi)存未來(lái)不再成為流處理模型的制約。

數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史，目前仍舊是研究熱點(diǎn)。于此同時(shí)很多實(shí)際系統(tǒng)也已開(kāi)發(fā)和得到廣泛的應(yīng)用，比較代表性的開(kāi)源系統(tǒng)如Twitter 的Storm、Yahoo的S4以及Linkedin 的Kafka等。

3.1.2 批處理

Google 公司在2004 年提出的MapReduce編程模型是最具代表性的批處理模式。一個(gè)完整的MapReduce 過(guò)程如圖2所示：

MapReduce執(zhí)行流程圖

圖2 MapReduce執(zhí)行流程圖

MapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊，然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出Key/Value對(duì)集合，然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果，并將該結(jié)果寫入本地硬盤。Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后，會(huì)根據(jù)key 值進(jìn)行排序，將具有相同key 值的組織在一起。最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。

從MapReduce的處理過(guò)程我們可以看出，MapReduce的核心設(shè)計(jì)思想在于：

1)將問(wèn)題分而治之；

2)把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算，有效的避免數(shù)據(jù)傳輸過(guò)程中產(chǎn)生的大量通訊開(kāi)銷。

MapReduce模型簡(jiǎn)單，且現(xiàn)實(shí)中很多問(wèn)題都可用MapReduce模型來(lái)表示。因此該模型公開(kāi)后，立刻受到極大的關(guān)注，并在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。

無(wú)論是流處理還是批處理，都是大數(shù)據(jù)處理的可行思路。大數(shù)據(jù)的應(yīng)用類型很多，在實(shí)際的大數(shù)據(jù)處理中，常常并不是簡(jiǎn)單的只使用其中的某一種，而是將二者結(jié)合起來(lái)。互聯(lián)網(wǎng)是大數(shù)據(jù)最重要的來(lái)源之一，很多互聯(lián)網(wǎng)公司根據(jù)處理時(shí)間的要求將自己的業(yè)務(wù)劃分為在線(Online)、近線(Nearline)和離線(Offline)，比如著名的職業(yè)社交網(wǎng)站Linkedin。這種劃分方式是按處理所耗時(shí)間來(lái)劃分的。其中在線的處理時(shí)間一般在秒級(jí)，甚至是毫秒級(jí)，因此通常采用上面所說(shuō)的流處理。離線的處理時(shí)間可以以天為基本單位，基本采用批處理方式，這種方式可以最大限度的利用系統(tǒng)I/O。近線的處理時(shí)間一般在分鐘級(jí)或者是小時(shí)級(jí)，對(duì)其處理模型并沒(méi)有特別的要求，可以根據(jù)需求靈活選擇。但在實(shí)際中多采用批處理模式。

3.2 大數(shù)據(jù)處理的基本流程

大數(shù)據(jù)的數(shù)據(jù)來(lái)源廣泛，應(yīng)用需求和數(shù)據(jù)類型都不盡相同，但是最基本的處理流程一致。海量Web 數(shù)據(jù)的處理是一類非常典型的大數(shù)據(jù)應(yīng)用，從中可以歸納出大數(shù)據(jù)處理的最基本流程。ScholarSpace由中國(guó)人民大學(xué)網(wǎng)絡(luò)與移動(dòng)數(shù)據(jù)管理實(shí)驗(yàn)室(WAMDM)開(kāi)發(fā)，目標(biāo)是建立一個(gè)“以人為本”，即以作者為中心來(lái)展示多學(xué)科中文文獻(xiàn)的集成數(shù)據(jù)庫(kù)系統(tǒng)。該系統(tǒng)已經(jīng)從最初的計(jì)算機(jī)領(lǐng)域擴(kuò)展到包括經(jīng)濟(jì)、法律等人文社會(huì)科學(xué)在內(nèi)的多領(lǐng)域。從數(shù)據(jù)抽取和集成，一直到最終的結(jié)果展示，ScholarSpace 完整的體現(xiàn)出大數(shù)據(jù)處理的一般流程。在其基礎(chǔ)上我們歸納出大數(shù)據(jù)的基本流程，如圖3 所示：

大數(shù)據(jù)處理基本流程

圖3 大數(shù)據(jù)處理基本流程

整個(gè)大數(shù)據(jù)的處理流程可以定義為在合適工具的輔助下，對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成，結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ)。利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析，從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來(lái)說(shuō)可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。

核心關(guān)注：拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請(qǐng)注明出處：拓步ERP資訊網(wǎng)http://m.vmgcyvh.cn/

本文標(biāo)題：大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)（上）

本文網(wǎng)址：http://m.vmgcyvh.cn/html/support/1112189697.html

關(guān)鍵詞標(biāo)簽： 大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)（上）,大數(shù)據(jù)管理數(shù)據(jù)分析云計(jì)算,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財(cái)務(wù)軟件,倉(cāng)庫(kù)管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉(cāng)庫(kù)管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來(lái)源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問(wèn)請(qǐng)告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)（中）

下一篇：我國(guó)企業(yè)管理中存在的“破窗現(xiàn)象”分析

相關(guān)文章

服務(wù)支持

拓步ERP系統(tǒng)軟件平臺(tái)11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺(tái)11.5標(biāo)..

金蝶KIS財(cái)務(wù)軟件標(biāo)準(zhǔn)版V8.1..

金蝶KIS財(cái)務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡(jiǎn)體中..

金蝶KIS商貿(mào)高級(jí)版V4.0|破..

金蝶KIS財(cái)務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

拓步ERP倉(cāng)庫(kù)管理軟件財(cái)務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺(tái)庫(kù)存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺(tái)客戶端安裝培訓(xùn)..

拓步ERP財(cái)務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺(tái)數(shù)據(jù)庫(kù)安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺(tái)通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺(tái)采購(gòu)管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)財(cái)務(wù)報(bào)表系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)財(cái)務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)應(yīng)收帳款系統(tǒng)培..

熱門電子圖書(shū)

拓步ERP財(cái)務(wù)管理系統(tǒng)電子圖書(shū)

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺(tái)系列旗艦版

拓步ERP生產(chǎn)系列標(biāo)準(zhǔn)版（進(jìn)銷存..

拓步ERP業(yè)務(wù)系列倉(cāng)存版（倉(cāng)庫(kù)管..

拓步ERP平臺(tái)系列標(biāo)準(zhǔn)版

拓步ERP財(cái)務(wù)系列迷你版（財(cái)務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標(biāo)準(zhǔn)版（條..

拓步ERP平臺(tái)系列企業(yè)版

拓步ERP平臺(tái)系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版

最新服務(wù)支持

談3D可視化系統(tǒng)在工業(yè)4.0三項(xiàng)集成的應(yīng)用

互聯(lián)網(wǎng)+智能家裝TOP50新鮮出..

淺談業(yè)務(wù)流程治理

解析工業(yè)4.0系列專欄—— 德國(guó)..

工業(yè)物聯(lián)網(wǎng)應(yīng)用場(chǎng)景及系統(tǒng)構(gòu)建

數(shù)據(jù)中心四大災(zāi)備技術(shù)解析

2015網(wǎng)絡(luò)、數(shù)據(jù)中心和云該期待..

如何利用云服務(wù)創(chuàng)建強(qiáng)大的備份策略

《中國(guó)制造2025》的總體思路圖

未來(lái)數(shù)據(jù)中心UPS需求趨勢(shì)

點(diǎn)擊

聯(lián)系ERP系統(tǒng)咨詢顧問(wèn)
點(diǎn)擊

聯(lián)系ERP系統(tǒng)售前顧問(wèn)-1
點(diǎn)擊

聯(lián)系ERP系統(tǒng)售前顧問(wèn)-2


	ERP新聞動(dòng)態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問(wèn)咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評(píng)審驗(yàn)收 ERP績(jī)效評(píng)價(jià) ERP基礎(chǔ)知識(shí) ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識(shí)庫(kù) 常見(jiàn)問(wèn)題資料庫(kù) 在線學(xué)習(xí)資料庫(kù) 日常辦公資料庫(kù) 企業(yè)管理知識(shí)庫(kù)

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠(chéng)聘英才聯(lián)系我們在線留言在線訂購(gòu)意向下載體驗(yàn)登記

精品久久久久久久久久久久久久_黄色一级免费大片_久久人_成人在线观看一区_精品中文字幕一区二区_国产精品久久久久久久久久三级

ERP技術(shù)支持

技術(shù)支持知識(shí)庫(kù)

常見(jiàn)問(wèn)題資料庫(kù)

在線學(xué)習(xí)資料庫(kù)

日常辦公資料庫(kù)

企業(yè)管理知識(shí)庫(kù)

ERP系統(tǒng)教程

ERP免費(fèi)下載

ERP在線咨詢

即時(shí)聯(lián)系

服務(wù)熱線

快捷互動(dòng)

猜您喜歡