1、引言
隨著以博客、社交網(wǎng)絡(luò)、基于位置的服務(wù)LBS 為代表的新型信息發(fā)布方式的不斷涌現(xiàn),以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,數(shù)據(jù)正以前所未有的速度在不斷的增長(zhǎng)和累積,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)到。學(xué)術(shù)界、工業(yè)界甚至于政府機(jī)構(gòu)都已經(jīng)開(kāi)始密切關(guān)注大數(shù)據(jù)問(wèn)題,并對(duì)其產(chǎn)生濃厚的興趣。就學(xué)術(shù)界而言,Nature 早在2008 年就推出了Big Data 專刊。計(jì)算社區(qū)聯(lián)盟(Computing Community Consortium)在2008 年發(fā)表了報(bào)告《Big-Data Computing: Creatingrevolutionary breakthroughs in commerce, science, and society》,闡述了在數(shù)據(jù)驅(qū)動(dòng)的研究背景下,解決大數(shù)據(jù)問(wèn)題所需的技術(shù)以及面臨的一些挑戰(zhàn)。Science 在2011 年2 月推出專刊《Dealing with Data》,主要圍繞著科學(xué)研究中大數(shù)據(jù)的問(wèn)題展開(kāi)討論,說(shuō)明大數(shù)據(jù)對(duì)于科學(xué)研究的重要性。美國(guó)一些知名的數(shù)據(jù)管理領(lǐng)域的專家學(xué)者則從專業(yè)的研究角度出發(fā),聯(lián)合發(fā)布了一份白皮書(shū)《Challenges and Opportunities with Big Data。該白皮書(shū)從學(xué)術(shù)的角度出發(fā),介紹了大數(shù)據(jù)的產(chǎn)生,分析了大數(shù)據(jù)的處理流程,并提出大數(shù)據(jù)所面臨的若干挑戰(zhàn)。
全球知名的咨詢公司麥肯錫(McKinsey)去年6 月份發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告《Big data: The next frontier for innovation, competition, and productivity》,對(duì)大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。進(jìn)入2012 年以來(lái),大數(shù)據(jù)的關(guān)注度與日俱增。1 月份的達(dá)沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,該次會(huì)議還特別針對(duì)大數(shù)據(jù)發(fā)布了報(bào)告《Big Data, Big Impact: New Possibilities for International Development》,探討了新的數(shù)據(jù)產(chǎn)生方式下,如何更好的利用數(shù)據(jù)來(lái)產(chǎn)生良好的社會(huì)效益。該報(bào)告重點(diǎn)關(guān)注了個(gè)人產(chǎn)生的移動(dòng)數(shù)據(jù)與其他數(shù)據(jù)的融合與利用。3 月份美國(guó)奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》[7](Big Data Research and Development Initiative),投資2 億以上美元,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”。計(jì)劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破。奧巴馬政府的這一計(jì)劃被視為美國(guó)政府繼信息高速公路(Information Highway)計(jì)劃之后在信息科學(xué)領(lǐng)域的又一重大舉措。與此同時(shí),聯(lián)合國(guó)一個(gè)名為Global Pulse 的倡議項(xiàng)目在今年5 月發(fā)布報(bào)告《Big Data for Development:Challenges & Opportunities》,該報(bào)告主要闡述大數(shù)據(jù)時(shí)代各國(guó)特別是發(fā)展中國(guó)家在面臨數(shù)據(jù)洪流(Data Deluge)的情況下所遇到的機(jī)遇與挑戰(zhàn),同時(shí)還對(duì)大數(shù)據(jù)的應(yīng)用進(jìn)行了初步的解讀。《紐約時(shí)報(bào)》的文章《The Age of Big Data》則通過(guò)主流媒體的宣傳使普通民眾開(kāi)始意識(shí)到大數(shù)據(jù)的存在,以及大數(shù)據(jù)對(duì)于人們?nèi)粘I畹挠绊憽?/p>
大數(shù)據(jù)的火熱并不意味著對(duì)于大數(shù)據(jù)的了解深入,反而表明大數(shù)據(jù)存在過(guò)度炒作的危險(xiǎn)。大數(shù)據(jù)的基本概念、關(guān)鍵技術(shù)以及對(duì)其的利用上均存在很多的疑問(wèn)和爭(zhēng)議。本文從大數(shù)據(jù)問(wèn)題背后的本質(zhì)出發(fā),對(duì)現(xiàn)有的大數(shù)據(jù)研究資料進(jìn)行全面的歸納和總結(jié)。首先簡(jiǎn)要介紹大數(shù)據(jù)的基本概念,闡述其同傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別。在此基礎(chǔ)上,對(duì)大數(shù)據(jù)處理框架進(jìn)行詳細(xì)解析。我們認(rèn)為大數(shù)據(jù)的發(fā)展離不開(kāi)云計(jì)算技術(shù),云計(jì)算支撐著大數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析等。因此本文展開(kāi)介紹了大數(shù)據(jù)時(shí)代不可或缺的云計(jì)算技術(shù)和工具。最后全面闡述大數(shù)據(jù)時(shí)代面臨的新挑戰(zhàn)。
2、大數(shù)據(jù)的基本概念、來(lái)源與應(yīng)用
2.1 大數(shù)據(jù)的基本概念
大數(shù)據(jù)本身是一個(gè)比較抽象的概念,單從字面來(lái)看,它表示數(shù)據(jù)規(guī)模的龐大。但是僅僅數(shù)量上的龐大顯然無(wú)法看出大數(shù)據(jù)這一概念和以往的“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)等概念之間有何區(qū)別。對(duì)于大數(shù)據(jù)尚未有一個(gè)公認(rèn)的定義,不同的定義基本是從大數(shù)據(jù)的特征出發(fā),通過(guò)這些特征的闡述和歸納,試圖給出其定義。在這些定義中,比較有代表性的是3V 定義,即認(rèn)為大數(shù)據(jù)需滿足3 個(gè)特點(diǎn):規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。除此之外,還有提出4V 定義的,即嘗試在3V 的基礎(chǔ)上增加一個(gè)新的特性。關(guān)于第四個(gè)V 的說(shuō)法并不統(tǒng)一,IDC 認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(Value),大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn)。而IBM 認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Veracity)。維基百科對(duì)大數(shù)據(jù)的定義則簡(jiǎn)單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。
眼下在大數(shù)據(jù)定義問(wèn)題上很難達(dá)成一個(gè)完全的共識(shí),這點(diǎn)和云計(jì)算的概念剛提出時(shí)的情況是相似的。在面對(duì)實(shí)際問(wèn)題時(shí),不必過(guò)度的拘泥于具體的定義之中,把握3V 定義的基礎(chǔ)上,適當(dāng)?shù)目紤]4V 特性即可。
2.2 從數(shù)據(jù)庫(kù)(Database, DB)到大數(shù)據(jù)(Big Data, BD)
從數(shù)據(jù)庫(kù)(DB)到大數(shù)據(jù)(BD),看似只是一個(gè)簡(jiǎn)單的技術(shù)演進(jìn),但細(xì)細(xì)考究不難發(fā)現(xiàn)兩者有著本質(zhì)上的差別。大數(shù)據(jù)的出現(xiàn),必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式。在數(shù)據(jù)來(lái)源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都會(huì)對(duì)其帶來(lái)革命性的變化。
如果要用簡(jiǎn)單的方式來(lái)比較傳統(tǒng)的數(shù)據(jù)庫(kù)和大數(shù)據(jù)的區(qū)別的話,我們認(rèn)為“池塘捕魚(yú)”和“大海捕魚(yú)”是個(gè)很好的類比。“池塘捕魚(yú)”代表著傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)代的數(shù)據(jù)管理方式,而“大海捕魚(yú)”則對(duì)應(yīng)著大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式,“魚(yú)”是待處理的數(shù)據(jù)。“捕魚(yú)”環(huán)境條件的變化導(dǎo)致了“捕魚(yú)”方式的根本性差異。這些差異主要體現(xiàn)在如下幾個(gè)方面:
1、數(shù)據(jù)規(guī)模:“池塘”和“大海”最容易發(fā)現(xiàn)的區(qū)別就是規(guī)模。“池塘”規(guī)模相對(duì)較小,即便是先前認(rèn)為比較大的“池塘”,譬如VLDB(Very Large Database),和“大海”XLDB(Extremely Large Database)相比仍舊偏小。“池塘”的處理對(duì)象通常以MB 為基本單位,而“大海”則常常以GB,甚至是TB、PB 為基本處理單位。
2、數(shù)據(jù)類型:過(guò)去的“池塘”中,數(shù)據(jù)的種類單一,往往僅僅有一種或少數(shù)幾種,這些數(shù)據(jù)又以結(jié)構(gòu)化數(shù)據(jù)為主。而在“大海”中,數(shù)據(jù)的種類繁多,數(shù)以千計(jì),而這些數(shù)據(jù)又包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份額越來(lái)越大。
3、模式(Schema)和數(shù)據(jù)的關(guān)系:傳統(tǒng)的數(shù)據(jù)庫(kù)都是先有模式,然后才會(huì)產(chǎn)生數(shù)據(jù)。這就好比是先選好合適的“池塘”,然后才會(huì)向其中投放適合在該“池塘”環(huán)境生長(zhǎng)的“魚(yú)”。而大數(shù)據(jù)時(shí)代很多情況下難以預(yù)先確定模式,模式只有在數(shù)據(jù)出現(xiàn)之后才能確定,且模式隨著數(shù)據(jù)量的增長(zhǎng)處于不斷的演變之中。這就好比先有少量的魚(yú)類,隨著時(shí)間推移,魚(yú)的種類和數(shù)量都在不斷的增長(zhǎng)。魚(yú)的變化會(huì)使大海的成分和環(huán)境處于不斷的變化之中。
4、處理對(duì)象:在“池塘”中捕魚(yú),“魚(yú)”僅僅是其捕撈對(duì)象。而在“大海”中,“魚(yú)”除了是捕撈對(duì)象之外,還可以通過(guò)某些“魚(yú)”的存在來(lái)判斷其他種類的“魚(yú)”是否存在。也就是說(shuō)傳統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù)僅作為處理對(duì)象。而在大數(shù)據(jù)時(shí)代,要將數(shù)據(jù)作為一種資源來(lái)輔助解決其他諸多領(lǐng)域的問(wèn)題。
5、處理工具:捕撈“池塘”中的“魚(yú)”,一種漁網(wǎng)或少數(shù)幾種基本就可以應(yīng)對(duì),也就是所謂的One Size Fits All。但是在“大海”中,不可能存在一種漁網(wǎng)能夠捕獲所有的魚(yú)類,也就是說(shuō)No Size Fits All。
從“池塘”到“大海”,不僅僅是規(guī)模的變大。傳統(tǒng)的數(shù)據(jù)庫(kù)代表著數(shù)據(jù)工程(Data Engineering)的處理方式,大數(shù)據(jù)時(shí)代的數(shù)據(jù)已不僅僅只是工程處理的對(duì)象,需要采取新的數(shù)據(jù)思維來(lái)應(yīng)對(duì)。圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專家Jim Gray 博士觀察并總結(jié)人類自古以來(lái),在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論和計(jì)算三種范式。當(dāng)數(shù)據(jù)量不斷增長(zhǎng)和累積到今天,傳統(tǒng)的三種范式在科學(xué)研究,特別是一些新的研究領(lǐng)域已經(jīng)無(wú)法很好的發(fā)揮作用,需要有一種全新的第四種范式來(lái)指導(dǎo)新形勢(shì)下的科學(xué)研究。基于這種考慮,Jim Gray 提出了一種新的數(shù)據(jù)探索型研究方式,被他自己稱之為科學(xué)研究的“第四種范式”(The Fourth Paradigm)。
表1 科學(xué)發(fā)現(xiàn)的四種范式
四種范式的比較如表1所示。第四種范式的實(shí)質(zhì)就是從以計(jì)算為中心,轉(zhuǎn)變到以數(shù)據(jù)處理為中心,也就是我們所說(shuō)的數(shù)據(jù)思維。這種方式需要我們從根本上轉(zhuǎn)變思維。正如前面提到的“捕魚(yú)”,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不再僅僅是“捕撈”的對(duì)象,而應(yīng)當(dāng)轉(zhuǎn)變成一種基礎(chǔ)資源,用數(shù)據(jù)這種資源來(lái)協(xié)同解決其他諸多領(lǐng)域的問(wèn)題。計(jì)算社會(huì)科學(xué)(Computational SocialScience)基于特定社會(huì)需求,在特定的社會(huì)理論指導(dǎo)下,收集、整理和分析數(shù)據(jù)足跡(dataprint),以便進(jìn)行社會(huì)解釋、監(jiān)控、預(yù)測(cè)與規(guī)劃的過(guò)程和活動(dòng)。計(jì)算社會(huì)科學(xué)是一種典型的需要采用第四種范式來(lái)做指導(dǎo)的科學(xué)研究領(lǐng)域。Duncan J. Watts 在《自然》雜志上的文章《Atwenty-first century science》也指出借助于社交網(wǎng)絡(luò)和計(jì)算機(jī)分析技術(shù),21 世紀(jì)的社會(huì)科學(xué)有可能實(shí)現(xiàn)定量化的研究,從而成為一門真正的自然科學(xué)。
2.3 大數(shù)據(jù)的產(chǎn)生和應(yīng)用
人類歷史上從未有哪個(gè)時(shí)代和今天一樣產(chǎn)生如此海量的數(shù)據(jù)。數(shù)據(jù)的產(chǎn)生已經(jīng)完全不受時(shí)間、地點(diǎn)的限制。從開(kāi)始采用數(shù)據(jù)庫(kù)作為數(shù)據(jù)管理的主要方式開(kāi)始,人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3 個(gè)階段,而正是數(shù)據(jù)產(chǎn)生方式的巨大變化才最終導(dǎo)致大數(shù)據(jù)的產(chǎn)生。
1、運(yùn)營(yíng)式系統(tǒng)階段。數(shù)據(jù)庫(kù)的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低,實(shí)際中數(shù)據(jù)庫(kù)大都為運(yùn)營(yíng)系統(tǒng)所采用,作為運(yùn)營(yíng)系統(tǒng)的數(shù)據(jù)管理子系統(tǒng)。比如超市的銷售記錄系統(tǒng),銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療記錄等。人類社會(huì)數(shù)據(jù)量第一次大的飛躍正是建立在運(yùn)營(yíng)式系統(tǒng)開(kāi)始廣泛使用數(shù)據(jù)庫(kù)開(kāi)始。這個(gè)階段最主要特點(diǎn)是數(shù)據(jù)往往伴隨著一定的運(yùn)營(yíng)活動(dòng)而產(chǎn)生并記錄在數(shù)據(jù)庫(kù)中的,比如超市每銷售出一件產(chǎn)品就會(huì)在數(shù)據(jù)庫(kù)中產(chǎn)生相應(yīng)的一條銷售記錄。這種數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的。
2、用戶原創(chuàng)內(nèi)容階段。互聯(lián)網(wǎng)的誕生促使人類社會(huì)數(shù)據(jù)量出現(xiàn)第二次大的飛躍。但是真正的數(shù)據(jù)爆發(fā)產(chǎn)生于Web 2.0 時(shí)代,而Web 2.0 的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容(UGC,User Generated Content)。這類數(shù)據(jù)近幾年一直呈現(xiàn)爆炸性的增長(zhǎng),主要有兩個(gè)方面的原因。首先是以博客、微博為代表的新型社交網(wǎng)絡(luò)的出現(xiàn)和快速發(fā)展,使得用戶產(chǎn)生數(shù)據(jù)的意愿更加強(qiáng)烈。其次就是以智能手機(jī)、平板電腦為代表的新型移動(dòng)設(shè)備的出現(xiàn),這些易攜帶、全天候接入網(wǎng)絡(luò)的移動(dòng)設(shè)備使得人們?cè)诰W(wǎng)上發(fā)表自己意見(jiàn)的途徑更為便捷。這個(gè)階段數(shù)據(jù)的產(chǎn)生方式是主動(dòng)的。
3、感知式系統(tǒng)階段。人類社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生,今天我們正處于這個(gè)階段。這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。隨著技術(shù)的發(fā)展,人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器,并開(kāi)始將這些設(shè)備廣泛的布置于社會(huì)的各個(gè)角落,通過(guò)這些設(shè)備來(lái)對(duì)整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控。這些設(shè)備會(huì)源源不斷的產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)生方式是自動(dòng)的。
簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)產(chǎn)生經(jīng)歷了被動(dòng)、主動(dòng)和自動(dòng)三個(gè)階段。這些被動(dòng)、主動(dòng)和自動(dòng)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來(lái)源,但其中自動(dòng)式的數(shù)據(jù)才是大數(shù)據(jù)產(chǎn)生的最根本原因。
表2 典型大數(shù)據(jù)應(yīng)用的比較
正如Google 的首席經(jīng)濟(jì)學(xué)家Hal Varian 所說(shuō),數(shù)據(jù)是廣泛可用的,所缺乏的是從中提取出知識(shí)的能力。數(shù)據(jù)收集的根本目的是根據(jù)需求從數(shù)據(jù)中提取有用的知識(shí),并將其應(yīng)用到具體的領(lǐng)域之中。不同領(lǐng)域的大數(shù)據(jù)應(yīng)用有不同的特點(diǎn),表2 列舉了若干具有代表性的大數(shù)據(jù)應(yīng)用及其特征。
正是由于大數(shù)據(jù)的廣泛存在,才使得大數(shù)據(jù)問(wèn)題的解決很具挑戰(zhàn)性。而它的廣泛應(yīng)用,則促使越來(lái)越多的人開(kāi)始關(guān)注和研究大數(shù)據(jù)問(wèn)題。
3、大數(shù)據(jù)處理框架
3.1 大數(shù)據(jù)處理模式
大數(shù)據(jù)的應(yīng)用類型很多,主要的處理模式可以分為流處理(Stream Processing)和批處理(Batch Processing)兩種。批處理是先存儲(chǔ)后處理(Store-then-process),而流處理則是直接處理(Straight-through processing)。
3.1.1 流處理
流處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少。因此盡可能快的對(duì)最新的數(shù)據(jù)做出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。需要采用流數(shù)據(jù)處理的大數(shù)據(jù)應(yīng)用場(chǎng)景主要有網(wǎng)頁(yè)點(diǎn)擊數(shù)的實(shí)時(shí)統(tǒng)計(jì)、傳感器網(wǎng)絡(luò)、金融中的高頻交易等。
流處理的處理模式將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流。當(dāng)新的數(shù)據(jù)到來(lái)時(shí)就立刻處理并返回所需的結(jié)果。圖1是流處理中基本的數(shù)據(jù)流模型:
圖1 基本的數(shù)據(jù)流模型
數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)達(dá)到、速度快且規(guī)模巨大等特點(diǎn),因此通常不會(huì)對(duì)所有的數(shù)據(jù)進(jìn)行永久化存儲(chǔ),而且數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準(zhǔn)確掌握整個(gè)數(shù)據(jù)的全貌。由于響應(yīng)時(shí)間的要求,流處理的過(guò)程基本在內(nèi)存中完成,其處理方式更多的依賴于在內(nèi)存中設(shè)計(jì)巧妙的概要數(shù)據(jù)結(jié)構(gòu)(Synopsis data structure),內(nèi)存容量是限制流處理模型的一個(gè)主要瓶頸。以PCM(相變存儲(chǔ)器)為代表的SCM(Storage ClassMemory,儲(chǔ)存級(jí)內(nèi)存)設(shè)備的出現(xiàn)或許可以使內(nèi)存未來(lái)不再成為流處理模型的制約。
數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點(diǎn)。于此同時(shí)很多實(shí)際系統(tǒng)也已開(kāi)發(fā)和得到廣泛的應(yīng)用,比較代表性的開(kāi)源系統(tǒng)如Twitter 的Storm、Yahoo的S4以及Linkedin 的Kafka等。
3.1.2 批處理
Google 公司在2004 年提出的MapReduce編程模型是最具代表性的批處理模式。一個(gè)完整的MapReduce 過(guò)程如圖2所示:
圖2 MapReduce執(zhí)行流程圖
MapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出Key/Value對(duì)集合,然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后,會(huì)根據(jù)key 值進(jìn)行排序,將具有相同key 值的組織在一起。最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。
從MapReduce的處理過(guò)程我們可以看出,MapReduce的核心設(shè)計(jì)思想在于:
1)將問(wèn)題分而治之;
2)把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效的避免數(shù)據(jù)傳輸過(guò)程中產(chǎn)生的大量通訊開(kāi)銷。
MapReduce模型簡(jiǎn)單,且現(xiàn)實(shí)中很多問(wèn)題都可用MapReduce模型來(lái)表示。因此該模型公開(kāi)后,立刻受到極大的關(guān)注,并在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。
無(wú)論是流處理還是批處理,都是大數(shù)據(jù)處理的可行思路。大數(shù)據(jù)的應(yīng)用類型很多,在實(shí)際的大數(shù)據(jù)處理中,常常并不是簡(jiǎn)單的只使用其中的某一種,而是將二者結(jié)合起來(lái)。互聯(lián)網(wǎng)是大數(shù)據(jù)最重要的來(lái)源之一,很多互聯(lián)網(wǎng)公司根據(jù)處理時(shí)間的要求將自己的業(yè)務(wù)劃分為在線(Online)、近線(Nearline)和離線(Offline),比如著名的職業(yè)社交網(wǎng)站Linkedin。這種劃分方式是按處理所耗時(shí)間來(lái)劃分的。其中在線的處理時(shí)間一般在秒級(jí),甚至是毫秒級(jí),因此通常采用上面所說(shuō)的流處理。離線的處理時(shí)間可以以天為基本單位,基本采用批處理方式,這種方式可以最大限度的利用系統(tǒng)I/O。近線的處理時(shí)間一般在分鐘級(jí)或者是小時(shí)級(jí),對(duì)其處理模型并沒(méi)有特別的要求,可以根據(jù)需求靈活選擇。但在實(shí)際中多采用批處理模式。
3.2 大數(shù)據(jù)處理的基本流程
大數(shù)據(jù)的數(shù)據(jù)來(lái)源廣泛,應(yīng)用需求和數(shù)據(jù)類型都不盡相同,但是最基本的處理流程一致。海量Web 數(shù)據(jù)的處理是一類非常典型的大數(shù)據(jù)應(yīng)用,從中可以歸納出大數(shù)據(jù)處理的最基本流程。ScholarSpace由中國(guó)人民大學(xué)網(wǎng)絡(luò)與移動(dòng)數(shù)據(jù)管理實(shí)驗(yàn)室(WAMDM)開(kāi)發(fā),目標(biāo)是建立一個(gè)“以人為本”,即以作者為中心來(lái)展示多學(xué)科中文文獻(xiàn)的集成數(shù)據(jù)庫(kù)系統(tǒng)。 該系統(tǒng)已經(jīng)從最初的計(jì)算機(jī)領(lǐng)域擴(kuò)展到包括經(jīng)濟(jì)、法律等人文社會(huì)科學(xué)在內(nèi)的多領(lǐng)域。從數(shù)據(jù)抽取和集成,一直到最終的結(jié)果展示,ScholarSpace 完整的體現(xiàn)出大數(shù)據(jù)處理的一般流程。在其基礎(chǔ)上我們歸納出大數(shù)據(jù)的基本流程,如圖3 所示:
圖3 大數(shù)據(jù)處理基本流程
整個(gè)大數(shù)據(jù)的處理流程可以定義為在合適工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ)。利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來(lái)說(shuō)可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.vmgcyvh.cn/
本文標(biāo)題:大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)(上)