1 大數(shù)據(jù)時(shí)代的來(lái)臨
隨著通信行業(yè)競(jìng)爭(zhēng)的不斷加劇,運(yùn)營(yíng)商如何有效地利用龐大的信令數(shù)據(jù)進(jìn)一步實(shí)現(xiàn)深度運(yùn)營(yíng)和精確營(yíng)銷已經(jīng)成為當(dāng)務(wù)之急,急需一種可控投入就可滿足可控信令數(shù)據(jù)存儲(chǔ),并能高效地對(duì)其分析、挖掘信令數(shù)據(jù)價(jià)值的數(shù)據(jù)平臺(tái)。Big Data”大數(shù)據(jù)”是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,對(duì)國(guó)家治理模式,對(duì)企業(yè)決策、組織和業(yè)務(wù)流程,對(duì)個(gè)人生活方式都將產(chǎn)生巨大的影響。在研究領(lǐng)域,麥肯錫認(rèn)為,數(shù)據(jù)已成為流入全球經(jīng)濟(jì)每一個(gè)領(lǐng)域的洪流。大數(shù)據(jù)完全能夠成為企業(yè)的新型資產(chǎn),形成競(jìng)爭(zhēng)力的重要基礎(chǔ),并發(fā)揮重要的經(jīng)濟(jì)作用。IDC認(rèn)為,大數(shù)據(jù)處理將在2012年成為一項(xiàng)必備能力。Gartner認(rèn)為,2015年超過(guò)85%的財(cái)富500強(qiáng)企業(yè)將在大數(shù)據(jù)競(jìng)爭(zhēng)中失去優(yōu)勢(shì)。2012年3月,奧巴馬政府發(fā)布了“大數(shù)據(jù)發(fā)展計(jì)劃”,并將其定義為“未來(lái)的新石油”。這一系列事件使得大數(shù)據(jù)成為又一個(gè)炙手可熱的名詞。
電信運(yùn)營(yíng)商引入大數(shù)據(jù)技術(shù),通過(guò)可控的成本實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)分層的同時(shí),通過(guò)縮短數(shù)據(jù)處理路徑和提供超大數(shù)據(jù)處理帶寬,有效減少數(shù)據(jù)分析響應(yīng)時(shí)間,提升信令分析的業(yè)務(wù)價(jià)值,增強(qiáng)運(yùn)營(yíng)商核心競(jìng)爭(zhēng)力。
2 大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn)
2.1 大數(shù)據(jù)概念
(1) 數(shù)據(jù)規(guī)模大:很難給出一個(gè)絕對(duì)的數(shù)字標(biāo)準(zhǔn)來(lái)確定大小,可能用一些模糊的感覺(jué)來(lái)相對(duì)比較;
(2) 數(shù)據(jù)結(jié)構(gòu)復(fù)雜度高:復(fù)雜的數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)能夠傳遞更豐富的信息;
(3) 數(shù)據(jù)關(guān)聯(lián)度高:數(shù)據(jù)關(guān)聯(lián)度的高低關(guān)系到數(shù)據(jù)的可挖掘程度,如果數(shù)據(jù)關(guān)聯(lián)度低,無(wú)論數(shù)據(jù)量如何大,結(jié)構(gòu)如何復(fù)雜,也形成不了大數(shù)據(jù)。
2.2 大數(shù)據(jù)時(shí)代面臨的問(wèn)題
(1) 簡(jiǎn)單的腳本語(yǔ)言預(yù)處理,無(wú)法解析過(guò)于復(fù)雜的數(shù)據(jù)結(jié)構(gòu);
(2) 關(guān)系型數(shù)據(jù)庫(kù)在大數(shù)據(jù)面前面臨尷尬;
(3) 商業(yè)數(shù)據(jù)庫(kù)的優(yōu)化空間有限;
(4) 數(shù)據(jù)質(zhì)量無(wú)法做到有效監(jiān)控;
(5) 越來(lái)越多的業(yè)務(wù)需求向數(shù)據(jù)運(yùn)算能力妥協(xié)。
3 基于云計(jì)算的大數(shù)據(jù)方案研究與設(shè)計(jì)
3.1 大數(shù)據(jù)統(tǒng)一分析平臺(tái)設(shè)計(jì)思路
圖1 大數(shù)據(jù)平臺(tái)體系架構(gòu)
(1) 在企業(yè)內(nèi)構(gòu)建統(tǒng)一的數(shù)據(jù)運(yùn)算平臺(tái);
(2) 企業(yè)所有者可以直接控制其數(shù)據(jù)實(shí)例;
(3) 通過(guò)實(shí)體整合直接提供企業(yè)級(jí)的數(shù)據(jù)訪問(wèn)功能;
(4) 靈活的擴(kuò)展和配置降低了投資的平均風(fēng)險(xiǎn)。
3.2 大數(shù)據(jù)統(tǒng)一分析平臺(tái)軟件架構(gòu)
圖2 大數(shù)據(jù)平臺(tái)與傳統(tǒng)方案架構(gòu)比較
云時(shí)代的大數(shù)據(jù)平臺(tái)不僅以高性價(jià)比、高擴(kuò)展性的硬件體系支撐PB級(jí)別,甚至ZB級(jí)別的海量結(jié)構(gòu)化、半結(jié)構(gòu)化、甚至非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)。同時(shí)還需要能夠高速的挖掘這些數(shù)據(jù)的價(jià)值,為企業(yè)創(chuàng)造利潤(rùn),真正實(shí)現(xiàn)大數(shù)據(jù)等于大價(jià)值。
基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)結(jié)合數(shù)據(jù)庫(kù)存儲(chǔ)和Map Reduce架構(gòu)為企業(yè)構(gòu)建高效處理的結(jié)構(gòu)化、半結(jié)構(gòu)化、甚至非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)分析平臺(tái),客戶可以以此平臺(tái)為基礎(chǔ)實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)從成本中心到利潤(rùn)中心的轉(zhuǎn)變,以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)。
圖3 大數(shù)據(jù)統(tǒng)一分析平臺(tái)數(shù)據(jù)軟件架構(gòu)
(1) 軟件架構(gòu)
通過(guò)Master主機(jī)和多節(jié)點(diǎn)的Segment主機(jī)和數(shù)據(jù)庫(kù)通過(guò)互聯(lián)網(wǎng)絡(luò)連接。應(yīng)用程序通過(guò)Master主機(jī)訪問(wèn)數(shù)據(jù),網(wǎng)絡(luò)中的每一個(gè)存儲(chǔ)節(jié)點(diǎn)都是獨(dú)立的數(shù)據(jù)庫(kù),相互之間沒(méi)有共享。在多存儲(chǔ)節(jié)點(diǎn)和Master主機(jī)之間進(jìn)行數(shù)據(jù)交換。各個(gè)節(jié)點(diǎn)的segment服務(wù)器通過(guò)互聯(lián)網(wǎng)絡(luò)進(jìn)行連接,完成相同的任務(wù),從用戶的角度來(lái)看是一個(gè)服務(wù)器系統(tǒng)。
其基本特征是由segment服務(wù)器(每個(gè)segment服務(wù)器為節(jié)點(diǎn))通過(guò)互聯(lián)網(wǎng)絡(luò)連接而成,每個(gè)節(jié)點(diǎn)只訪問(wèn)自己的本地資源包括內(nèi)存、存儲(chǔ)等,是一種完全的無(wú)共享結(jié)構(gòu)(share-nothing),因而擴(kuò)展能力最好,理論上期擴(kuò)展無(wú)限制,目前的技術(shù)可實(shí)現(xiàn)512個(gè)節(jié)點(diǎn)的互聯(lián),數(shù)千個(gè)CPU。每個(gè)節(jié)點(diǎn)可運(yùn)行自己的數(shù)據(jù)庫(kù)、操作系統(tǒng),但是每個(gè)節(jié)點(diǎn)不能訪問(wèn)其他節(jié)點(diǎn)的內(nèi)存,節(jié)點(diǎn)之間的信息交互是通過(guò)節(jié)點(diǎn)互聯(lián)網(wǎng)實(shí)現(xiàn)的,這一過(guò)程稱為數(shù)據(jù)重分配。(2) 高可用性方案設(shè)計(jì)
圖4 大數(shù)據(jù)平臺(tái)高可用性架構(gòu)
Master主機(jī)與備Master主機(jī)采用一主一備方式同步進(jìn)程,Master主機(jī)與多節(jié)點(diǎn)的Segment主機(jī)通過(guò)GE網(wǎng)絡(luò)進(jìn)行連接,每一節(jié)點(diǎn)Segment主機(jī)上包含了主網(wǎng)段和鏡像網(wǎng)段兩份數(shù)據(jù),保障整個(gè)系統(tǒng)架構(gòu)的高可用性。
3.3 大數(shù)據(jù)統(tǒng)一分析平臺(tái)網(wǎng)絡(luò)架構(gòu)
(1) 目前的共享架構(gòu)方案
圖5 完全共享性架構(gòu)
“完全共享”體系局限于單一服務(wù)器(通常是價(jià)格比較昂貴的SMP服務(wù)器)。
圖6 共享磁盤架構(gòu)
“磁盤共享”體系允許系統(tǒng)帶有多個(gè)服務(wù)器,這些服務(wù)器與SAN或其它共享存儲(chǔ)設(shè)備相連。這種體系需要通過(guò)一個(gè)狹窄的數(shù)據(jù)管道將所有I/O信息過(guò)濾到昂貴的共享磁盤子系統(tǒng)。
從結(jié)構(gòu)上分析,采用“完全共享”或“磁盤共享”體系,其擴(kuò)展性和性能受到相應(yīng)的限制。而且,通用磁盤共享體系復(fù)雜、脆弱,在處理萬(wàn)億字節(jié)數(shù)據(jù)時(shí)難以勝任。
(2) share-nothing完全不共享架構(gòu)方案
圖7 “完全不共享”架構(gòu)
完全不共享架構(gòu)的磁盤SAN/FC網(wǎng)絡(luò)、網(wǎng)絡(luò)主機(jī)SAN/共享磁盤、通用數(shù)據(jù)庫(kù)等是針對(duì)OLTP處理功能設(shè)計(jì)的,在運(yùn)行大量小規(guī)模交易查詢數(shù)據(jù)時(shí)效果最好。
在“完全不共享”體系下,在主機(jī)上規(guī)劃查詢項(xiàng)目,并將其分成若干部分在集群上并行執(zhí)行,所有通訊功能都在一個(gè)高寬帶網(wǎng)絡(luò)互連體系上實(shí)現(xiàn)。這種體系的一個(gè)重要優(yōu)勢(shì)就是每個(gè)節(jié)點(diǎn)都有一個(gè)通往本地磁盤的獨(dú)立高速通道,從而簡(jiǎn)化了體系,并提供擴(kuò)展性很好的并行掃描和查詢處理功能。
3.4 大數(shù)據(jù)統(tǒng)一分析平臺(tái)方案特點(diǎn)
(1) 數(shù)據(jù)保護(hù)-節(jié)點(diǎn)鏡像
圖8 大數(shù)據(jù)統(tǒng)一分析平臺(tái)數(shù)據(jù)保護(hù)
在大數(shù)據(jù)統(tǒng)一分析平臺(tái)中,只有Master主機(jī)保存了系統(tǒng)的元數(shù)據(jù),每一節(jié)點(diǎn)的Segment主機(jī)保存了用戶的部分?jǐn)?shù)據(jù),通過(guò)鏡像,Segment主機(jī)的鏡像數(shù)據(jù)保存在不同的Segment主機(jī)上。
比如:Segment主機(jī)1的主要數(shù)據(jù)版本1在Segment主機(jī)1,它的鏡像數(shù)據(jù)保存在Segment主機(jī)n;Segment主機(jī)2的主要數(shù)據(jù)版本2在Segment主機(jī)2,它的鏡像數(shù)據(jù)保存在Segment主機(jī)1;Segment主機(jī)n的主要版本數(shù)據(jù)在Segment主機(jī)n,它的鏡像數(shù)據(jù)保存在Segment主機(jī)2;
根據(jù)這樣的鏡像配置,如果有Segment主機(jī)down機(jī)了,仍舊可以從其他節(jié)點(diǎn)的Segment主機(jī)恢復(fù)完整的可用數(shù)據(jù)到本Segment主機(jī)數(shù)據(jù)庫(kù)系統(tǒng)。
(2) 基于外部表的高速數(shù)據(jù)加載
圖9 大數(shù)據(jù)統(tǒng)一分析平臺(tái)外部表加載
①并行數(shù)據(jù)流引擎,可以直接用SQL操作外部表;
②加載完全并行,加載速度可達(dá)4.5TB/小時(shí)。
(3) MapReduce & SQL一體環(huán)境
與傳統(tǒng)的RDBMS系統(tǒng)和編程環(huán)境不同,大數(shù)據(jù)分析平臺(tái)采用MapReduce & SQL一體化的環(huán)境。
(4) 私有云計(jì)算平臺(tái)
硬件采用X86開(kāi)放架構(gòu)的PC服務(wù)器,數(shù)據(jù)分布式存儲(chǔ)和采用大規(guī)模并行計(jì)算,從根本上解決I/O問(wèn)題,性能線性擴(kuò)展,高可用保障,資源按需定制。
3.5 大數(shù)據(jù)統(tǒng)一分析平臺(tái)優(yōu)勢(shì)分析
(1) 允許根據(jù)業(yè)務(wù)優(yōu)先級(jí)按需調(diào)配和再分配大量計(jì)算資源的敏捷性;
(2) 能夠分析更細(xì)化、更多元化的低延遲數(shù)據(jù)集(大數(shù)據(jù)),同時(shí)保留數(shù)據(jù)內(nèi)的細(xì)微區(qū)別和關(guān)系,以便得出有利于優(yōu)化業(yè)務(wù)績(jī)效的差異化洞見(jiàn)點(diǎn);
(3) 圍繞關(guān)鍵業(yè)務(wù)計(jì)劃展開(kāi)組織范圍的協(xié)作,快速傳播最佳做法和組織發(fā)現(xiàn)的結(jié)果;
(4) 成本優(yōu)勢(shì):可以利用商品化處理組件來(lái)分析大數(shù)據(jù),從而利用以前即便能利用也不能經(jīng)濟(jì)高效的利用的業(yè)務(wù)機(jī)會(huì)。
基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)將帶來(lái)可大幅擴(kuò)展的處理容量,允許利用細(xì)粒度數(shù)據(jù)集,實(shí)現(xiàn)低延遲數(shù)據(jù)訪問(wèn)以及緊密的數(shù)據(jù)倉(cāng)庫(kù)和分析集成,為公司和企業(yè)提供有實(shí)際內(nèi)容并有可操作性的洞見(jiàn)點(diǎn)。
4 結(jié)束語(yǔ)
根據(jù)Gartner的預(yù)測(cè),2012年大數(shù)據(jù)技術(shù)處于高速的發(fā)展時(shí)期,不斷取得技術(shù)上的突破,產(chǎn)品密集發(fā)布或者其他能產(chǎn)生重大利益的項(xiàng)目快速大量出現(xiàn)。基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)將有效地支撐數(shù)據(jù)關(guān)聯(lián)度高、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的數(shù)據(jù),有效支持PB級(jí)別數(shù)據(jù)、有效減少數(shù)據(jù)分析響應(yīng)時(shí)間,提升信令分析的業(yè)務(wù)價(jià)值。基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)對(duì)電信運(yùn)營(yíng)商未來(lái)業(yè)務(wù)和技術(shù)的發(fā)展有重要的戰(zhàn)略意義和經(jīng)濟(jì)意義。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.vmgcyvh.cn/
本文標(biāo)題:基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)研究與設(shè)計(jì)