目前人人都在談大數(shù)據(jù),談DT時(shí)代,但是,大數(shù)據(jù)是什么,每個(gè)人都有自己的一個(gè)看法,好比盲人摸象,每個(gè)都認(rèn)為自己摸到是真正的大象。我也擔(dān)心我所看到的,只是大數(shù)據(jù)的冰山一角,畢竟,將引領(lǐng)整個(gè)人類下一次變革的大數(shù)據(jù),不是幾篇文章就能說(shuō)清楚的。
一,DT時(shí)代
大數(shù)據(jù)這個(gè)概念,其實(shí)在上世紀(jì)九十年代就有人提出來(lái)了,當(dāng)時(shí)希望通過(guò)將所有零散的數(shù)據(jù)歸并起來(lái),然后進(jìn)行數(shù)據(jù)挖掘,以看到以前存在的問(wèn)題,去預(yù)測(cè)未來(lái)幾年的趨勢(shì),來(lái)指導(dǎo)商業(yè)決策。比如保險(xiǎn)行業(yè),人壽保險(xiǎn)會(huì)通過(guò)大數(shù)據(jù)的統(tǒng)計(jì)計(jì)算,根據(jù)人均壽命來(lái)計(jì)算保費(fèi)與回報(bào)率。 這是在特定的環(huán)境,特定的時(shí)間下,對(duì)數(shù)據(jù)做一些商業(yè)化的嘗試,還算不上真正的大數(shù)據(jù)。
我們?cè)倏磭?guó)內(nèi)大數(shù)據(jù)的領(lǐng)導(dǎo)者——阿里巴巴,早在2010年就在開(kāi)始談大數(shù)據(jù)戰(zhàn)略,同年,Maxcompute(原ODPS)開(kāi)始布局,螞蟻小貸開(kāi)始創(chuàng)業(yè) 。
2012年,阿里設(shè)立了CDO這個(gè)崗位以及成立CDO事業(yè)部,全面負(fù)責(zé)阿里集團(tuán)的“數(shù)據(jù)分享平臺(tái)”的大數(shù)據(jù)戰(zhàn)略。同年,一本《大數(shù)據(jù)時(shí)代》也開(kāi)始在國(guó)內(nèi)外暢銷,國(guó)內(nèi)大數(shù)據(jù)時(shí)代拉開(kāi)序幕。
2014年,馬云再次提出,“人類正從IT時(shí)代走向DT時(shí)代”,人類已經(jīng)從IT時(shí)代走向DT時(shí)代,IT時(shí)代是以自我控制、自我管理為主,而DT(Datatechnology)時(shí)代,它是以服務(wù)大眾、激發(fā)生產(chǎn)力為主的技術(shù)。這兩者之間看起來(lái)似乎是一種技術(shù)的差異,但實(shí)際上是思想觀念層面的差異。
講了這么多,那大數(shù)據(jù)是什么呢?我們先看看大數(shù)據(jù)不是什么。
大數(shù)據(jù)不是什么?
1,大數(shù)據(jù)≠擁有數(shù)據(jù)
很多人覺(jué)得擁有數(shù)據(jù),特別是擁有大量的數(shù)據(jù),這就是大數(shù)據(jù)了,這個(gè)是肯定不對(duì)的,數(shù)據(jù)量大不是大數(shù)據(jù),比如氣象數(shù)據(jù)很大,如果僅僅用于氣象預(yù)測(cè),只要計(jì)算能力跟上就行,還遠(yuǎn)遠(yuǎn)沒(méi)有發(fā)揮它的價(jià)值。但是保險(xiǎn)公司根據(jù)氣象大數(shù)據(jù),來(lái)預(yù)測(cè)自然災(zāi)害以及調(diào)整與自然災(zāi)害相關(guān)的保險(xiǎn)費(fèi)率,它就演化出其它的商業(yè)價(jià)值,形成了大數(shù)據(jù)的商業(yè)環(huán)境。所以,大數(shù)據(jù)要使用,甚至關(guān)聯(lián),交換才能產(chǎn)生真正價(jià)值,形成DT時(shí)代特有的大數(shù)據(jù)商業(yè)。
2,大數(shù)據(jù)≠報(bào)表平臺(tái),
有很多企業(yè),建立了自己業(yè)務(wù)的報(bào)表中心,或者是大屏展示中心,就馬上宣布他們已經(jīng)實(shí)現(xiàn)了大數(shù)據(jù),這是遠(yuǎn)遠(yuǎn)不夠的。報(bào)表雖然也是大數(shù)據(jù)的一種體現(xiàn),但是真正的大數(shù)據(jù)業(yè)務(wù),不是生成報(bào)表靠人來(lái)指揮,那是披著大數(shù)據(jù)外表的報(bào)表系統(tǒng)而已。在大數(shù)據(jù)閉環(huán)系統(tǒng)中,萬(wàn)物都是數(shù)據(jù)產(chǎn)生者,也是數(shù)據(jù)使用者,他們通過(guò)自動(dòng)化,智能化的閉環(huán)系統(tǒng),自動(dòng)學(xué)習(xí),智能調(diào)整,從而提升整體的生產(chǎn)效率。
3,大數(shù)據(jù)≠計(jì)算平臺(tái)
之前看過(guò)一個(gè)報(bào)道,說(shuō)某某金融機(jī)構(gòu)建立了自己的大數(shù)據(jù)系統(tǒng),后來(lái)仔細(xì)一看,就是搭建了一個(gè)幾百臺(tái)機(jī)器的Hadoop集群而已。大數(shù)據(jù)計(jì)算平臺(tái),是大數(shù)據(jù)應(yīng)用的技術(shù)基礎(chǔ),是大數(shù)據(jù)閉環(huán)中非常重要的一環(huán),也是不可缺少的一環(huán),但是,不能說(shuō)有了計(jì)算平臺(tái)就有了大數(shù)據(jù)。比如我買了鍋,不能說(shuō)我已經(jīng)有了菜,從鍋到菜還缺原料(數(shù)據(jù)),刀具(加工工具),廚師(數(shù)據(jù)加工)才能最終做出菜來(lái)。
4,大數(shù)據(jù)≠精準(zhǔn)營(yíng)銷
見(jiàn)過(guò)很多創(chuàng)業(yè)公司在做大數(shù)據(jù)創(chuàng)業(yè),仔細(xì)一看,人家做的是基于大數(shù)據(jù)的推薦引擎、廣告定投等等。這是大數(shù)據(jù)嗎?他們做的是大數(shù)據(jù)的一種應(yīng)用,可以說(shuō)已經(jīng)是大數(shù)據(jù)的一種了。只是大數(shù)據(jù)整個(gè)生態(tài),不能通過(guò)這一種就來(lái)表達(dá)而已。正如大象的耳朵是大象的一部分,但是,它不能代表大象。
那大數(shù)據(jù)到底是什么?
簡(jiǎn)單講,大數(shù)據(jù)需要有大量能互相連接的的數(shù)據(jù)(不管是自己的,還是購(gòu)買,交換別人的),他們?cè)谝粋(gè)大數(shù)據(jù)計(jì)算平臺(tái)(或者是能互通的各個(gè)數(shù)據(jù)節(jié)點(diǎn)上),有相同的數(shù)據(jù)標(biāo)準(zhǔn)能正確的關(guān)聯(lián)(如ETL,數(shù)據(jù)標(biāo)準(zhǔn)),通過(guò)大數(shù)據(jù)相關(guān)處理技術(shù)(如算法,引擎,機(jī)器學(xué)習(xí)),形成自動(dòng)化、智能化的大數(shù)據(jù)產(chǎn)品或者業(yè)務(wù),進(jìn)而形成大數(shù)據(jù)采集,反饋的閉環(huán),自動(dòng)智能的指導(dǎo)人類的活動(dòng),工業(yè)制造,社會(huì)發(fā)展等。
數(shù)據(jù)正在金融,廣告,零售,物流,影視等行業(yè),悄悄地改變我們的生活。隨著手機(jī)的更大規(guī)模的普及,還是日新月異的可穿戴設(shè)備、智能家居、甚至無(wú)人駕駛汽車,都在提醒我們,以互聯(lián)網(wǎng)(或者
物聯(lián)網(wǎng))、
云計(jì)算、大數(shù)據(jù)為代表的這場(chǎng)技術(shù)革命正引領(lǐng)人類社會(huì)加速進(jìn)入農(nóng)業(yè)時(shí)代、工業(yè)時(shí)代之后的一個(gè)新的發(fā)展階段 -- 數(shù)據(jù)時(shí)代(DT時(shí)代)。
前兩個(gè)時(shí)代分別以土地、資本為生產(chǎn)要素,而正在我們面前開(kāi)啟的數(shù)據(jù)時(shí)代,正如其名,數(shù)據(jù)將成為最核心的生產(chǎn)要素。
在未來(lái),數(shù)據(jù)將成為商業(yè)競(jìng)爭(zhēng)最重要的資源,誰(shuí)能更好的使用了大數(shù)據(jù),誰(shuí)將領(lǐng)導(dǎo)下一代商業(yè)潮流。所謂無(wú)數(shù)據(jù),不智能;無(wú)智能,不商業(yè)。下一代的商業(yè)模式就是基于數(shù)據(jù)智能的全新模式,雖然才開(kāi)始萌芽,雖然才幾個(gè)有限的案例,但是,其巨大的潛力與力量,已經(jīng)被人們認(rèn)識(shí)到。
在下一代的革命中,不管是工業(yè)4.0(中國(guó)叫中國(guó)制造2025),還是
物聯(lián)網(wǎng)(甚至是一個(gè)全新的協(xié)議與標(biāo)準(zhǔn)),隨著數(shù)據(jù)科學(xué)與云計(jì)算能力(甚至是基于區(qū)塊鏈的分布式計(jì)算技術(shù)),唯獨(dú)數(shù)據(jù)是所有系統(tǒng)的核心。萬(wàn)物互聯(lián),萬(wàn)物數(shù)據(jù)化之后,基于數(shù)據(jù)的個(gè)性化、智能化將是一次全新的革命,將超越100多年前開(kāi)始的自動(dòng)化生產(chǎn)線的工業(yè)3.0,給人類社會(huì)整體的生產(chǎn)力提升帶來(lái)一次根本性地突破,實(shí)現(xiàn)從0到1的巨大變化。
正是在這個(gè)意義上,這是一場(chǎng)商業(yè)模式的范式革命。商業(yè)的未來(lái)、知識(shí)的未來(lái)、文明的未來(lái),它們本質(zhì)上就是人的未來(lái)。而基于數(shù)據(jù)智能的智能商業(yè),就是這未來(lái)的起點(diǎn)。
二,數(shù)據(jù)來(lái)源
大數(shù)據(jù)的第一要?jiǎng)?wù)就是需要有數(shù)據(jù),否則,何來(lái)“數(shù)據(jù)是DT時(shí)代的第一生產(chǎn)要素”。
數(shù)據(jù)來(lái)源于哪里,哪里會(huì)產(chǎn)生數(shù)據(jù)?
數(shù)據(jù)無(wú)處不在,人類自從發(fā)明文字開(kāi)始,就開(kāi)始記錄各種數(shù)據(jù),只是保存的介質(zhì)一般是書本,而且難以分析、加工。隨著計(jì)算機(jī)與存儲(chǔ)技術(shù)的快速發(fā)展,以及萬(wàn)物數(shù)字化的過(guò)程(音頻數(shù)字化,圖形數(shù)字化等),出現(xiàn)了數(shù)據(jù)的爆發(fā),而且數(shù)據(jù)爆發(fā)的趨勢(shì),隨著萬(wàn)物互聯(lián)的
物聯(lián)網(wǎng)技術(shù)的發(fā)展,會(huì)越來(lái)越迅速。同時(shí),對(duì)數(shù)據(jù)的存儲(chǔ)技術(shù),處理技術(shù)的要求也會(huì)越來(lái)越高。
據(jù)IDC出版的數(shù)字世界研究報(bào)告顯示,2013年人類產(chǎn)生、復(fù)制和消費(fèi)的數(shù)據(jù)量達(dá)到4.4ZB。而到2020年,數(shù)據(jù)量將增長(zhǎng)10倍,達(dá)到44ZB。大數(shù)據(jù)已經(jīng)成為當(dāng)下人類最寶貴的財(cái)富,怎樣合理有效的運(yùn)用這些數(shù)據(jù),發(fā)揮這些數(shù)據(jù)應(yīng)有的作用,這是大數(shù)據(jù)將要做到的。
早期的企業(yè)也比較簡(jiǎn)單,關(guān)系型數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù),往往是他們?nèi)康臄?shù)據(jù)來(lái)源,這個(gè)時(shí)候他們對(duì)應(yīng)的大數(shù)據(jù)技術(shù),也就是傳統(tǒng)的OLAP
數(shù)據(jù)倉(cāng)庫(kù)解決方案。因?yàn)殛P(guān)系型數(shù)據(jù)庫(kù)中基本上是他們的所有數(shù)據(jù),往往大數(shù)據(jù)技術(shù)也比較簡(jiǎn)單,直接從關(guān)系型數(shù)據(jù)庫(kù)中獲得統(tǒng)計(jì)數(shù)據(jù),或者最多建一個(gè)統(tǒng)一的OLAP數(shù)據(jù)倉(cāng)庫(kù)中心。
通過(guò)淘寶的歷史來(lái)看,早期的數(shù)倉(cāng)數(shù)據(jù)基本來(lái)源于主業(yè)務(wù)的OLTP數(shù)據(jù)庫(kù),數(shù)據(jù)不外乎用戶信息(通過(guò)注冊(cè)、認(rèn)證獲取),商品信息(通過(guò)賣家上傳獲得),交易數(shù)據(jù)(通過(guò)買賣行為獲得),收藏?cái)?shù)據(jù)(通過(guò)用戶的收藏行為獲得)。從公司的業(yè)務(wù)層面來(lái)看,關(guān)注的也就是這些數(shù)據(jù)的統(tǒng)計(jì),比如總用戶數(shù),活躍用戶數(shù),交易筆數(shù)、金額(可鉆取到類目,省份等),支付寶筆數(shù)、金額等等。因?yàn)檫@個(gè)時(shí)候沒(méi)有營(yíng)銷系統(tǒng),沒(méi)有廣告系統(tǒng),公司也只關(guān)注用戶,商品,交易的相關(guān)數(shù)據(jù),這些數(shù)據(jù)的統(tǒng)計(jì)加工,就是當(dāng)時(shí)淘寶大數(shù)據(jù)的全部。
但是,隨著業(yè)務(wù)的發(fā)展,比如個(gè)性化推薦,廣告投放系統(tǒng)的出現(xiàn),會(huì)需要更多的數(shù)據(jù)來(lái)做支撐,而數(shù)據(jù)庫(kù)的用戶數(shù)據(jù),除了收藏,購(gòu)物車是用戶行為的體現(xiàn),但是,用戶的其它行為,如瀏覽數(shù)據(jù),搜索行為等,這個(gè)時(shí)候是完全不知道的。
這里就需要引進(jìn)另外一個(gè)數(shù)據(jù)來(lái)源,日志數(shù)據(jù),記錄了用戶的行為數(shù)據(jù),可以通過(guò)cookie的技術(shù),只要用戶登錄過(guò)一次,就能跟真實(shí)的用戶取得關(guān)聯(lián)。比如通過(guò)獲取用戶的瀏覽行為,購(gòu)買行為,進(jìn)而可以給用戶推薦他可能感興趣的商品,看了又看,買了又買就是基于這些最基礎(chǔ)的用戶行為數(shù)據(jù)做的推薦算法。這些行為數(shù)據(jù)還可以用來(lái)分析用戶的瀏覽路徑,瀏覽時(shí)長(zhǎng),這些數(shù)據(jù)是用來(lái)改進(jìn)相關(guān)淘寶產(chǎn)品的重要依據(jù)。
2009年,無(wú)線互聯(lián)網(wǎng)飛速發(fā)展,隨著基于native技術(shù)的App大規(guī)模的出現(xiàn),用傳統(tǒng)日志方式獲取無(wú)線用戶行為數(shù)據(jù)已經(jīng)不再可能,這個(gè)時(shí)候也涌現(xiàn)了一批新的無(wú)線數(shù)據(jù)采集分析工具,比如友盟,Talkingdata,淘寶內(nèi)部的無(wú)線數(shù)讀等等,通過(guò)內(nèi)置的SDK,他們可以統(tǒng)計(jì)到native上的用戶行為數(shù)據(jù)。
數(shù)據(jù)是統(tǒng)計(jì)到了,但是,新的問(wèn)題也誕生了,比如我在PC上的用戶行為,怎么對(duì)應(yīng)到無(wú)線上的用戶行為,這個(gè)是脫節(jié)的,因?yàn)镻C是PC上的標(biāo)準(zhǔn),無(wú)線又采用了無(wú)線的標(biāo)準(zhǔn),如果有一個(gè)統(tǒng)一的用戶庫(kù),比如不管是登錄名,郵箱,身份證號(hào)碼,手機(jī)號(hào),imei地址,mac地址等等,來(lái)唯一標(biāo)識(shí)一個(gè)用戶,不管是哪里產(chǎn)生的數(shù)據(jù),只要是第一次關(guān)聯(lián)上來(lái),后來(lái)就能對(duì)應(yīng)上。
這就涉及到了一個(gè)重要的話題 -- 數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)標(biāo)準(zhǔn)不僅僅是解決企業(yè)內(nèi)部數(shù)據(jù)關(guān)聯(lián)的問(wèn)題,比如一個(gè)好的用戶庫(kù),可以解決未來(lái)大數(shù)據(jù)關(guān)聯(lián)上的很多問(wèn)題,假定公安的數(shù)據(jù)想跟醫(yī)院的數(shù)據(jù)進(jìn)行關(guān)聯(lián)打通,發(fā)揮更大的價(jià)值。但是,公安標(biāo)識(shí)用戶的是身份證,而醫(yī)院標(biāo)識(shí)用戶的數(shù)據(jù)則是手機(jī)號(hào)碼,有了統(tǒng)一的用戶庫(kù),就可以通過(guò)idmapping技術(shù)簡(jiǎn)單的把雙方的數(shù)據(jù)進(jìn)行關(guān)聯(lián)。
數(shù)據(jù)的標(biāo)準(zhǔn)不僅僅是企業(yè)內(nèi)部進(jìn)行數(shù)據(jù)關(guān)聯(lián)非常重要,跨組織,跨企業(yè)進(jìn)行數(shù)據(jù)關(guān)聯(lián)也非常重要,而業(yè)界有能力建立類似用戶庫(kù)等數(shù)據(jù)標(biāo)準(zhǔn)的公司并不多,阿里巴巴就是其中之一。
大數(shù)據(jù)發(fā)展到后期,當(dāng)然是數(shù)據(jù)越多越好,企業(yè)內(nèi)部的數(shù)據(jù)已經(jīng)不能滿足公司的需要,比如還是淘寶,想要對(duì)用戶進(jìn)行一個(gè)完整的畫像分析,比如想獲得用戶的實(shí)時(shí)地位位置,愛(ài)好,星座,消費(fèi)水平,開(kāi)什么樣的車等等,用于精準(zhǔn)營(yíng)銷。淘寶自身的數(shù)據(jù)是不夠的,這個(gè)時(shí)候,很多企業(yè)就會(huì)去購(gòu)買一些數(shù)據(jù)(有些企業(yè)也會(huì)自己去爬取一些信息,這個(gè)相對(duì)簡(jiǎn)單一點(diǎn)),比如阿里購(gòu)買高德,友盟,又另外采購(gòu)微博的相關(guān)數(shù)據(jù),用于用戶的標(biāo)簽加工,獲得更精準(zhǔn)的用戶畫像。
但是,數(shù)據(jù)交易并沒(méi)有這么簡(jiǎn)單。因?yàn)閿?shù)據(jù)交易涉及到幾個(gè)非常大的問(wèn)題:
1)是怎么保護(hù)用戶隱私信息
歐盟已經(jīng)出臺(tái)了苛刻的數(shù)據(jù)保護(hù)條例,美國(guó)也對(duì)出售客戶數(shù)據(jù)的運(yùn)營(yíng)商施以重罰,還處在萌芽狀態(tài)的中國(guó)大數(shù)據(jù)行業(yè),怎么確保用戶隱私信息不被泄漏呢?對(duì)于一些非隱私信息,比如地理數(shù)據(jù),氣象數(shù)據(jù),地圖數(shù)據(jù)進(jìn)行開(kāi)放、交易、分析是非常有價(jià)值的,但是一旦涉及到用戶的隱私數(shù)據(jù),特別是單個(gè)人的隱私數(shù)據(jù),就會(huì)涉及到道德與法律的風(fēng)險(xiǎn)。
數(shù)據(jù)交易之前的脫敏或許是一種解決辦法,但是,并不能完全解決這個(gè)問(wèn)題,因此,阿里也提出了另外一種解決思路,基于平臺(tái)擔(dān)保的“可用不可見(jiàn)”技術(shù)。比如阿里云作為交易平臺(tái),跟支付寶一樣是一個(gè)中間擔(dān)保機(jī)構(gòu),雙方的數(shù)據(jù)上傳到阿里云大數(shù)據(jù)交易平臺(tái),雙方可以使用對(duì)方的數(shù)據(jù),以獲得特定的結(jié)果,比如通過(guò)上傳一些算法,模型而獲得結(jié)果,雙方都不能看到對(duì)方的任何詳細(xì)數(shù)據(jù)。
2)是數(shù)據(jù)的所有者問(wèn)題
數(shù)據(jù)作為一種生產(chǎn)資料,跟農(nóng)業(yè)時(shí)期的土地,工業(yè)時(shí)期的資本不一樣,使用之后并不會(huì)消失,如果作為數(shù)據(jù)的購(gòu)買者,這個(gè)數(shù)據(jù)的所有者到底是誰(shuí)?怎么確保數(shù)據(jù)的購(gòu)買者不會(huì)再次售賣這些數(shù)據(jù)?或者購(gòu)買者加工了這些數(shù)據(jù)之后,加工之后的數(shù)據(jù)所有者是誰(shuí)?
3)是數(shù)據(jù)使用的合法性問(wèn)題
大數(shù)據(jù)營(yíng)銷中,目前用得最多的就是精準(zhǔn)營(yíng)銷。數(shù)據(jù)交易中,最值錢的也是個(gè)人數(shù)據(jù)。我們?nèi)粘7治鲋凶龅目蛻舢嬒瘢康木褪墙o海量客戶分群、打標(biāo)簽,然后針對(duì)性地開(kāi)展定向營(yíng)銷和服務(wù)。然而如果利用用戶的個(gè)人信息(比如年齡、性別、職業(yè)等)進(jìn)行營(yíng)銷,必須事先征得用戶的同意,才能向用戶發(fā)送廣告信息呢,還是可以直接使用?
所以,數(shù)據(jù)的交易與關(guān)聯(lián)使用,就必須解決數(shù)據(jù)標(biāo)準(zhǔn),立法以及監(jiān)管的問(wèn)題,在未來(lái)的時(shí)間里,不排除有專門的法律,甚至專業(yè)的監(jiān)管機(jī)構(gòu),如成立數(shù)監(jiān)會(huì)來(lái)監(jiān)管數(shù)據(jù)的交易與使用問(wèn)題。如果真的到了這一天,那也是好事,數(shù)據(jù)要流通起來(lái)才會(huì)發(fā)揮更大的價(jià)值,如果每個(gè)企業(yè)都只有自己的數(shù)據(jù),就算消除了企業(yè)內(nèi)部的信息孤島,還有企業(yè)外部的信息孤島。
如果能合理,合適的使用多方數(shù)據(jù),就會(huì)發(fā)生所謂“羊毛出在豬身上”的事情,比如阿里小貸,使用的是B2B以及淘寶的數(shù)據(jù)。這樣情況下,對(duì)豬(B2B,淘寶來(lái))說(shuō),這是一種商業(yè)場(chǎng)景中的海量數(shù)據(jù)的溢出效應(yīng),而對(duì)羊(螞蟻小貸)來(lái)說(shuō),是在較低的成本下、不同維度的數(shù)據(jù)集合后,發(fā)生化學(xué)反應(yīng)的價(jià)值躍升的過(guò)程,這是大數(shù)據(jù)時(shí)代智能商業(yè)的典型特征。
這才是大數(shù)據(jù)的價(jià)值,正是我們正在迎來(lái)的這個(gè)新時(shí)代以“數(shù)據(jù)”命名的理由。
阿里大數(shù)據(jù)發(fā)展歷程
三,數(shù)據(jù)技術(shù)
大數(shù)據(jù)技術(shù),個(gè)人認(rèn)為可以分成兩個(gè)大的層面,大數(shù)據(jù)平臺(tái)技術(shù)與大數(shù)據(jù)應(yīng)用技術(shù)。
要使用大數(shù)據(jù),你先必須有計(jì)算能力,大數(shù)據(jù)平臺(tái)技術(shù)包括了數(shù)據(jù)的采集,存儲(chǔ),流轉(zhuǎn),加工所需要的底層技術(shù),如hadoop生態(tài)圈,數(shù)加生態(tài)圈。
數(shù)據(jù)的應(yīng)用技術(shù)是指對(duì)數(shù)據(jù)進(jìn)行加工,把數(shù)據(jù)轉(zhuǎn)化成商業(yè)價(jià)值的技術(shù),如算法,以及由算法衍生出來(lái)的模型,引擎,接口,產(chǎn)品等等。這些數(shù)據(jù)加工的底層平臺(tái),包括平臺(tái)層的工具,以及平臺(tái)上運(yùn)行的算法,也可以沉淀到一個(gè)大數(shù)據(jù)的生態(tài)市場(chǎng)中,避免重復(fù)的研發(fā),大大的提高大數(shù)據(jù)的處理效率。
大數(shù)據(jù)首先需要有數(shù)據(jù),數(shù)據(jù)首先要解決采集與存儲(chǔ)的問(wèn)題,數(shù)據(jù)采集與存儲(chǔ)技術(shù),隨著數(shù)據(jù)量的爆發(fā)與大數(shù)據(jù)業(yè)務(wù)的飛速發(fā)展,也是在不停的進(jìn)化過(guò)程中。
在大數(shù)據(jù)的早期,或者很多企業(yè)的發(fā)展初期,是只有關(guān)系型數(shù)據(jù)庫(kù)用來(lái)存儲(chǔ)核心業(yè)務(wù)數(shù)據(jù),就算數(shù)據(jù)倉(cāng)庫(kù),也是集中型OLAP關(guān)系型數(shù)據(jù)庫(kù)。比如很多企業(yè),包括淘寶早期,就用Oracle作為數(shù)據(jù)倉(cāng)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù),當(dāng)時(shí)建立了亞洲最大的Oracle RAC作為數(shù)據(jù)倉(cāng)庫(kù),按當(dāng)時(shí)的規(guī)模來(lái)說(shuō),可以處理10T以下的數(shù)據(jù)規(guī)模 。
一旦出現(xiàn)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù),就會(huì)涉及到ETL,如數(shù)據(jù)的抽取,數(shù)據(jù)清洗,數(shù)據(jù)校驗(yàn),數(shù)據(jù)導(dǎo)入甚至數(shù)據(jù)安全脫敏。如果數(shù)據(jù)來(lái)源僅僅是業(yè)務(wù)數(shù)據(jù)庫(kù),ETL還不會(huì)很復(fù)雜,如果數(shù)據(jù)的來(lái)源是多方的,比如日志數(shù)據(jù),APP數(shù)據(jù),爬蟲數(shù)據(jù),購(gòu)買的數(shù)據(jù),整合的數(shù)據(jù)等等,ETL就會(huì)變得很復(fù)雜,數(shù)據(jù)清洗與校驗(yàn)的任務(wù)就會(huì)變得很重要。
這時(shí)的ETL必須配合數(shù)據(jù)標(biāo)準(zhǔn)來(lái)實(shí)施,如果沒(méi)有數(shù)據(jù)標(biāo)準(zhǔn)的ETL,可能會(huì)導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都是不準(zhǔn)確的,錯(cuò)誤的大數(shù)據(jù)就會(huì)導(dǎo)致上層數(shù)據(jù)應(yīng)用,數(shù)據(jù)產(chǎn)品的結(jié)果都是錯(cuò)誤的。錯(cuò)誤的大數(shù)據(jù)結(jié)論,還不如沒(méi)有大數(shù)據(jù)。由此可見(jiàn),數(shù)據(jù)標(biāo)準(zhǔn)與ETL中的數(shù)據(jù)清洗,數(shù)據(jù)校驗(yàn)是非常的重要。
最后,隨著數(shù)據(jù)的來(lái)源變多,數(shù)據(jù)的使用者變多,整個(gè)大數(shù)據(jù)流轉(zhuǎn)就變成了一個(gè)非常復(fù)雜的網(wǎng)狀拓?fù)浣Y(jié)構(gòu),每個(gè)人都在導(dǎo)入數(shù)據(jù),清洗數(shù)據(jù),同時(shí)每個(gè)人也都在使用數(shù)據(jù),但是,誰(shuí)都不相信對(duì)方導(dǎo)入,清洗的數(shù)據(jù),就會(huì)導(dǎo)致重復(fù)數(shù)據(jù)越來(lái)越多,數(shù)據(jù)任務(wù)也越來(lái)越多,任務(wù)的關(guān)系越來(lái)越復(fù)雜。要解決這樣的問(wèn)題,必須引入數(shù)據(jù)管理,也就是針對(duì)大數(shù)據(jù)的管理。比如元數(shù)據(jù)標(biāo)準(zhǔn),公共數(shù)據(jù)服務(wù)層(可信數(shù)據(jù)層),數(shù)據(jù)使用信息披露等等。
隨著數(shù)據(jù)量的繼續(xù)增長(zhǎng),集中式的關(guān)系型OLAP數(shù)倉(cāng)已經(jīng)不能解決企業(yè)的問(wèn)題,這個(gè)時(shí)候出現(xiàn)了基于MPP的專業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)處理軟件 ,如GreenPlum。greenplum采用了MPP方式處理數(shù)據(jù),可以處理的數(shù)據(jù)更多,更快,但是本質(zhì)上還是數(shù)據(jù)庫(kù)的技術(shù)。Greenplum支持100臺(tái)機(jī)器規(guī)模左右,可以處理PB級(jí)別數(shù)據(jù)量。Greenplum產(chǎn)品是基于流行的PostgreSQL之上開(kāi)發(fā),幾乎所有的PostgreSQL客戶端工具及PostgreSQL應(yīng)用都能運(yùn)行在Greenplum平臺(tái)上,在Internet上有著豐富的PostgreSQL資源供用戶參考。
隨著數(shù)據(jù)量的繼續(xù)增加,比如阿里每天需要處理100PB以上數(shù)據(jù),每天有100萬(wàn)以上的大數(shù)據(jù)任務(wù)。以上的解決方案發(fā)現(xiàn)都沒(méi)有辦法來(lái)解決了,這個(gè)時(shí)候,就出現(xiàn)了一些更大的基于M/R分布式的解決方案,如大數(shù)據(jù)技術(shù)生態(tài)體系中的Hadoop,Spark和Storm。他們是目前最重要的三大分布式計(jì)算系統(tǒng),Hadoop常用于離線的復(fù)雜的大數(shù)據(jù)處理,Spark常用于離線的快速的大數(shù)據(jù)處理,而Storm常用于在線的實(shí)時(shí)的大數(shù)據(jù)處理。以及阿里云推出的數(shù)加,它也包括了大數(shù)據(jù)計(jì)算服務(wù)MaxCompute(前ODPS),關(guān)系型數(shù)據(jù)庫(kù)ADS(類似Impala),以及基于Java的Storm系統(tǒng)JStorm(前Galaxy)。
我們看看大數(shù)據(jù)技術(shù)生態(tài)中的不同解決方案,也對(duì)比看看阿里云數(shù)加的解決方案,最后我也會(huì)單獨(dú)介紹數(shù)加。
1、大數(shù)據(jù)生態(tài)技術(shù)體系
Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。Hadoop作為一個(gè)基礎(chǔ)框架,上面也可以承載很多其它東西,比如Hive,不想用程序語(yǔ)言開(kāi)發(fā)MapReduce的人,熟悉SQL的人可以使用Hive開(kāi)離線的進(jìn)行數(shù)據(jù)處理與分析工作。比如HBase,作為面向列的數(shù)據(jù)庫(kù)運(yùn)行在HDFS之上,HDFS缺乏隨即讀寫操作,HBase正是為此而出現(xiàn),HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)。
Spark也是Apache基金會(huì)的開(kāi)源項(xiàng)目,它由加州大學(xué)伯克利分校的實(shí)驗(yàn)室開(kāi)發(fā),是另外一種重要的分布式計(jì)算系統(tǒng)。Spark與Hadoop最大的不同點(diǎn)在于,Hadoop使用硬盤來(lái)存儲(chǔ)數(shù)據(jù),而Spark使用內(nèi)存來(lái)存儲(chǔ)數(shù)據(jù),因此Spark可以提供超過(guò)Hadoop100倍的運(yùn)算速度。Spark可以通過(guò)YARN(另一種資源協(xié)調(diào)者)在Hadoop集群中運(yùn)行,但是現(xiàn)在的Spark也在往生態(tài)走,希望能夠上下游通吃,一套技術(shù)棧解決大家多種需求。比如Spark Shark,是為了VS hadoop Hive,Spark Streaming是為了VS Storm。
Storm是Twitter主推的分布式計(jì)算系統(tǒng),它由BackType團(tuán)隊(duì)開(kāi)發(fā),是Apache基金會(huì)的孵化項(xiàng)目。它在Hadoop的基礎(chǔ)上提供了實(shí)時(shí)運(yùn)算的特性,可以實(shí)時(shí)的處理大數(shù)據(jù)流。不同于Hadoop和Spark,Storm不進(jìn)行數(shù)據(jù)的收集和存儲(chǔ)工作,它直接通過(guò)網(wǎng)絡(luò)實(shí)時(shí)的接受數(shù)據(jù)并且實(shí)時(shí)的處理數(shù)據(jù),然后直接通過(guò)網(wǎng)絡(luò)實(shí)時(shí)的傳回結(jié)果。Storm擅長(zhǎng)處理實(shí)時(shí)流式。比如日志,比如網(wǎng)站購(gòu)物的點(diǎn)擊流,是源源不斷、按順序的、沒(méi)有終結(jié)的,所以通過(guò)Kafka等消息隊(duì)列來(lái)了數(shù)據(jù)后,Storm就一邊開(kāi)始工作。Storm自己不收集數(shù)據(jù)也不存儲(chǔ)數(shù)據(jù),隨來(lái)隨處理隨輸出結(jié)果。
其上的模塊只是大規(guī)模分布式計(jì)算底層的通用框架,通常也用計(jì)算引擎來(lái)描述他們。
除了計(jì)算引擎,想要做數(shù)據(jù)的加工應(yīng)用,我們還需要一些平臺(tái)工具,如開(kāi)發(fā)IDE,作業(yè)調(diào)度系統(tǒng),數(shù)據(jù)同步工具,BI模塊,數(shù)據(jù)管理,監(jiān)控報(bào)警等等,他們與計(jì)算引擎一起,構(gòu)成大數(shù)據(jù)的基礎(chǔ)平臺(tái)。
在這個(gè)平臺(tái)上,我們就可以基于數(shù)據(jù)做大數(shù)據(jù)的加工應(yīng)用,開(kāi)發(fā)數(shù)據(jù)應(yīng)用產(chǎn)品了。
比如一個(gè)餐廳,為了做中餐,西餐,日料,西班牙菜,它必須食材(數(shù)據(jù)),配合不同的廚具(大數(shù)據(jù)底層計(jì)算引擎),加上不同的佐料(加工工具)才能做出做出不同類型的菜系;但是為了接待大批量的客人,他必須配備更大的廚房空間,更強(qiáng)的廚具,更多的廚師(分布式);做的菜到底好吃不好吃,這又得看廚師的水平(大數(shù)據(jù)加工,應(yīng)用能力)。
2、阿里大數(shù)據(jù)體系
我們先看一下阿里的計(jì)算引擎三件套。
阿里云最早先使用Hadoop解決方案,并且成功的把Hadoop單集群規(guī)模擴(kuò)展到5000臺(tái)規(guī)模。2010年起,阿里云開(kāi)始獨(dú)立研發(fā)了類似Hadoop的分布式計(jì)算平臺(tái)Maxcompute平臺(tái)(前ODPS),目前單集群規(guī)模過(guò)萬(wàn)臺(tái),并支持多集群聯(lián)合計(jì)算,可以在6個(gè)小時(shí)內(nèi)處理完100PB的數(shù)據(jù)量,相當(dāng)于一億部高清電影。
分析型數(shù)據(jù)庫(kù)服務(wù)ADS(AnalyticDB) ,是一套R(shí)T-OLAP(Realtime OLAP,實(shí)時(shí) OLAP)系統(tǒng)。在數(shù)據(jù)存儲(chǔ)模型上,采用自由靈活的關(guān)系模型存儲(chǔ),可以使用 SQL進(jìn)行自由靈活的計(jì)算分析,無(wú)需預(yù)先建模;而利用分布式計(jì)算技術(shù),ADS可以在處理百億條甚至更多量級(jí)的數(shù)據(jù)上達(dá)到甚至超越MOLAP類系統(tǒng)的處理性能,真正實(shí)現(xiàn)百億數(shù)據(jù)毫秒級(jí)計(jì)算。ADS是采用搜索+數(shù)據(jù)庫(kù)技術(shù)的數(shù)據(jù)高度預(yù)分布類MPP架構(gòu),初始成本相對(duì)比較高,但是查詢速度極快,高并發(fā)。而類似的產(chǎn)品Impala,采用Dremel數(shù)據(jù)結(jié)構(gòu)的低預(yù)分布MPP架構(gòu),初始化成本相對(duì)比較低,并發(fā)與響應(yīng)速度也相當(dāng)慢一些。
流計(jì)算產(chǎn)品(前Galaxy),可以針對(duì)大規(guī)模流動(dòng)數(shù)據(jù)在不斷變化運(yùn)動(dòng)過(guò)程中實(shí)時(shí)的進(jìn)行分析 ,是阿里巴巴開(kāi)源的基于Storm采用Java重寫的一套分布式實(shí)時(shí)流計(jì)算框架,也叫JStorm,對(duì)比產(chǎn)品是Storm或者是Spark Streaming。最近阿里云會(huì)開(kāi)始公測(cè)stream sql,通過(guò)sql 的方式來(lái)實(shí)現(xiàn)實(shí)時(shí)的流式計(jì)算,降低了使用流式計(jì)算技術(shù)的使用門檻。
除了計(jì)算引擎部分,整個(gè)阿里大數(shù)據(jù)技術(shù)生態(tài),我在數(shù)加的文章中再詳細(xì)介紹。
未來(lái)的大數(shù)據(jù)底層技術(shù)又將會(huì)怎么發(fā)展呢,個(gè)人覺(jué)得,會(huì)有如下兩個(gè)要點(diǎn)發(fā)展:
1、數(shù)據(jù)處理云端化與生態(tài)化
數(shù)據(jù)未來(lái)一定是互聯(lián)互通才有價(jià)值,目前的私有云大數(shù)據(jù)解決方案是一個(gè)過(guò)渡階段,未來(lái)大數(shù)據(jù)需要的是更大型,更專業(yè)的平臺(tái)。這里才可以實(shí)現(xiàn)整個(gè)大數(shù)據(jù)的生態(tài)體系(后面的文章會(huì)介紹到)。包括了數(shù)據(jù)本身的交易市場(chǎng)(大數(shù)據(jù)交易平臺(tái)),以及加工數(shù)據(jù)的工具,算法(或基于算法的引擎,接口,產(chǎn)品)的交易市場(chǎng),類似目前的App Store。
數(shù)據(jù)生態(tài)是一個(gè)非常大的市場(chǎng)。
2、云端數(shù)倉(cāng)一體化
未來(lái)很多企業(yè)將受益于云端數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)一體化的解決方案中,從現(xiàn)在的技術(shù)看來(lái),大數(shù)據(jù)平臺(tái)越來(lái)越具備實(shí)時(shí)的能力;在線的業(yè)務(wù)數(shù)據(jù)庫(kù)越來(lái)越具備分布式計(jì)算的能力。當(dāng)這些能力整合,統(tǒng)一的時(shí)候,在線/離線的界限又將變得不再清晰,整個(gè)數(shù)據(jù)技術(shù)體系又會(huì)回到當(dāng)初的數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)一體化。
四,數(shù)據(jù)應(yīng)用
講了這么多的大數(shù)據(jù)相關(guān)定義與相關(guān)技術(shù)了,那大數(shù)據(jù)怎么轉(zhuǎn)變?yōu)樯虡I(yè)價(jià)值呢,這又是一個(gè)大的話題。阿里在大數(shù)據(jù)的應(yīng)用上,最早的提出了存、通、用三個(gè)概念,而現(xiàn)在大數(shù)據(jù)應(yīng)用更多是在談數(shù)據(jù)反饋閉環(huán)。根據(jù)數(shù)據(jù)反饋閉環(huán),我們又把數(shù)據(jù)使用分成如下幾個(gè)層面來(lái)描述:
一、數(shù)據(jù)化
所謂存,其實(shí)就是大數(shù)據(jù)的采集與存儲(chǔ),必須先有數(shù)據(jù),其實(shí)前幾篇已經(jīng)介紹過(guò)了。很多時(shí)候,如果我們連數(shù)據(jù)都沒(méi)有,大數(shù)據(jù)只能是空中樓閣。所以,一個(gè)想要做大數(shù)據(jù)的企業(yè),必須先想辦法擁有數(shù)據(jù),或者采集、爬取、購(gòu)買數(shù)據(jù)。
關(guān)于通,前面也講過(guò)了,主要是兩個(gè)層面的問(wèn)題:
其一是指數(shù)據(jù)的互通,比如一個(gè)企業(yè)內(nèi)部存在很多信息孤島,信息孤島之間必須打通,形成統(tǒng)一的大數(shù)據(jù)平臺(tái)。關(guān)于通,最好的辦法其實(shí)就是企業(yè)建立一個(gè)統(tǒng)一的大數(shù)據(jù)平臺(tái),不管這個(gè)大數(shù)據(jù)平臺(tái)是基于私有云(如Hadoop生態(tài)的解決方案),還是基于公共云(如阿里云數(shù)加的解決方案),當(dāng)所有的數(shù)據(jù)上傳到這個(gè)大數(shù)據(jù)平臺(tái),數(shù)據(jù)天然就打通了。
其二是數(shù)據(jù)的標(biāo)準(zhǔn),如果想讓不同的數(shù)據(jù)源可以相互關(guān)聯(lián),形成更大的效應(yīng),就跟我在上文講到的一樣,就得有數(shù)據(jù)標(biāo)準(zhǔn)。如上文所言,數(shù)據(jù)標(biāo)準(zhǔn)不僅僅可以指導(dǎo)ETL過(guò)程中的數(shù)據(jù)清洗,數(shù)據(jù)校驗(yàn),好的數(shù)據(jù)標(biāo)準(zhǔn)還可以使得無(wú)線的數(shù)據(jù)跟PC的數(shù)據(jù)相互關(guān)聯(lián)互通,甚至企業(yè)之間的數(shù)據(jù)關(guān)聯(lián)互通。
這些過(guò)程,我們可以把它叫做數(shù)據(jù)化的過(guò)程,也就是大數(shù)據(jù)的基本要素 -- 數(shù)據(jù)的形成。
二、算法
用,就是大數(shù)據(jù)的加工使用,指采用數(shù)據(jù)科技的相關(guān)技術(shù),對(duì)大數(shù)據(jù)進(jìn)行加工,分析,并最終創(chuàng)造商業(yè)價(jià)值的過(guò)程。這個(gè)過(guò)程中,最核心就是算法。我們提到算法時(shí),往往也會(huì)談到引擎,僅僅提引擎一詞,更多想到的可能是汽車的發(fā)動(dòng)機(jī)。汽車引擎不管多復(fù)雜,其實(shí)輸入輸出是很簡(jiǎn)單的,需要的是汽油+空氣,輸出動(dòng)力(汽油的能量)。大數(shù)據(jù)的引擎可能是一組算法的封裝,數(shù)據(jù)就是輸入的汽油,通過(guò)引擎的轉(zhuǎn)換,輸出數(shù)據(jù)中的能量,提供給更上層的數(shù)據(jù)產(chǎn)品或者服務(wù),從而產(chǎn)生商業(yè)價(jià)值。
算法也是“機(jī)器學(xué)習(xí)”的核心,機(jī)器學(xué)習(xí)又是”人工智能“的核心,是使計(jì)算機(jī)具有智能的根本途徑。在過(guò)去十年,機(jī)器學(xué)習(xí)促成了無(wú)人駕駛車、高效語(yǔ)音識(shí)別、精確網(wǎng)絡(luò)搜索及人類基因組認(rèn)知的大力發(fā)展。
如果你不去利用數(shù)據(jù),世界上的數(shù)據(jù)就不會(huì)有用。算法其實(shí)指的是如何在業(yè)務(wù)過(guò)程中有效拓展人為管理,利用數(shù)據(jù)。
從根本上來(lái)說(shuō),數(shù)據(jù)是不會(huì)說(shuō)話的,只有數(shù)據(jù)沒(méi)有任何價(jià)值。如果擁有大量的數(shù)據(jù),而不知道怎么使用 ,阿里曾經(jīng)做過(guò)一個(gè)比喻,“坐在金山上啃饅頭”。大數(shù)據(jù)真正的價(jià)值在算法,算法決定行動(dòng)。在不遠(yuǎn)的未來(lái),“所有業(yè)務(wù)都將成為算法業(yè)務(wù)”,算法才是真正價(jià)值所在,世界上所有大規(guī)模的東西都將被數(shù)據(jù)和算法所管理。
DT時(shí)代的智能商業(yè)對(duì)算法提出了全新的要求:算法的迭代方向、參數(shù)工程等等,都必須與商業(yè)邏輯、機(jī)制設(shè)計(jì)、甚至是價(jià)值觀取向融合為一。當(dāng)算法迭代優(yōu)化時(shí),決定其方向的不僅是數(shù)據(jù)和機(jī)器本身的特性,更包含了我們對(duì)商業(yè)本質(zhì)的理解、對(duì)人性的洞察和創(chuàng)造未來(lái)商業(yè)新樣貌的理想。 這就是我們稱算法為智能商業(yè)的“引擎”而非“工具”的關(guān)鍵理由,它是智能的核心。 基于數(shù)據(jù)和算法,完成“機(jī)器學(xué)習(xí)”,實(shí)現(xiàn)“人工智能”。
三、數(shù)據(jù)產(chǎn)品(或數(shù)據(jù)應(yīng)用)
把用戶,數(shù)據(jù)和算法巧妙地連接起來(lái)的,是數(shù)據(jù)產(chǎn)品(或數(shù)據(jù)應(yīng)用),這也是互聯(lián)網(wǎng)時(shí)代特別強(qiáng)調(diào)產(chǎn)品重要性的根本原因。因此,智能商業(yè)的成功,最關(guān)鍵的一步往往是一個(gè)極富想象力的創(chuàng)新產(chǎn)品,針對(duì)某個(gè)用戶問(wèn)題,定義了全新的用戶體驗(yàn)方式,同時(shí)啟動(dòng)了數(shù)據(jù)智能的引擎,持續(xù)提升用戶體驗(yàn)。
智能化數(shù)據(jù)產(chǎn)品的要求是非常高的,不僅僅是與最終用戶形成個(gè)性化,智能化的交互,有完好的用戶體驗(yàn)與突破的技術(shù)創(chuàng)新之外,最重要的,同時(shí)需要再次記錄數(shù)據(jù),使得用戶反饋的閉環(huán)得以發(fā)生。
整個(gè)過(guò)程是自動(dòng)的、智能的、可學(xué)習(xí)提升的,它是大數(shù)據(jù)時(shí)代的靈魂,是智能商業(yè)的根基。智能商業(yè)的核心特征就是能主動(dòng)地了解用戶,通過(guò)學(xué)習(xí)不斷提升用戶體驗(yàn)。智能商業(yè)的成功,最關(guān)鍵的一步往往是一個(gè)極富想象力的創(chuàng)新產(chǎn)品,針對(duì)某個(gè)用戶問(wèn)題,定義了全新的用戶體驗(yàn)方式,同時(shí)啟動(dòng)了數(shù)據(jù)智能的引擎,持續(xù)提升用戶體驗(yàn)。智能模塊和學(xué)習(xí)功能將成為應(yīng)用的大腦
比如螞蟻小貸,通過(guò)數(shù)據(jù)和產(chǎn)品的緊密融合,基于算法的數(shù)據(jù)智能實(shí)時(shí)發(fā)揮作用,最終能實(shí)現(xiàn)秒級(jí)放貸,這個(gè)是傳統(tǒng)的金融服務(wù)沒(méi)法想象的。同時(shí),獲貸后的用戶產(chǎn)生的數(shù)據(jù),又被源源不斷的采集起來(lái),作為未來(lái)更多判斷的基礎(chǔ)。
再比如搜索系統(tǒng),用戶的任何一次點(diǎn)擊行為,都被實(shí)時(shí)記錄并反饋到智能化的算法引擎,不僅優(yōu)化了你的搜索結(jié)果,而且優(yōu)化了任何搜索這個(gè)關(guān)鍵詞的人得到的搜索結(jié)果。
這樣的智能商業(yè),才是對(duì)傳統(tǒng)商業(yè)的顛覆,才是真正的“降維”攻擊,勝者一騎絕塵。
四、反饋閉環(huán)
上面已經(jīng)談到自動(dòng)化、智能化、可學(xué)習(xí)提升的反饋閉環(huán),閉環(huán)的形成決定了智能化商業(yè)的形成,但是,閉環(huán)的效率決定了大數(shù)據(jù)的使用效率。所以說(shuō),一個(gè)好的大數(shù)據(jù)產(chǎn)品,不僅僅是有用戶反饋閉環(huán),而且需要一個(gè)高效的用戶反饋閉環(huán)。
用戶行為通過(guò)產(chǎn)品實(shí)時(shí)反饋到數(shù)據(jù)平臺(tái),通過(guò)數(shù)據(jù)智能算法,優(yōu)化結(jié)果又通過(guò)數(shù)據(jù)產(chǎn)品實(shí)時(shí)提升用戶體驗(yàn),在這樣的反饋閉環(huán)中,數(shù)據(jù)既是高速流動(dòng)的介質(zhì),又持續(xù)增值;算法既是推動(dòng)反饋閉環(huán)運(yùn)轉(zhuǎn)的引擎,又持續(xù)優(yōu)化;產(chǎn)品既是反饋閉環(huán)的載體,又持續(xù)改進(jìn)功能,在為用戶提供更贊的產(chǎn)品體驗(yàn)的同時(shí),也促使數(shù)據(jù)反饋更低成本、更高效率地發(fā)生。
五,數(shù)據(jù)生態(tài)
DT時(shí)代將催化出大數(shù)據(jù)生態(tài)。DT時(shí)代的數(shù)據(jù)生態(tài),我從如下兩個(gè)方面來(lái)定義:
一、數(shù)據(jù)交換/交易市場(chǎng)
智能商業(yè)的基石就是數(shù)據(jù),作為智能商業(yè)的第一要?jiǎng)?wù),數(shù)據(jù)是最重要的。
數(shù)據(jù)作為生產(chǎn)資料,大數(shù)據(jù)時(shí)代的血液,好比汽車的汽油,沒(méi)有汽油,再精美高端的汽車也無(wú)法運(yùn)轉(zhuǎn)。而數(shù)據(jù)的來(lái)源往往是多方面的,未來(lái)一個(gè)企業(yè)所用到的數(shù)據(jù)往往不僅僅是自身的數(shù)據(jù),甚至是多個(gè)渠道交換、整合、購(gòu)買過(guò)來(lái)的數(shù)據(jù)。對(duì)于“羊毛出在豬身上”的大數(shù)據(jù)商業(yè)形態(tài),數(shù)據(jù)一定是流動(dòng)的,數(shù)據(jù)只有整合關(guān)聯(lián),才能發(fā)揮更大的價(jià)值。
但是數(shù)據(jù)要實(shí)現(xiàn)交換,交易,正如我上文所言,我們最終所必須解決的是法律法規(guī),數(shù)據(jù)標(biāo)準(zhǔn)等一系列問(wèn)題。
二、算法經(jīng)濟(jì)/生態(tài)
Gartner分析認(rèn)為,算法將形成一個(gè)全球性的交易市場(chǎng),就像當(dāng)年的App,催生出全新一代的專業(yè)技術(shù)初創(chuàng)企業(yè),并且革新機(jī)器與機(jī)器之間的交互方式。
同時(shí),更多的數(shù)據(jù)將生成更好的模型和用戶體驗(yàn),進(jìn)而吸引更多的用戶以及更多的數(shù)據(jù),而這將導(dǎo)致儲(chǔ)存和計(jì)算數(shù)據(jù)的成本持續(xù)降低。
Gartner曾發(fā)表報(bào)告,對(duì)算法經(jīng)濟(jì)可能帶來(lái)的市場(chǎng)影響做出評(píng)估。
Gartner認(rèn)為,無(wú)可避免地,算法經(jīng)濟(jì)將創(chuàng)造一個(gè)全新的市場(chǎng)。人們可以對(duì)各種算法進(jìn)行買賣,為當(dāng)下的公司匯聚大量的額外收入,并催生出全新一代的專業(yè)技術(shù)初創(chuàng)企業(yè)。
想象這樣一個(gè)市場(chǎng):數(shù)十億的算法都是可以買賣的,每一個(gè)算法代表的是一種軟件代碼,能解決一個(gè)或多個(gè)技術(shù)難題,或者從物聯(lián)網(wǎng)的指數(shù)級(jí)增長(zhǎng)中創(chuàng)造一個(gè)新的機(jī)會(huì)。
算法是創(chuàng)造智能應(yīng)用的基石,是大數(shù)據(jù)的核心價(jià)值。
也就是說(shuō),多個(gè)機(jī)器學(xué)習(xí)算法可以結(jié)合起來(lái)成為更強(qiáng)大的算法,從而更好地分析數(shù)據(jù),充分挖掘數(shù)據(jù)里的價(jià)值。
在算法經(jīng)濟(jì)中,前沿的技術(shù)項(xiàng)目,無(wú)論是先進(jìn)的智能助理,還是能夠自動(dòng)計(jì)算庫(kù)存的無(wú)人機(jī),最終都將落實(shí)成為實(shí)實(shí)在在的代碼,供人們交易和使用。
廣義的算法存在于大數(shù)據(jù)的整個(gè)閉環(huán)之中,從大數(shù)據(jù)平臺(tái)、ETL(數(shù)據(jù)采集,數(shù)據(jù)清洗,數(shù)據(jù)脫敏等)、數(shù)據(jù)加工、數(shù)據(jù)產(chǎn)品等的每一個(gè)層面都會(huì)有算法支持。算法可以直接交易,也可以包裝成產(chǎn)品、工具、服務(wù),甚至平臺(tái)來(lái)交易,最終形成大數(shù)據(jù)生態(tài)中的一個(gè)重要組成部分。
甚至有人認(rèn)為好的算法能夠擺脫很多公司對(duì)大數(shù)據(jù)的過(guò)度依賴。盡管數(shù)據(jù)在DT時(shí)代可能是最昂貴的生產(chǎn)資料,但若算法足夠強(qiáng)大,大數(shù)據(jù)并非必須。如遷移學(xué)習(xí)能讓計(jì)算機(jī)擺脫對(duì)大數(shù)據(jù)的嚴(yán)重依賴,從而讓人工智能不再只是“富人的游戲”。
正如App經(jīng)濟(jì)變革了人類與機(jī)器的交互方式一樣,我們將會(huì)看到,算法經(jīng)濟(jì)將會(huì)促進(jìn)下一代機(jī)器對(duì)機(jī)器互動(dòng)演進(jìn)的巨大飛躍。
人們將會(huì)通過(guò)產(chǎn)品使用的算法來(lái)評(píng)價(jià)它的性能好壞。企業(yè)的競(jìng)爭(zhēng)力也不僅僅在于大數(shù)據(jù),還要有能夠把數(shù)據(jù)轉(zhuǎn)換為實(shí)際應(yīng)用的算法。因此,CEO應(yīng)該關(guān)注公司有產(chǎn)權(quán)的算法,而不僅僅是大數(shù)據(jù)。
正在涌現(xiàn)的機(jī)器智能平臺(tái)可憑借“模型作為服務(wù)”的方式,托管預(yù)訓(xùn)練過(guò)的機(jī)器學(xué)習(xí)模型,從而令企業(yè)能夠更容易地開(kāi)啟機(jī)器學(xué)習(xí),快速將其應(yīng)用從原型轉(zhuǎn)化成產(chǎn)品。當(dāng)企業(yè)們采用了微服務(wù)(microservice)發(fā)展范式后,接入并使用不同的機(jī)器學(xué)習(xí)模型和服務(wù)以提供特定功能的能力將變得越來(lái)越有價(jià)值。
所有的這一切,最終也離不開(kāi)云計(jì)算,數(shù)據(jù)平臺(tái)天然就是基于云計(jì)算來(lái)實(shí)現(xiàn)。而數(shù)據(jù)交換,算法交易則需要一個(gè)商店,云端就是目前最好的商店。不管是數(shù)據(jù)的互通,還是基于云端預(yù)訓(xùn)練、托管的機(jī)器學(xué)習(xí)模型,將促使每個(gè)公司的數(shù)據(jù)產(chǎn)品都能大規(guī)模地利用算法智能。
六,數(shù)加平臺(tái)
2016年1月20日,阿里云在2016云棲大會(huì)上海峰會(huì)上宣布開(kāi)放阿里巴巴十年的大數(shù)據(jù)能力,發(fā)布全球首個(gè)一站式大數(shù)據(jù)平臺(tái)“數(shù)加”。
這一平臺(tái)承載了阿里云“普惠大數(shù)據(jù)”的理想,即讓全球任何一個(gè)企業(yè)、個(gè)人都能用上大數(shù)據(jù)。數(shù)加平臺(tái)首批集中發(fā)布了20款產(chǎn)品,覆蓋數(shù)據(jù)采集、計(jì)算引擎、數(shù)據(jù)加工、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)應(yīng)用等數(shù)據(jù)生產(chǎn)全鏈條。
“這是一個(gè)人人都在談大數(shù)據(jù)的時(shí)代,但只有極少數(shù)人在用大數(shù)據(jù)。” 阿里云大數(shù)據(jù)事業(yè)部資深總監(jiān)徐常亮特別強(qiáng)調(diào)“這些技術(shù)至少領(lǐng)先業(yè)界三年”,在輸出自身大數(shù)據(jù)能力的同時(shí),“數(shù)加”還向有數(shù)據(jù)開(kāi)發(fā)能力的團(tuán)隊(duì)開(kāi)放。這些團(tuán)隊(duì)可入駐“數(shù)加”,借助數(shù)加上的工具為各行業(yè)提供數(shù)據(jù)服務(wù)。“就像在淘寶開(kāi)店一樣,只是他們售賣的是專業(yè)能力。”
那數(shù)加到底是什么呢?我們從如下幾個(gè)方面來(lái)分析一下:
一、數(shù)加的來(lái)世今生
我覺(jué)得阿里對(duì)數(shù)據(jù)的重視非常早,而且也是非常愿意投入的。
早在阿里云成立之前,應(yīng)該是06、07年左右,七公就組建了一只數(shù)據(jù)平臺(tái)部的團(tuán)隊(duì),它就是數(shù)據(jù)事業(yè)部(CDO)的前身。在云端、數(shù)據(jù)魔方、淘寶時(shí)光機(jī)、淘寶指數(shù)、TCIF、阿里媽媽DMP、全景洞察等都是出自這個(gè)團(tuán)隊(duì)之手 ,這個(gè)團(tuán)隊(duì)專業(yè)解決淘寶早期數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、以及數(shù)據(jù)分析相關(guān)的專業(yè)問(wèn)題。
09年的時(shí)候,王堅(jiān)來(lái)到阿里,講了云計(jì)算、大數(shù)據(jù)未來(lái)的愿景,可是當(dāng)時(shí)沒(méi)有幾個(gè)人能聽(tīng)懂,但是,我覺(jué)得馬總還是很厲害的,他信了。然后,阿里提出了云計(jì)算、大數(shù)據(jù)相關(guān)戰(zhàn)略,阿里云也就在那時(shí)成立了。
數(shù)據(jù)平臺(tái)事業(yè)部最早使用的并不是現(xiàn)在在用的MaxCompute(原ODPS),而是Hadoop,原h(huán)adoop集群令名為云梯1,當(dāng)時(shí)阿里也在研發(fā)自己的計(jì)算平臺(tái),就是原ODPS,并令名為云梯2。
云梯2在開(kāi)始的時(shí)候,并不是很好用,不過(guò),拿到了內(nèi)部一個(gè)很大的客戶,就是阿里金融的螞蟻小貸。基本上也可以這么說(shuō),沒(méi)有螞蟻小貸的磨合,基本很難有現(xiàn)在的MaxCompute。
云梯1、云梯2在內(nèi)部爭(zhēng)吵了很長(zhǎng)一段時(shí)間,后來(lái),出于各方的考慮,公司決定,啟動(dòng)登月項(xiàng)目,從云梯1全部遷移到云梯2。
不管是云梯1,還是云梯2,其實(shí),都只是整個(gè)大數(shù)據(jù)技術(shù)生態(tài)系統(tǒng)中很小的一塊,也就是計(jì)算引擎那一塊,正如我上面所講的,一個(gè)屬于hadoop生態(tài)系統(tǒng),一個(gè)屬于阿里云自建的數(shù)加生態(tài)系統(tǒng)。
云梯1當(dāng)時(shí)在內(nèi)部使用也很廣泛,所有內(nèi)部的數(shù)據(jù)加工,數(shù)據(jù)應(yīng)用基本上都是基于云梯1的,而且,云梯1通過(guò)5K項(xiàng)目,成功使單集群的規(guī)模擴(kuò)展到了5000臺(tái)。而云梯2的生態(tài)是后來(lái)慢慢建立起來(lái)的,包括底層計(jì)算平臺(tái),開(kāi)發(fā)工具/組件,基于各自算法的計(jì)算引擎/服務(wù),以及最上層的各種數(shù)據(jù)應(yīng)用/產(chǎn)品,是在云梯1遷移到云梯2的過(guò)程中,這些工具,引擎,應(yīng)用才慢慢完善,統(tǒng)一。
當(dāng)然,現(xiàn)在阿里云的整個(gè)系統(tǒng),包括內(nèi)部系統(tǒng),都是應(yīng)用在數(shù)加的技術(shù)之上,這個(gè)也是阿里歷來(lái)的習(xí)慣,把內(nèi)部使用、驗(yàn)證過(guò)的東西,提供給社會(huì)使用。這樣的好處在于與單純做產(chǎn)品的大數(shù)據(jù)公司相比,勝在有場(chǎng)景,有需求,成熟度更高。
二、數(shù)加平臺(tái)生態(tài)的組成
數(shù)加平臺(tái)生態(tài)
個(gè)人覺(jué)得,可以用如下幾個(gè)層面來(lái)描述整個(gè)數(shù)加生態(tài)體系:
1、數(shù)加底層技術(shù)平臺(tái)
主要包括:
Maxcompute(原名ODPS)是“數(shù)加”底層的計(jì)算引擎。有兩個(gè)維度可以看這個(gè)計(jì)算引擎的性能,1)6小時(shí)處理100PB數(shù)據(jù),相當(dāng)于1億部高清電影。2)單集群規(guī)模過(guò)萬(wàn)臺(tái),并支持多集群聯(lián)合計(jì)算。
Analytic DB是實(shí)時(shí)多維分析引擎,可以實(shí)現(xiàn)百億量級(jí)多維查詢只需100毫秒。阿里巴巴內(nèi)部很多面向海量互聯(lián)網(wǎng)用戶的產(chǎn)品的在線大數(shù)據(jù)查詢,很大程度上依賴于Analytic DB。
流計(jì)算(StreamCompute)具有低延時(shí)、高性能的特點(diǎn)。每秒查詢率可以達(dá)到千萬(wàn)級(jí),日均處理萬(wàn)億條消息、PB量級(jí)的數(shù)據(jù)。
計(jì)算引擎之上,“數(shù)加”提供了最豐富的云端數(shù)據(jù)開(kāi)發(fā)套件,開(kāi)發(fā)者可一站式完成數(shù)據(jù)加工。這些產(chǎn)品包含:數(shù)據(jù)集成、數(shù)據(jù)開(kāi)發(fā)、調(diào)度系統(tǒng)、數(shù)據(jù)管理、運(yùn)維視屏、數(shù)據(jù)質(zhì)量、任務(wù)監(jiān)控。
整體來(lái)看,大數(shù)據(jù)開(kāi)發(fā)套件的優(yōu)勢(shì)包括:支持100人以上協(xié)同設(shè)計(jì)、開(kāi)發(fā)、運(yùn)維;具有良好的擴(kuò)展性;提供各個(gè)產(chǎn)品功能模塊的Open API,可二次開(kāi)發(fā);多個(gè)數(shù)據(jù)實(shí)例之間的數(shù)據(jù)授權(quán)機(jī)制,確保數(shù)據(jù)只能使用卻不可見(jiàn);提供白屏化的運(yùn)維能力,以及字段級(jí)數(shù)據(jù)質(zhì)量監(jiān)控、機(jī)器預(yù)警、資源使用率監(jiān)控等功能,讓用戶更好的掌控自己的數(shù)據(jù)及數(shù)據(jù)任務(wù)。
計(jì)算引擎與大數(shù)據(jù)開(kāi)發(fā)套件相互依賴,組成了數(shù)加的底層技術(shù)平臺(tái),對(duì)應(yīng)到我上文提到的Hadoop技術(shù)平臺(tái)。
阿里云的主要目標(biāo)應(yīng)該是做好這個(gè)技術(shù)平臺(tái),并將平臺(tái)的能力更多更快更好地開(kāi)放出來(lái),這一層才是阿里云大數(shù)據(jù)的核心競(jìng)爭(zhēng)力。
2、數(shù)加應(yīng)用平臺(tái)生態(tài)體系
基于上面的技術(shù)平臺(tái),阿里在數(shù)加上還開(kāi)放了規(guī)則引擎、推薦引擎、文字識(shí)別、智能語(yǔ)音交互、DataV可視化等數(shù)據(jù)引擎、服務(wù)、產(chǎn)品。這些產(chǎn)品很多都是從阿里自身的業(yè)務(wù)中提煉出來(lái)的,可以直接提供給企業(yè)使用,并組合成各種不同的解決方案。
比如:
“數(shù)加”發(fā)布的機(jī)器學(xué)習(xí),可基于海量數(shù)據(jù)實(shí)現(xiàn)對(duì)用戶行為、行業(yè)走勢(shì)、天氣、交通等的預(yù)測(cè)。圖形化編程讓用戶無(wú)需編碼、只需用鼠標(biāo)拖拽標(biāo)準(zhǔn)化組件即可完成開(kāi)發(fā)。產(chǎn)品還集成了阿里巴巴核心算法庫(kù),包括特征工程、大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等。
規(guī)則引擎是一款用于解決業(yè)務(wù)規(guī)則頻繁變化的在線服務(wù),可通過(guò)簡(jiǎn)單組合預(yù)定義的條件因子編寫業(yè)務(wù)規(guī)則,并做出業(yè)務(wù)決策。比如,銀行會(huì)設(shè)置如果10分鐘內(nèi)用戶在兩個(gè)省份交易,則需要電話確認(rèn)。
推薦引擎是一款用于實(shí)時(shí)預(yù)測(cè)用戶對(duì)物品偏好的數(shù)據(jù)工具,它能夠幫助客戶發(fā)現(xiàn)眾多物品中用戶最感興趣什么。
文字識(shí)別提供自然場(chǎng)景下拍攝的圖片中英文文字檢測(cè)、識(shí)別以及常見(jiàn)的證件類檢測(cè)和識(shí)別。
智能語(yǔ)音交互基于語(yǔ)音和自然語(yǔ)言技術(shù)構(gòu)建的在線服務(wù),為智能手機(jī)、智能電視以及物聯(lián)網(wǎng)等產(chǎn)品提供“能聽(tīng)、會(huì)說(shuō)、懂你”式的智能人機(jī)交互體驗(yàn)。
數(shù)加最終的目的,不是阿里云自己來(lái)研發(fā)所有這些數(shù)據(jù)服務(wù),重點(diǎn)是“數(shù)加”大數(shù)據(jù)平臺(tái)也將向有數(shù)據(jù)開(kāi)發(fā)能力的團(tuán)隊(duì)開(kāi)放。這些團(tuán)隊(duì)可入駐“數(shù)加”,借助數(shù)加上的工具為各行各業(yè)提供數(shù)據(jù)服務(wù)。阿里云計(jì)劃用3年時(shí)間吸引1000家合作伙伴入駐,共同分享1萬(wàn)億的大數(shù)據(jù)蛋糕。
基于底層的技術(shù)平臺(tái),上層開(kāi)放則可以形成豐富的生態(tài) 。通過(guò)開(kāi)放式的平臺(tái),凝聚行業(yè)的力量,為更多的企業(yè)和個(gè)人提供大數(shù)據(jù)服務(wù),這就是普惠的時(shí)代。大到行業(yè)的數(shù)據(jù)分析,預(yù)測(cè)行業(yè)發(fā)展方向;小到我們每一個(gè)個(gè)體,都可以享受大數(shù)據(jù)的服務(wù),方便個(gè)人生活。
3、數(shù)加交易生態(tài)體系
基于技術(shù)平臺(tái)與應(yīng)用平臺(tái),個(gè)人覺(jué)得,未來(lái)可以在數(shù)加上構(gòu)建一個(gè)大數(shù)據(jù)的交易市場(chǎng),可以包括:
應(yīng)用交易:上文中,我重點(diǎn)描述了數(shù)據(jù)生態(tài)以及算法經(jīng)濟(jì),算法作為大數(shù)據(jù)時(shí)代的另外一個(gè)重要要素,未來(lái)也是可交易的。基于算法的各種引擎,服務(wù),應(yīng)用等,既然可以基于數(shù)加來(lái)開(kāi)發(fā),就可以不僅僅是自己用,甚至作為一個(gè)公共的服務(wù)或者產(chǎn)品來(lái)出售。
數(shù)據(jù)交易:數(shù)據(jù)是大數(shù)據(jù)時(shí)代的重要基本要素之一,也是大數(shù)據(jù)時(shí)代的基礎(chǔ)生產(chǎn)資料,大數(shù)據(jù)時(shí)代的血液。作為如此重要的生產(chǎn)資料,必須流通才能發(fā)揮大數(shù)據(jù)最大的價(jià)值。數(shù)加通過(guò)多租戶,可用不可見(jiàn),擔(dān)保交易等設(shè)計(jì),未來(lái)可以解決數(shù)據(jù)交易上的各種問(wèn)題。
當(dāng)然,如果要實(shí)現(xiàn)大數(shù)據(jù)的交易,必須先解決數(shù)據(jù)的隱私、安全、法律法規(guī)、監(jiān)管等問(wèn)題。在這些問(wèn)題沒(méi)解決之前,仍有很長(zhǎng)的路需要嘗試。
三、為什么選擇數(shù)加
小企業(yè)不僅自身缺乏數(shù)據(jù),自建大數(shù)據(jù)平臺(tái)更是折騰不起,往往周期很長(zhǎng),成本非常之高。很多自建的大數(shù)據(jù)平臺(tái)又因?yàn)闆](méi)有經(jīng)過(guò)各種實(shí)戰(zhàn)的檢驗(yàn),沒(méi)有相應(yīng)開(kāi)發(fā)工具或者工具偏少而出現(xiàn)各種問(wèn)題。
不過(guò)數(shù)加的出現(xiàn)將有望改善這一現(xiàn)狀。
根據(jù)阿里云披露的測(cè)算數(shù)據(jù):自建Hadoop集群的成本是數(shù)加的3倍多,國(guó)外計(jì)算廠商AWS的EMR成本更是數(shù)加的5倍。
從運(yùn)算效率來(lái)看,去年10月28日,Sort Benchmark在官方網(wǎng)站公布了2015年排序競(jìng)賽的最終成績(jī)。其中阿里云用377秒完成了100TB的數(shù)據(jù)排序,打破了此前Apache Spark創(chuàng)造的23.4分鐘紀(jì)錄。
在含金量最高的GraySort和MinuteSort兩個(gè)評(píng)測(cè)系統(tǒng)中,阿里云分別在通用和專用目的排序類別中創(chuàng)造了4 項(xiàng)世界紀(jì)錄。
數(shù)加承載了阿里巴巴EB級(jí)別的數(shù)據(jù)加工計(jì)算,經(jīng)歷了上萬(wàn)名工程師的實(shí)戰(zhàn)檢驗(yàn)。
借助大數(shù)據(jù)技術(shù),阿里巴巴取得了巨大的商業(yè)成功。通過(guò)對(duì)
電子商務(wù)平臺(tái)上的客戶行為進(jìn)行分析,誕生了螞蟻小貸、花唄、借唄;菜鳥網(wǎng)絡(luò)通過(guò)電子面單、物流云、菜鳥天地等數(shù)據(jù)產(chǎn)品,為快遞行業(yè)的升級(jí)提供技術(shù)方法。
可以看到,通過(guò)數(shù)加,企業(yè)能獲得的不僅僅是可以更方便、更便宜地使用各種開(kāi)發(fā)工具。其實(shí),比開(kāi)發(fā)工具更重要的是未來(lái)大數(shù)據(jù)的生態(tài),在數(shù)加上面,他們可以很方便地獲取各種自己想要的數(shù)據(jù)與服務(wù)。
“數(shù)加”的發(fā)布顯然降低了大數(shù)據(jù)的應(yīng)用門檻。通過(guò) “數(shù)加”,任何一個(gè)企業(yè)、個(gè)人都能極為方便地進(jìn)行大數(shù)據(jù)的開(kāi)發(fā)和應(yīng)用,最起碼,從速度、成本、開(kāi)發(fā)效率上,有很大提升。
四、數(shù)加需要面對(duì)的問(wèn)題
1、基于公共云數(shù)加的安全問(wèn)題
有人擔(dān)心阿里是否會(huì)偷看或利用這些數(shù)據(jù),其實(shí)就是不相信阿里云。當(dāng)然阿里云官方的回答是斬釘截鐵的:不會(huì)!
阿里云大數(shù)據(jù)事業(yè)部資深總監(jiān)徐常亮強(qiáng)調(diào),數(shù)據(jù)是客戶的寶貴資產(chǎn),任何云計(jì)算平臺(tái)都不能移作他用。阿里云將嚴(yán)格遵守去年7月份發(fā)起的《數(shù)據(jù)保護(hù)倡議書》,也希望全行業(yè)能夠自律,共同迎接大數(shù)據(jù)產(chǎn)業(yè)的爆發(fā)。
2、基于專有云數(shù)加的規(guī)模問(wèn)題
如果企業(yè)實(shí)在擔(dān)心數(shù)據(jù)的安全問(wèn)題,想要建立自己的專有云解決方案,那么目前,基于數(shù)加的解決方案尚且過(guò)于復(fù)雜,沒(méi)有大量預(yù)算,基本上沒(méi)有辦法實(shí)現(xiàn)專有云的解決方案,所以,對(duì)中小企業(yè)來(lái)說(shuō),采用基于專用云數(shù)加的解決方案是不現(xiàn)實(shí)的。
就我個(gè)人的看法來(lái)說(shuō),未來(lái)的趨勢(shì),一定是公共云解決方案。

關(guān)鍵詞標(biāo)簽:
從數(shù)據(jù)來(lái)源、數(shù)據(jù)生態(tài)、數(shù)據(jù)技術(shù)、數(shù)加平臺(tái)等方面,漫談阿里大數(shù)據(jù),數(shù)據(jù)生態(tài) 數(shù)據(jù)技術(shù) 數(shù)加平臺(tái),ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財(cái)務(wù)軟件,倉(cāng)庫(kù)管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉(cāng)庫(kù)管理軟件,免費(fèi)下載,
本文轉(zhuǎn)自:e-works制造業(yè)信息化門戶網(wǎng)
本文來(lái)源于互聯(lián)網(wǎng),拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載,為網(wǎng)友免費(fèi)提供,并盡力標(biāo)明作者與出處,如有著作權(quán)人或出版方提出異議,本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問(wèn)請(qǐng)告之我們,以便我們及時(shí)糾正。聯(lián)系方式:QQ:10877846 Tel:0755-26405298。(請(qǐng)勿發(fā)郵件,由于垃圾郵件眾多,有可能會(huì)被當(dāng)作垃圾郵件處理掉,同時(shí)現(xiàn)在很用郵件處理事務(wù)了,郵件處理時(shí)效期為3天,如急件請(qǐng)直接QQ聯(lián)系。)