| 當前位置：拓步ERP資訊網 >>服務支持 >>ERP技術支持 >>技術支持知識庫

Hadoop的生命周期有多久？

發布日期：2015-01-25 11:52:27 來源：m.vmgcyvh.cn 編輯：拓步ERP資訊網瀏覽：評論

摘要：Hadoop技術已經無處不在。不管是好是壞，Hadoop已經成為大數據的代名詞。短短幾年間，Hadoop從一種邊緣技術成為事實上的標準�？磥�，不僅現在Hadoop是企業大數據的標準，而且在未來，它的地位似乎一時難以動搖。 原標題：Hadoop的生命周期有多久？ 原作者：發表時間：2015/1/23 36大數據來源：e-works

　　Hadoop技術已經無處不在。不管是好是壞，Hadoop已經成為大數據的代名詞。短短幾年間，Hadoop從一種邊緣技術成為事實上的標準�？磥恚粌H現在Hadoop是企業大數據的標準，而且在未來，它的地位似乎一時難以動搖。

　　谷歌文件系統與MapReduce

　　我們先來探討一下Hadoop的靈魂——MapReduce。面對數據的爆炸性增長，谷歌的工程師Jeff Dean和Sanjay Ghemawat架構并發布了兩個開創性的系統：谷歌文件系統（GFS）和谷歌MapReduce（GMR）。前者是一個出色而實用的解決方案-使用常規的硬件擴展并管理數據，后者同樣輝煌，造就了一個適用于大規模并行處理的計算框架。

　　谷歌MapReduce（GMR）為普通開發者/用戶進行大數據處理提供了簡易的方式，并使之快速、具備容錯性。谷歌文件系統（GFS）和谷歌MapReduce（GMR）也為谷歌搜索引擎對網頁進行抓取、分析提供了核心動力。

　　再回頭看看開源世界中的Hadoop，Apache Hadoop的分布式文件系統（HDFS）和Hadoop MapReduce完全是谷歌文件系統（GFS）和谷歌MapReduce（GMR）的開源實現。Hadoop項目已經發展成為一個生態系統，并觸及了大數據領域的方方面面。但從根本上，它的核心是MapReduce。

　　Hadoop是否可以趕超谷歌？

　　一個有趣的現象是，MapReduce在谷歌已不再顯赫。當企業矚目MapReduce的時候，谷歌好像早已進入到了下一個時代。事實上，我們談論的這些技術早就不是新技術了，MapReduce也不例外。

　　我希望在后Hadoop時代下面這些技術能夠更具競爭性。盡管許多Apache社區的項目和商業化Hadoop項目都非�；钴S，并以來自HBase、Hive和下一代MapReduce（YARN）的技術不斷完善著Hadoop體系，我依然認為，Hadoop核心（HDFS和Zookeeper）需要脫離MapReduce并以全新的架構增強自己的競爭力，真正與谷歌技術一較高下。

　　過濾不斷增長的索引，分析不斷變化的數據集。 Hadoop的偉大之處在于，它一旦開始運行，就會飛速地分析你的數據。盡管如此，在每次分析數據之前，即添加、更改或刪除數據之后，我們都必須將整個數據集進行流式處理。這意味著，隨著數據集的膨脹，分析時間也會隨之增加，且不可預期。

　　那么，谷歌又是怎么做到搜索結果越來越實時呈現呢？一個名為Percolator的增量處理引擎取代了谷歌MapReduce（GMR）。通過對新建、更改和已刪除文檔的處理，并使用二級索引進行高效的分類、查詢，谷歌能夠顯著地降低實現其目標的時間。

　　Percolator的作者寫道：“將索引系統轉化為一個增量系統……文檔平均處理延遲的因子降低到了現在的100。”這句話的意思是，索引Web上新內容的速度比之前MapReduce系統快了100倍。

　　谷歌Dremel即時數據分析解決方案

　　谷歌和Hadoop社區曾致力于構建基于MapReduce的易用性即時數據分析工具，如谷歌的并行處理語言Sawzall，Apache Pig和Hive。但對熟知SQL的人們而言，他們忽略了一個基本事實-構建MapReduce的目標就在于管理數據處理工作。它的核心能力在于工作流管理，而不是即時數據分析。

　　與之形成鮮明對比的是，很多BI或數據分析查詢基本上都要求即時、交互和低延遲。這意味著，使用Hadoop不僅需要規劃流程圖，而且需要為許多查詢分析裁減不必要的工作流。即便如此，我們也要花費數分鐘等待工作開始，然后花費數小時等待工作流完成，并且這個過程也非常不利于交互式體驗。因此，谷歌研發了Dremel予以應對。Dremel是Google 的“交互式”數據分析系統，可以在幾秒鐘內處理PB級別的數據，并能輕松應對即時查詢。

　　Google Dremel的設計特點：

　　Dremel是一個可擴展的大型系統。在一個PB級別的數據集上面，將任務縮短到秒級，無疑需要大量的并發。磁盤的順序讀速度在100MB/S上下，那么在1S內處理1TB數據，意味著至少需要有1萬個磁盤的并發讀! Google一向是用廉價機器辦大事的好手。但是機器越多，出問題概率越大，如此大的集群規模，需要有足夠的容錯考慮，保證整個分析的速度不被集群中的個別節點影響。

　　Dremel是MapReduce的補充。和MapReduce一樣，Dremel也需要GFS這樣的文件系統作為存儲層。在設計之初，Dremel并非是MapReduce的替代品，它只是可以執行非常快的分析，在使用的時候，常常用它來處理MapReduce的結果集或者用來建立分析原型。

　　Dremel的數據模型是嵌套的。互聯網數據常常是非關系型的。Dremel還需要有一個靈活的數據模型，這個數據模型至關重要。Dremel支持一個嵌套的數據模型，類似于JSON。而傳統的關系模型，由于不可避免的有大量的JOIN操作，在處理如此大規模的數據的時候，往往是有心無力的。

　　Dremel中的數據是采用列式存儲的。使用列式存儲，分析的時候，可以只掃描需要的那部分數據的時候，減少CPU和磁盤的訪問量。同時列式存儲是壓縮友好的，使用壓縮，可以綜合CPU和磁盤，發揮最大的效能。

　　Dremel結合了Web搜索和并行DBMS的技術。 Dremel借鑒了Web搜索中的“查詢樹”的概念，將一個相對巨大復雜的查詢，分割成較小較簡單的查詢。大事化小，小事化了，能并發的在大量節點上跑。另外，和并行DBMS類似，Dremel可以提供了一個SQL-like的接口，就像Hive和Pig那樣。

　　谷歌的圖數據計算框架Pregel

　　谷歌MapReduce是專門為抓取、分析世界上最龐大的圖形架構-internet而設計的，但針對大規模圖算法（如圖遍歷（BFS）、PageRank，最短路徑（SSSP）等）的計算則顯得效率低下。因此，谷歌構建了Pregel。

　　Hadoop,大數據,谷歌

　　Pregel給人的印象非常深刻。Pregel不僅能高效執行SSSP或PageRank算法，更令人驚訝的是，公布的數據顯示Pregel處理一個有著幾十億節點、上萬億條邊的圖，只需數分鐘即可完成，其執行時間隨著圖的大小呈線性增長。

　　Pregel基于BSP模型，就是“計算”-“通信”-“同步”的模式：

輸入輸出為有向圖
分成超步
以節點為中心計算，超步內每個節點執行自己的任務，執行節點的順序不確定
兩個超步之間是通信階段

　　在Pregel中，以節點為中心計算。Step 0時每節點都活動著，每個節點主動“給停止投票”進入不活動狀態。如果接收到消息，則激活。沒有活動節點和消息時，整個算法結束。容錯是通過檢查點來做的。在每個超步開始的時候，對主從節點分別備份。

　　總結

　　盡管當前大數據技術的核心依然是Hadoop，但谷歌卻已經為我們展現了許多更先進的大數據技術。谷歌開發這些技術的本意并不是要立刻拋棄掉MapReduce，但毫無疑問這是未來大數據技術的趨勢。盡管已經出現了上述大數據技術的開源實現，但我們不禁要問，Hadoop的輝煌還能延續多久？

核心關注：拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業務管理理念，功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理，全面涵蓋了企業關注ERP管理系統的核心領域，是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。

轉載請注明出處：拓步ERP資訊網 http://m.vmgcyvh.cn/

本文標題：Hadoop的生命周期有多久？

本文網址：http://m.vmgcyvh.cn/html/support/11121517777.html

關鍵詞標簽： Hadoop的生命周期有多久？,Hadoop Hadoop生命周期,ERP,ERP系統,ERP軟件,ERP系統軟件,ERP管理系統,ERP管理軟件,進銷存軟件,財務軟件,倉庫管理軟件,生產管理軟件,企業管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統,ERP軟件免費下載,ERP系統免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務軟件,免費倉庫管理軟件,免費下載,

本文轉自：e-works制造業信息化門戶網

本文來源于互聯網，拓步ERP資訊網本著傳播知識、有益學習和研究的目的進行的轉載，為網友免費提供，并盡力標明作者與出處，如有著作權人或出版方提出異議，本站將立即刪除。如果您對文章轉載有任何疑問請告之我們，以便我們及時糾正。聯系方式：QQ：10877846 Tel：0755-26405298。

上一篇：自適應紅外隱身系統溫度調節板外表面溫度仿真

下一篇：中國首創透明計算：可讓計算機徹底減掉操作系統

相關文章

服務支持

拓步ERP系統軟件平臺11.5專業版v10.1.2...

拓步ERP系統平臺庫存管理系統培訓視頻教材


	ERP新聞動態拓步新聞行業新聞關注產品觀點縱橫企業管理企業應用

	ERP解決方案按ERP應用行業分類按ERP企業規模分類按ERP管理領域分類按ERP軟件功能分類按ERP系統特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰略診斷 ERP流程分析 ERP流程優化 ERP風險分析 ERP可行性研究 ERP整體規劃 ERP選型招標 ERP實施監理 ERP評審驗收 ERP績效評價 ERP基礎知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術專欄 CIO企業應用 CIO網絡通信 CIO信息安全 CIO基礎設施 CIO云計算

	ERP技術支持技術支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業管理知識庫

	ERP系統價格拓步ERP系統價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術支持服務價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數碼Digital 速達SuperData 拓步ERP系統成功案例

	代理加盟合作聯盟策略代理合作指南代理聯盟前景聯盟技術支持快速搜索ERP軟件資訊

	關于拓步公司介紹公司愿景企業文化誠聘英才聯系我們在線留言在線訂購意向下載體驗登記

精品久久久久久久久久久久久久_黄色一级免费大片_久久人_成人在线观看一区_精品中文字幕一区二区_国产精品久久久久久久久久三级

ERP技術支持

技術支持知識庫

常見問題資料庫

在線學習資料庫

日常辦公資料庫

企業管理知識庫

ERP系統教程

ERP免費下載

ERP在線咨詢

即時聯系

服務熱線

快捷互動