許多新的分析應用需要更強大的算法,及比Hadoop或關系數據庫更強大的計算方法。數據科學家越來越需要以新穎的方式來利用其所在企業所有的數據源,并使用相關的分析工具和基礎架構來完成某些任務了。
從我們針對于相關數據科學家們的調研中,我們發現企業正日益從簡單的SQL聚合和匯總統計過度到下一代的更為復雜的分析。這包括機器學習,聚類分析,相關分析和主成分分析。
Hadoop缺失標記
Hadoop非常適合于簡單的并行的問題,但其對于大型復雜的分析卻是不夠的。越來越多的復雜的分析案例已然充分證明,復雜分析中僅僅采用Hadoop是行不通的。這些例子包括基于數以百萬計的客戶和產品的推薦引擎,需要運行大量的基因序列數據,研究數據之間的相關性,并運用強大的降噪算法在傳感器和圖像數據中發現有用信息的巨陣列。
目前,第一波Hadoop技術的采用者像谷歌,Facebook,LinkedIn都需要有一個小的開發者團隊來編寫和維護Hadoop。但是更多的企業要么不具備采用Hadoop和MapReduce編程所需的資源和內部經驗;要么就是他們所面對的復雜的分析案例不能簡單的通過采用Hadoop就能解決。因為Hadoop不支持SQL,也就不可能為數據科學家們加入其他管理和操縱數據所需的重要的功能。
解決重大缺陷
Hadoop的供應商們也已然認識到了這一局限性。他們正在將他們的產品中加入SQL功能,以支持數據科學家們所偏愛的在低級別的編程語言如Java中進行高級查詢語言,并解決了MapReduce的局限性。
例如,Cloudera就拋棄了MapReduce并提供Impala以在Hadoop分布式文件系統(HDFS)提供SQL支持。其他的供應商也紛紛在其Hadoop解決方案中加入SQL支持來解決Hadoop的重大缺陷。雖然這些方法可以更容易的實現編程,但他們也有其局限性,因為其是運行在一個文件系統上的,而不是數據庫管理系統上。最后,他們不具備某些應用程序所需的原子性,一致性,隔離性和持久性(ACID)的能力。他們是緩慢的。
不局限于SQL功能,而是充分利用技能集
除了缺乏支持SQL的功能,Hadoop不能有效地利用數據科學家的技能集。在一個Hadoop環境,用戶通常使用MapReduce Java作為主要編程語言。但數據科學家往往偏向于更強大和更熟悉的高級語言如R和Python來工作。
這樣,存儲在Hadoop的數據傾向于導出到數據科學家的首選的分析環境,注入時間密集型,低價值的數據到分析流程。將數據遷移出Hadoop來進行分析,匯總和聚集,然后將結果返回到Hadoop破壞數據源,使得科學家們能夠無縫的進行數據探索,并分析數據在整個頻譜的細粒度和聚合。
基于Hadoop的戰略反思
許多企業被吸引到采用Hadoop,因為Hadoop分布式文件系統實現了針對廣泛的數據類型的低成本的存儲策略,而無需預先定義表格模式或確定數據最終會被用來做什么。雖然這很方便,但這對于存儲和分析結構化數據的龐大數據集而言則是非常低效的方式。
從簡單的方法轉到復雜的大數據分析提醒我們關于超越了單一服務器內存限制,適當處理稀疏,缺失值和混合采樣頻率的新興規模分析需求的興起。這些復雜的分析方法也可以為數據科學家提供無需監督和假設的方法,讓所有數據說話。存儲和分析解決方案,充分利用固有的數據結構,能夠顯著產生比Hadoop更好的性能。
雖然Hadoop是一款非常有用且普遍采用的技術,它不是萬能的。Hadoop和MapReduce的環境中需要大量的開發資源,同時無法利用流行的高級語言,如數據科學家所偏愛的R和Python。
對于交互式數據探索而言太慢,且不適用于復雜的分析,Hadoop迫使數據科學家們將數據從Hadoop分布式文件系統遷到分析環境,這無疑是一項耗時且低價值的工作。數據科學家們越來越開始轉向采用復雜分析來幫助他們解決最困難的問題,而企業也正在重新反思其基于Hadoop的策略。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.vmgcyvh.cn/