1、引言
大數據的3V特性(volume、variety、velocity)正在逐步改善用戶體驗和生產效率。電信運營商提供基礎通信平臺連接每一位用戶。每天數以億計的用戶在管道中留下的通信行為數據構成電信大數據。如何挖掘大數據來智能支撐運營商各項業務并進行業務轉型,是一個需要深入思考的問題。首要任務就是匯集豐富的用戶行為數據,存儲在統一的電信大數據分析平臺,并根據業務需求靈活部署統計、規則和預測算法,在不改變業務人員使用習慣的情況下做到及時、多屏、準確、直白、客觀地沉淀用戶數據(例如不同時間跨度的知識標簽),幫助企業減少營銷成本的同時做到360度營銷,降低業務人員的學習成本,賦能、提高營銷效率。總體而言,電信大數據沉淀了海量用戶7個維度的信息:1維用戶真實ID(基本信息)、1維行為數據(通信行為、互聯網行為、消費行為、投訴行為、網絡體驗、反饋行為)、1維社交數據、1維時間數據和3維空間數據(室外宏基站定位和室內微基站定位)。通過對7維用戶數據建模,可以實現運營商在3個數據業務方向的升級:用戶洞察、網絡洞察和數據開放。如圖1所示,電信大數據平臺的目標是實現用戶、網絡和數據的統一自動化管理,實現“三個了解”和“三個提升”,即了解用戶、了解產品(服務和渠道)、了解網絡,提升營銷轉化率、提升決策準確率和提升自動化率(數據化→信息化→智能化)。
圖1 電信大數據平臺的目標
全生命周期的用戶洞察是電信大數據的基礎,目標是改善用戶體驗,提升營銷效率,從而沉淀更多用戶的行為數據作為反饋。以用戶為中心的網絡洞察有助于提升運營商在網絡規劃、網絡建設、網絡優化、網絡維護方面的投資效率,改善用戶網絡體驗,并降低運營成本。面向全行業的數據開放的重點是利用電信大數據優勢構建數據產業生態鏈,使其能提供面向全行業的數據服務,例如幫助行業客戶進行獲客、營銷、選址分析、人流量檢測、區域價值規劃等。然而,在3個業務方向的升級都急需強有力的電信大數據分析平臺支撐,這將面臨9個方面的技術挑戰,分別是特征工程、預測算法、根本原因分析、實時分析、時空數據挖掘、知識管理、多媒體數據挖掘、圖數據挖掘和隱私保護。本文重點描述這些技術挑戰的來源和可能的解決方案,討論如何構建高效的電信大數據平臺。
2、電信大數據分析
電信大數據平臺是一個提供統一數據存儲、分析處理、數據服務的
云計算平臺。如圖2所示,平臺需要融合并存儲來自BSS(B域)和OSS(O域)系統的數據,提供6種通用數據的處理。BSS是商業支撐系統,包括客戶關系、計費、營銷和傳統商業智能系統,記錄用戶的話單、賬單、基礎信息和營銷反饋記錄。BSS數據特點是量小(約占電信大數據總量的3%)、匯總、離線(非實時更新)、貼近用戶行為。OSS是網絡運營支撐系統,包括基站、傳輸、固網和核心網等網絡單元(CS系統負責語音/短信、PS系統負責上網流量),記錄大量信令數據,包括用戶聯接網絡體驗、互聯網內容和位置信息。OSS數據特點是量大(約占電信大數據總量97%,主要是位置數據和互聯網內容數據)、精細、實時和貼近網絡行為。以600萬個活躍用戶為例,每天產生大約14 TB數據,這些數據大部分來自OSS,通過擴展,可估算中國12億用戶每天產生的數據量。盡管數據來源不同,但所有數據可抽象為六大通用數據類型,分別是時空數據、圖數據、表數據、流數據、多媒體數據和文本數據。建模算法可以面向這六大類通用數據類型進行設計和部署。
圖2 融合BSS和OSS數據
電信大數據核心資產是海量用戶的7個維度信息。如圖3所示,這些數據可以支撐對內和對外服務優化,如全生命周期的用戶管理和基于位置的服務。用戶洞察的核心是圍繞用戶回答7個W的問題:who(用戶ID)、when(時間)、where(空間)、what(行為結果)、how(行為過程)、why(行為根本原因)、Web(社交)。通過7D用戶數據建模實現7W洞察是電信大數據分析的核心需求。
圖3 7維度用戶數據建模和7W洞察
大數據時代,建模思維逐漸從研究各種映射算法到研究數據本身,如從豐富的數據中抽取更加合理的特征表示、從數據中根據業務規則自動定義標簽和訓練數據以及利用用戶營銷反饋數據,自動化整個營銷流程等。從數據出發,尋求合適、好用的算法是建模的核心。清晰定義訓練數據,熟悉業務流程,才能將挖掘算法的價值發揮到最大。用戶和基站聯接行為將BSS和OSS數據打通,因此通用的用戶模型可以用二分圖表示,即一層節點是用戶,另一層節點是網絡,兩層節點之間的邊表示用戶聯接網絡的時間。總體而言,可以通過電信大數據的二分圖表示實現用戶洞察、網絡洞察和數據開放3個業務目標。
3、數據融合中的模式轉換
電信大數據分析面臨9個關鍵的挑戰,分別是特征工程、預測算法、根本原因分析、實時分析、時空數據挖掘、知識工程、多媒體挖掘、圖挖掘和隱私保護。
3.1、以時空數據為核心的特征工程
隨著移動設備和移動互聯網的普及,隨時隨地使用移動終端已經成為人們的一種基本生活習慣。因而電信數據成為獲取城市用戶、區域細粒度時空行為信息的重要數據源。這些細粒度行為信息可以被用作建模的重要特征,從而大幅提升電信數據挖掘效果[1]。因為電信數據來自多個數據源,如BSS(B域)的數據來自
CRM(customer relationship management,
客戶關系管理)、賬單、BI(business intelligence,商業智能)、客服和渠道等系統,OSS(O域)的數據來自于MR(measurement report,測量報告)、Gn口和Mc口等系統,時空和用戶ID關聯是把這些數據整合成統一特征集合的關鍵因素。以時空數據為核心的特征工程需要結合B域和O域進行關聯分析,找出網絡和用戶特征的關聯性。如圖4所示,復雜的特征工程可以在以時空數據為核心的各種數據類型上構建。如人的社交關系可以表述為電話網絡、短信網絡和接觸網絡(兩個人在相近時間、相近地點出現算是一次有效接觸)。每個電話、短信或接觸都有發生的時間和地點。需要設計有效的算法研究如何在這種有時空約束的圖中提取反映用戶復雜社會關系的特征。另一個例子是將用戶的賬單、影響力或者離網行為映射到每個位置上來評估每個位置的價值,從而可以得到高價值用戶或者離網用戶聚集的位置,開展基于位置的服務和營銷。同時也可以構建基于用戶行為的基站投資分析,得出精確基站選址目標。將通信行為、互聯網行為、消費行為、營銷反饋行為映射到時空位置坐標,也可以開放給其他行業,輸出專業性的評估報告,有助零售業或者旅游業掌握移動用戶的行為。例如,西班牙電信Telefonica的SmartSteps洞察方案將時空數據脫敏后開放給行業客戶,每年有數千萬歐元營收。其他的多媒體數據(客服語音記錄)、文本數據(服務記錄和移動搜索記錄)和用戶軌跡數據等都需要設計有效的特征提取算法。所以電信大數據挖掘的第一個核心挑戰是以時空數據為核心的異構特征工程。
圖4 以時空數據為核心的特征工程
3.2、更加精準的預測算法
當特征工程完成以后,下一步需要做的是預測(如離網預測[1]),并根據預測結果做決策。業務價值通常取決于預測的精度,精度越高越好。圖5對比了傳統數據挖掘的預測流程和大數據下的預測流程,主要區別之一是傳統數據挖掘采用的預測模型較簡單(參數少),無法刻畫數據統計分布的細節,而大數據背景下,通常采用大規模參數學習(如支撐十億級別的模型參數處理百萬級別的稠密連續特征向量),從而充分刻畫統計細節和數據的相互依賴關系,達到更高的預測精度和更好的解釋。傳統的梯度下降(上升)算法在并行架構下可以優化大規模參數的神經網絡模型,是未來高精度預測算法發展的主要方向之一。但是,電信領域的數據種類相對互聯網領域數據種類較少,通常使用較少的特征也能帶來業務性能的提升。未來需要更多的實驗驗證高維豐富的特征對電信業務的有效性和必要性。
圖5 精確的預測算法
3.3、根本原因推斷輔助商業決策
商業智能的核心競爭力是分析用戶行為的根本原因,即明確哪些主要變量影響用戶最終的行為。如圖6所示,運營商關心的是何種原因(如網絡質量體驗、資費、服務體驗不好)導致用戶離網行為,從而可以針對性地改進產品和服務,持續改善在網用戶體驗。未來個性化的營銷也需要對用戶多個行為變量進行排序,從而匹配到最為需要的產品。根本原因推斷技術的主要方向仍然是特征變量的排序和變量之間相關性分析。由于大部分特征變量僅僅反映表象,根本原因分析需要對隱藏變量進行推斷,然而目前大部分統計學習算法仍然難以有效地產生可以解釋的隱藏變量,需要持續探索。
圖6 根本原因推斷算法輔助商業智能
3.4、實時分析能力逐步成為基本需求
OSS數據的一個特點是更新速度快,如用戶對網絡的體驗、網絡故障診斷和位置更新信息,都是在秒級或者分鐘級采集產生的。這些數據一旦不及時處理分析,將失去商業價值。例如,客戶當時上網體驗不好(例如無法使用支付寶或者微信支付出租車費),很有可能會即時撥打投訴電話,因此需要即時得到分析結果,并做一些補償措施,給用戶良好的體驗。又例如網絡故障診斷,需要在故障發生之后,立即分析并隔離相關的網絡單元,啟動備用方案。基于位置的營銷需要及時判斷用戶的當前位置,推送附近商鋪的合理產品,或者是當用戶靠近營業廳附近時,推送合適的業務服務。實時分析能力需要流處理架構和在線學習算法,通過統計、預測一個短時間窗口內的數據流,迅速更新模型參數,并做出決策。之后的決策都基于模型,不需要重新學習歷史數據,因此大大加快了模型的更新速度和分析速度,達到實時處理的目標。尤其對于海量OSS數據,流處理和在線學習技術是非常必要的。另一個挑戰的技術方向是時間序列的挖掘,如何在數據流中快速捕捉數據在時序上的依賴關系(上下文關系),做出準確的預測,仍然十分困難,需要持續研究。
3.5、時空數據挖掘
電信數據相較于其他數據的一個核心優勢就是含有用戶細粒度的時空行為信息。有效的挖掘并利用這些時空數據可以充分地發揮電信數據的價值。但是,電信時空數據的挖掘面臨4個核心挑戰:數據的不精確性、數據的超稀疏性、數據的強依賴性和異構性,如圖7所示。數據的不精確性是指通過電信數據計算的用戶位置精度遠低于GPS精度(但是電信位置數據的好處是不需要客戶端任何負擔,位置數據天然存在于網絡側)。如圖7中淺色圓圈是某區域用戶真實GPS位置,淺色圓圈是使用基于距離的定位算法從電信記錄恢復的用戶位置[2]。可以看到直接使用簡單的基于位置的定位算法,數據存在很大的不精確性。如何設計更好的定位算法,如充分利用指紋和地圖等信息,降低位置數據的不確定性,是第1個挑戰。第2個挑戰是數據的超稀疏性。每個用戶只會出現在城市的一個很小的區域和一些小的時間片段中。如果把所有用戶的時空數據放在一起,把每個小時間片段和地點的組合看成一個記錄點,一個用戶在絕大多數的記錄點都是沒有信息的。所以時空數據是一個超稀疏的數據集,如何處理并清洗這種超稀疏的數據集是一個技術挑戰。時空數據有很強的時間和空間關聯關系,如果按照時間切片或者地點切分將時空數據輸入數據挖掘模型,這種關聯關系就無法被有效地使用[3]。如何有效地組合使用有效的算法,如時間序列和神經網絡來有效地表述時空數據的時空強依賴性,是第3個技術挑戰。第4個技術挑戰是時空數據和其他數據結合時導致的數據異構性,如圖、文本挖掘都需要考慮相關數據產生的時間和地點才能進行更有效的信息提取。
圖7 電信時空數據挖掘的4個核心挑戰
3.6、知識管理是智慧延展的基礎
運營商每年有大量業務人員沉淀經驗知識用于營銷、網絡優化和客服。大部分知識都是通過文本的形式保存下來,但是這并不方便查詢和尋找知識之間的關系。文本挖掘的一個重要方向是自動構建知識圖譜,通過發現文檔中知識單元之間的相互關系,方便用戶查詢和學習。如圖8所示,左邊是從幾十萬份網絡故障相關的文本中提出的關鍵詞(知識單元)和相互之間的關系,通過點擊相關的知識單元,可以查到對應的文本摘要,大大縮短定位問題的時間。類似地,客服系統每年都存有大量用戶投訴咨詢記錄,通過構建知識圖譜,可以容易地發現投訴熱點,并做出持續改進,節省大量人力、物力。
圖8 知識圖譜用于沉淀并管理業務知識
3.7、多媒體數據挖掘
電信數據中的多媒體數據主要指客服的語音記錄。語音記錄中包含了客戶關注的問題和客服服務質量和有效性信息。與客服人員手工記錄的文字信息相比,客服語音信息包含更原始和真實的信息,如客戶的情緒、關注點和客服的效率等信息。有效地挖掘這些信息可以自動化地發現咨費、網絡、服務和競爭對手的問題,提升服務質量。語音數據中提取的特征也可以被有效地應用于其他數據挖掘模型。語音數據的處理包含兩個部分,語音識別和文本自然語言處理。語音識別主要有兩個挑戰,一個是當前電信記錄系統很多是8音道數據,數據質量較差;另一個挑戰是語音中含有很多方言和電信業務相關專用詞匯,需要特殊的算法提升識別精度。語音識別為文本后,需要自然語言處理算法準確地提取關注主題、客戶情緒和服務質量等信息。當前深度學習技術已經在百度和谷歌等公司的語音識別和自然語言處理方面顯示出強大的能力。如圖9所示,如何針對電信語音數據設計合適的深度學習算法是多媒體數據挖掘的技術挑戰。
圖9 深度學習技術應用于多媒體數據挖掘
3.8、圖數據挖掘與社交分析
電信數據包含3種基本的用戶社交網絡:電話網絡、短信網絡和用戶接觸網絡。圖挖掘技術已經在很多數據挖掘場景(如推薦系統)中取得了很好的效果。電信圖數據的主要特點是每個圖不僅包含社交信息,還包含社交發生的時間和地點信息。含有時間和地點的圖的分析算法需要新的設計[4]。如何在時間和地點都有約束的網絡中構建有效的并行分析算法,并將算法結果轉化為模型分析的重要特征是一個技術挑戰。如圖10所示。
圖10 電信圖數據挖掘與社交分析
3.9、隱私保護
電信數據含有用戶的通信行為、消費行為、互聯網行為、社交行為和時空行為等高隱私信息。隱私保護是需要考慮的一個核心技術。當前隱私保護最有效的方法是差分隱私保護[5]。差分隱私將數據分析人員和分析數據隔離,保證攻擊者在有任何背景知識的情況下,都只能以極小的概率區分某個特定用戶是否在數據集中。如何將差分隱私保護緊密地結合在電信挖掘的算法中是一個值得研究的課題。從當前實際系統需求分析,另外一個更加重要的隱私問題是防止數據濫用技術的研發。當前數據挖掘都是經過用戶授權使用數據,但是電信運營商為了保障數據隱私安全,要求分析人員只能在嚴格控制的內網分析匿名數據,從而隔絕分析人員和分析數據。而推薦系統等應用需要不斷迭代的特征工程以保證最優的挖掘效果,在這種場景下的分析技術尚不成熟,例如無法不斷迭代特征工程來保證推薦系統等應用的最優挖掘效果。實際商業中最緊迫的場景是和第三方合作,即授權第三方使用數據完成某項數據挖掘任務(用戶授權情況下)時,如何限制分享的數據只能被用在這個特定的數據挖掘任務而不被使用在任何其他場景,即閱后即焚的功能。
4、結束語
電信大數據沉淀于通信管道內,覆蓋12億中國用戶,需要運營商、設備商和大數據產業鏈共同努力以發揮其巨大的商業價值。本文提出的9個技術挑戰中,一部分已經有相對完善的解決方案,但大部分還需要研發人員和市場人員的努力,在數據挖掘和商業模式方面做進一步突破。2014年是中國電信大數據元年,到2015年,電信大數據已經在用戶洞察、網絡洞察和數據開放3個業務方向上積累了不少成功的經驗。隨著技術進步,電信大數據將逐漸釋放巨大的商業價值,提升用戶體驗,降低運營成本,催熟整個大數據產業鏈。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.vmgcyvh.cn/
本文標題:電信大數據關鍵技術挑戰
本文網址:http://m.vmgcyvh.cn/html/solutions/14019319779.html