在企業(yè)級大數據領域,明略數據在過去幾年服務客戶的過程中,創(chuàng)造性地引入大數據+知識圖譜的思路,開發(fā)了一款名為SCOPA的大數據知識圖譜產品,并且在公安、金融等多個領域取得了良好的實踐效果。本分享將系統地介紹SCOPA產品的設計理念、總體功能以及核心技術優(yōu)勢,并闡述SCOPA產品如何應對客戶的具體應用場景以及圍繞SCOPA如何打造先進的大數據整體解決方案。
明略數據技術合伙人黃樺在ArchSummit深圳2016大會上和我們分享了:
1,企業(yè)級大數據簡析;
2,構建大數據知識圖譜產品;
知識圖譜是什么?
一個簡單的工商企業(yè)的知識圖譜;
如何落地知識圖譜產品?
圖數據庫及其選型;
3,應用淺談。
黃樺,四年大數據領域從業(yè)經驗,大數據技術和大數據產品開發(fā)的深度實踐者。
問:各位網友大家好!作客我們現場的是明略數據技術合伙人黃樺。從最開始的語義網等概念,到現在的知識圖譜,您覺得為什么現在知識圖譜的概念能夠火起來?
黃樺:語義網是一個宏觀的概念,想把網絡上的東西、電腦、手機更多的連起來,讓他們互相能夠認知到、能夠識別,當初設計非常復雜,貌似也有個協議,跟網絡通信協議類似,但是很難落地,只是有它的概念。但是知識圖譜不一樣,比較簡單,就是點邊屬性這樣的三維屬性的圖譜,所以可以落地。再加上這個數據越來越大,大數據時代,總量比較多,數據類別也比較多,這個時候非常自然想到,這么多數據以后如果還是孤立的看數據源,產生價值,實際上是線性累加的過程,把孤立的串在一起創(chuàng)造的價值可能是更大的效果。
問:您所了解的業(yè)界現在知識圖譜的落地應用有哪些?
黃樺:落地應用挺多的,我們認識當中最早是在互聯網搜索里面,讀書的時候實習,微軟亞洲研究院做了一個人立方,人立方是一個搜索引擎,剛開始落地的時候找的是學術圈發(fā)表論文的數據,跟學校之間的關系找到,把作者跟作者之間一起合作論文的關系刻劃出來,然后帶出來相關領域的合作者。最早的知識圖譜是這樣。慢慢的,谷歌在2012年、2013年放到他自己的算法里,增強他搜索的性能和準確度,慢慢的國內百度也在用,也是把圖譜放到搜索里提高搜索的準確性。企業(yè)用的還是不多,剛剛開始興起,我們公司算是比較前列的,探索一些場景,特別是在公安,昨天的分享中我也提到了,公安特別想知道一個真實的世界網絡是什么樣子的,因為他要抓嫌犯,很多時候犯罪分子不是孤立的個體或事件,是團伙性,團伙性的趨勢越來越重,所以一定是需要關系網,才能更好的讓公安去研判。
問:金融領域呢?
黃樺:金融領域更加關注一些風險的問題,像銀行最大的問題就是風險問題,如果把風險控制好是可以賺很多錢的,更加希望在交易和帳戶層面做一些風險控制,如果把交易的數據做一個比較好的Study的話,可以把帳戶之間的關系連接起來,然后帳戶之間的屬性企事業(yè)能夠建立一些關系。舉個簡單的例子,我開了一個帳戶,沒有用身份證,但是我填的時候一些信息相似度非常高,比如說某街某道,這些是有關聯的。
問:SCOPA的知識圖譜應用是結合什么數據庫進行的?
黃樺:用的是Titan。
問:為什么會選擇這種數據?
黃樺:這是一個很好的問題,我們做企業(yè)級市場的在技術選型包括用一些什么樣的技術方面還是比較慎重,不會貿然,之所以選Titan是有選型的。
第一點是看這個數據庫的整合度高不高,因為現在很多大公司已經有大數據平臺,如果你跟他說部署這樣一種產品地要增加什么什么這樣的組件,跟大數據平臺不是完全耦合化,對方很難答應的,對方說已經做了這個東西,已經有這個平臺了,所以第一點一定是跟它平臺的整合度、成熟度、對接度高不高,這是很關鍵的一點。
第二點,這個產品的性能問題,數據量大的情況下性能是很關鍵的,我們對Titan做過一些壓測,還不錯。
三是可擴展性。對于我們來說,我們很多產品都開了工具,Lisence就很好。
問:在應用知識圖譜的過程中,您們是不是從零開始研究,還是以前就具有相關項目經驗?
黃樺:我們公司是2014年成立的,開始是一些普遍的需求,慢慢數據量多了以后,平臺搭起來以后,客戶希望創(chuàng)造更大的用戶價值,這時候傳統的方式就玩不轉了,我們后來做了一些調研,看其它同行和國外的公司是解決什么問題的,后來發(fā)現他們或多或少通過關聯數據這樣的路子,才能解決問題。我們2015年的時候嘗試這樣一個方向,正好我們有公安客戶,他跟我們交流過程當中,發(fā)現關系網非常重要,基于他的場景慢慢在2015年開發(fā),2016年已經有一套比較成熟的產品。
問:對于一個公司如果初次開始使用知識圖譜,如何降低成本?
黃樺:降成本這塊,我覺得盡量采用開源的技術,做這個產品的時候先想清楚要解決什么樣的問題,很多技術人員很多時候為了驗證我懂這個技術、我很強就做這個事情,但我建議在做圖譜產品的時候最好還是發(fā)現問題,不用太大、太多,先找到一個問題,根據領域內的知識,需要哪些實體,要構建那些實體關系,有哪些屬性和事件,這樣出來以后基于開源的工具再去把這個系統搭起來。
問:跟業(yè)務是不是也有關系?您之前沒有接公安項目的時候并不知道未來數據庫選型是怎么樣的,一個新的公司,假如他是電商領域的,肯定跟金融領域的做法不一樣,您這方面有差異嗎?
黃樺:有差異,圖譜按照我們的理解是比較強屬性的東西。
問:降低成本的話還是考慮行業(yè)的業(yè)務屬性?
黃樺:對。比如你在工商行業(yè),你關注的企業(yè)、法人、產品、行業(yè)這樣一些實體的投入,但是在公安層面,他可能關注的是機構這樣一些數據。
問:把原始數據轉為知識圖譜可用數據,在實踐上您們遇到最大的困難是什么,如何解決的?
黃樺:剛才也講了這樣一個過程,我們碰到的最大的問題是對非企業(yè)化數據的處理,包括視頻、圖片,這是挺大的一個問題,我們現在文本做的比較好,有一套比較成熟的IOP的工具,它可以自動化的做一些文本。但是我們對視頻、圖像這塊的處理做的并不太好,這塊也在摸索,我覺得可能會采用業(yè)內其它同行的玩法。但是視頻、圖片對公安來說是非常重要的一個方面,光有文本的話不夠,未來我們會往視頻圖片這方面整合。
問:學術界對圖像識別處理比較超前,你們跟學術界有沒有合作?
黃樺:有,我們公司的CTO是北大畢業(yè)的,他在學術界人脈挺廣的,跟北大、清華、上交也有些合作。
問:據說您們的應用規(guī)模已經是在億級實體、幾十億級關系了,那么在這樣的應用規(guī)模下,準確度和實時性能如何?效果如何?
黃樺:效果還不錯。你剛剛提到的億級實體、幾十億級關系,這樣的規(guī)模是我們在現實項目當中有碰到過的,公安的一些場景,公安處量還是非常大的,比如對省級的一個公安部門,有全省的信息,國內稍微大的一個省接近上億人嘛,還有外來的,上億的人和上億的事件確實構成很大的規(guī)模,我們是可以提供他平常研判所需的,從一個實體人擴展他一些關系的話都是可以在兩三秒左右得到結果,是非常好的體驗。
問:這個關系鏈是不是有點像六度空間模型?
黃樺:對。六度空間模型更強調兩個人之間通過不超過六個人認識,其實業(yè)務需求比較多樣,有些是交互式的需求,看一個case的時候需要非常快的調出這個case的屬性、關系人。還有一種是需要挖掘的業(yè)務模型的,比如說用一些圖、算法和應有的知識做Offline的。
問:您們的產品主要應用公安,金融,那么對安全性的要求應該比較高,在安全性方面有哪些舉措呢?
黃樺:我們最開始做公安的時候意識到安全確實是很大的問題,我們采取的方案從兩方面入手:一個是從平臺本身,把數據庫做到極致,所有登錄我們這個產品的用戶都做到非常高的級別;二是對應用權限做的比較好,我們這個產品每個模塊誰可以訪問、做什么操作,都是可以控制的。比如我是市局的人登錄省廳的,只能看到市里相關人員的屬性,不太可能看到別的市的相關人員的信息,他要看的話需要申請。
問:大數據技術這兩年跟早年
云計算一樣談的比較多,但發(fā)展方向在我看來沒有那么明晰,比如具體的業(yè)務領域上有些case跟大家講,但是不像運算里就是SD技術就是一個趨勢,大數據里沒有這個,在您看來大數據以后的發(fā)展方向或趨勢是往哪里走?
黃樺:趨勢方面,我們還是把知識圖譜或關系鏈這套理念用于更多的場景,因為我們現在在公安和金融做的比較多,但是我們也在調研,也在做思考,其它行業(yè)通過數據關聯做事情也能產生更大的價值。在技術層,把我們的技術架構做的更細、更深。我們這套數據量可能上億,幾十億,還不錯的量,但是有更大的數據量在等著我們,我們跟其他人聊的時候,知道有些涉及到的數據量非常大,在技術方面怎么做更大的數據量,在數據量更大的情況下保證我們的關聯計算、所有查詢、交互都是很好的體驗。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.vmgcyvh.cn/
本文標題:企業(yè)級大數據知識圖譜產品構建與應用
本文網址:http://m.vmgcyvh.cn/html/news/10515519999.html