2019年10月10日,睿象云CEO 高科在京召開新聞發(fā)布會宣布:公司歷時18個月,在中山大學數(shù)據(jù)科學與計算機學院陳鵬飛團隊的鼎力協(xié)助下,成功構(gòu)建了國內(nèi)第一個中文運維知識圖譜(Chinse Operation Knowledge Graph,以下簡稱:COKG)。
隨著國內(nèi)近10年來IT云化和微服務(wù)化的持續(xù)火熱,企業(yè)對運維能力的要求開始不斷提高。人工智能算法的不斷突破,也讓越來越多的企業(yè)開始嘗試購買和使用智能運維平臺來幫助自身從自動化運維走向智能化運維。
睿象云正是一家?guī)椭髽I(yè)智能化運維轉(zhuǎn)型的公司。自成立以來,睿象云致力于通過人工智能技術(shù)來提升企業(yè)的智能化運維能力。在開展 AIOps 相關(guān)項目的過程中,睿象云的技術(shù)人員逐漸發(fā)現(xiàn)運維知識圖譜是 AIOps 的基石,在不依托運維領(lǐng)域的知識圖譜的情況下,根因定位的準確度,運維知識推薦等一系列智能運維的場景都無法達到令人滿意的效果。
深度挖掘海量信息,AIOps需要知識圖譜
眾所周知,計算機擅長處理結(jié)構(gòu)化形式的數(shù)據(jù),為了讓計算機能夠處理這些信息,就必須要理解這些非結(jié)構(gòu)化形式數(shù)據(jù)所蘊含的語義,分析其中的語義單元之間的關(guān)系,從而將其轉(zhuǎn)換成結(jié)構(gòu)化形式。而“圖”是一種可以有效表示數(shù)據(jù)之間結(jié)構(gòu)的表達形式。因此,如果將數(shù)據(jù)中蘊含的知識用“圖”的結(jié)構(gòu)進行形式化表示,將數(shù)據(jù)的結(jié)構(gòu)化與已有的結(jié)構(gòu)化數(shù)據(jù)進行關(guān)聯(lián),檢索與查找的便利性就能得到極大的提升。這便是Google 公司于2012年提出的“知識圖譜”的概念。
然而,在復雜的IT運維領(lǐng)域中,隨著海量的事件不斷出現(xiàn)以及多數(shù)據(jù)源融合的交叉應(yīng)用,致使傳統(tǒng)的IT運維管理模式一直很難突破對人的巨大依賴。一旦系統(tǒng)出現(xiàn)嚴重告警事件,如果沒有豐富的運維經(jīng)驗或者了解系統(tǒng)脈絡(luò)的人員,很難快速地解決IT系統(tǒng)故障問題,被運維工程師們寄予厚望的AIOps也只能是紙上談兵。
睿象云研發(fā)團隊經(jīng)過深思熟慮,提出了一個基于知識圖譜搭建智能運維體系的新構(gòu)架。睿象云的團隊認為,企業(yè)的IT知識和通用領(lǐng)域下的IT知識要沉淀到運維圖譜里面,然后結(jié)合從IT生產(chǎn)系統(tǒng)采集的指標和事件數(shù)據(jù),搭建出企業(yè)完整的智能運維平臺。相比傳統(tǒng)的運維體系,知識圖譜數(shù)據(jù)庫可迅速調(diào)用IT事件之間的關(guān)系,通過系統(tǒng)推理輔助分析并得出問題根因,極大地提升事件處理效率,讓業(yè)務(wù)運行更加可靠。
圖1:基于知識圖譜搭建智能運維體系的新構(gòu)架
首個“中文運維知識圖譜”,IT事件關(guān)聯(lián)智能解析
傳統(tǒng)模式下,企業(yè)的IT知識和通用領(lǐng)域下的IT知識通常蘊含在數(shù)據(jù)之中。這些海量的數(shù)據(jù)中包含了大量運維領(lǐng)域的相關(guān)知識和資深技巧以及蘊含經(jīng)驗的有用信息。只有通過基于知識圖譜搭建智能運維體系的框架下,計算機才能自動閱讀、分析、理解這些海量、繁雜乃至泛濫的數(shù)據(jù),從中挖掘有價值的知識,繼而向使用者提供精準知識服務(wù),最終實現(xiàn)真正的AIOps。
睿象云的研發(fā)團隊聯(lián)合中山大學數(shù)據(jù)科學與計算機學院的陳鵬飛教授團隊,經(jīng)過了長達一年半的緊密合作,終于趕在新中國70年華誕時刻,完成了國內(nèi)首個運維領(lǐng)域的知識圖譜——中文運維知識圖譜COKG。
圖2:COKG中文運維知識圖譜模型
睿象云本次發(fā)布的“中文運維知識圖譜”包含了30多萬個實體、400萬個實體關(guān)系,是目前中國運維領(lǐng)域首個公開發(fā)布的知識圖譜。此舉將傳統(tǒng)基于淺層語義分析的信息服務(wù)范式提升到基于深層語義的知識服務(wù)。不僅在學術(shù)層面和商業(yè)層面有具有深刻意義,更是代表了新代智能化運維的基礎(chǔ)設(shè)施業(yè)已建成。
圖3:中文運維知識圖譜實體示例
全景圖譜深度挖掘 根因定位不是夢
COKG將不同IT事件的碎片化數(shù)據(jù)信息進行多維度整合,依托自動語義分析算法,能夠收集企業(yè)內(nèi)部的事件類數(shù)據(jù)(機器日志、告警等),IT配置信息(業(yè)務(wù)調(diào)用關(guān)系、CMDB等),和知識數(shù)據(jù)(故障手冊、廠家文檔、告警處理意見等)等三種IT運維數(shù)據(jù)。通過事件驅(qū)動發(fā)現(xiàn)異常事件,自動分析事件根因,并且各種事件均可溯源,方便企業(yè)探究問題根因,精準管控風險源頭,做到標本兼治,消滅風險于萌芽。另外COKG可對企業(yè)IT系統(tǒng)進行秒級實時數(shù)據(jù)抓取和分析,對于未來可能發(fā)生的威脅及時預警,并結(jié)合解決方案智能推薦形成企業(yè)內(nèi)部智能運維體系閉環(huán),令企業(yè)的運維管理達到“運籌帷幄,決勝千里”。
圖4:睿象云智能事件平臺
此次發(fā)布的知識圖譜更在交互方面具備了兩個顯著優(yōu)勢:
1. 表示方法對使用者友好
傳統(tǒng)知識表示方法和描述語言需要運維工程師具備一定的專業(yè)知識和技能,非資深人群難以使用。COKG以實體和實體關(guān)系為基礎(chǔ)的簡潔表示形式,無論是專家還是入行小白都容易接受,這給以眾包等方式編輯和構(gòu)建知識提供了便利,為一線運維人員參與大規(guī)模知識構(gòu)建提供了低認知成本的保證。
2. 表示方法對計算機友好,支持高效推理
推理是知識表示的重要目標,傳統(tǒng)方法在進行知識推理時復雜度很高,難以快速有效地處理。COKG表示形式以圖結(jié)構(gòu)為基礎(chǔ),結(jié)合圖論相關(guān)算法的前沿技術(shù),利用對節(jié)點和路徑的遍歷搜索,可以有效提高推理效率,極大降低計算機處理成本。
除此之外,通過本次發(fā)布的運維知識圖譜,AIOps算法的準確度也能得到相應(yīng)的提升。以根因分析為例,在沒有圖譜的情況下,算法是完全沒有任何知識儲備的,它只能通過概率或者頻率去區(qū)分事件之間是否存在關(guān)聯(lián)關(guān)系。
而有了知識圖譜之后,便可以把領(lǐng)域內(nèi)的復雜知識通過信息抽取、數(shù)據(jù)挖掘、語義匹配語義計算、知識推理等過程精確地描述出來,并且可以描述知識的演化過程和發(fā)展規(guī)律,從而為研究和決策提供準確、可追蹤、可解釋、可推理的知識數(shù)據(jù)。在實際操作中,使用者只需要在建立好的圖譜查找相關(guān)問題,便可快速提供解決方案,極大地增強了企業(yè)的決策能力。
結(jié)尾
從20世紀90年代開始,以統(tǒng)計機器學習為核心的人工智能技術(shù)逐步占據(jù)主流。進人新世紀,隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,IT系統(tǒng)數(shù)據(jù)規(guī)模呈現(xiàn)爆炸式增長的趨勢,IT事件類型也更加復雜多變。因此,這次COKG的發(fā)布,于整個運維界來說,也是一件十分具有里程碑意義的壯舉。
知識圖譜將是企業(yè)里面最重要的數(shù)據(jù)資產(chǎn)之一,睿象云也將持續(xù)努力,幫助企業(yè)更好的搭建出屬于自己的AIOps平臺。
想了解更多關(guān)于運維知識圖譜的相關(guān)信息,歡迎登陸aiops.com,和我們一起探討知識圖譜的相關(guān)話題。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!