2021 年下旬,有關(guān)可觀測性的研討如雨后春筍般層出不窮,在解讀 CNCF 云原生計(jì)算基金會(huì) 2021 年度云原生調(diào)查時(shí),CNCF 執(zhí)行董事 Priyanka Sharma 曾表示:“隨著容器基礎(chǔ)設(shè)施的上層和底層不斷成熟,2022年將成為邊緣、可觀測性和安全等新興云原生領(lǐng)域的標(biāo)志性一年。”
當(dāng)前傳統(tǒng)監(jiān)控體系所面臨的諸多局限真的能夠通過可觀測性解決嗎?企業(yè)又該如何構(gòu)建適配自身的可觀測性體系?
可觀測性“火熱出圈”
“可觀測性”并不是一個(gè)新詞,其概念最早由現(xiàn)代控制理論之父 Rudolf Kalman 提出:“如果對(duì)于狀態(tài)和控制向量的任何可能演變,僅使用輸出的信息就可以估計(jì)當(dāng)前狀態(tài),則稱系統(tǒng)是可觀測的。”
那為什么近年來可觀測性的熱度不斷飆升,一度火熱出圈呢?
主要原因在于云原生時(shí)代下,系統(tǒng)復(fù)雜性的逐步增強(qiáng)。數(shù)字化浪潮推動(dòng),企業(yè) IT 業(yè)務(wù)開始向云上遷移,為提高遷移效率、運(yùn)行效率以及服務(wù)的靈活性,企業(yè)大多會(huì)采用多云/混合云架構(gòu),這將大大增加 IT 模型的復(fù)雜性。
過去簡單、變更不頻繁的單體式架構(gòu)可以使用監(jiān)控查看系統(tǒng)運(yùn)行狀態(tài),但隨著分布式架構(gòu)、云原生架構(gòu)的變遷,越來越多的新訴求開始逐步顯現(xiàn)。
用戶體驗(yàn)和應(yīng)用比以往任何時(shí)候都重要, 企業(yè)依賴于體系化的 IT 系統(tǒng)來實(shí)現(xiàn)增長。
數(shù)字化轉(zhuǎn)型過程中,應(yīng)用的數(shù)量、數(shù)據(jù)的體量、變化的頻率和增加的速度,都已經(jīng)遠(yuǎn)遠(yuǎn)超越了僅通過固定儀表盤就可以管理復(fù)雜 IT 系統(tǒng)的能力。
多云/混合云的部署模式都是容器化且動(dòng)態(tài)變化的, 容器創(chuàng)建的速度和規(guī)模及其生命周期,已超出數(shù)據(jù)中心時(shí)代管理邊界。
多種多樣的開發(fā)語言、運(yùn)行時(shí)以及當(dāng)前采用的支持軟件和數(shù)據(jù)庫等,都已經(jīng)超越了IT從業(yè)者的溝通界面,單獨(dú)的溝通形式難以滿足開發(fā)者之間的溝通需求。
企業(yè)資源是有限的, 不斷增加的系統(tǒng)復(fù)雜性、故障排查難度正在竊取企業(yè)的創(chuàng)新時(shí)間,消耗 IT 從業(yè)者的時(shí)間。
點(diǎn)亮監(jiān)控變革信號(hào)燈
企業(yè)上云或服務(wù)改造的過程中,通常會(huì)引入大量新興工具,服務(wù)業(yè)務(wù)爆炸性增長。云、微服務(wù)及容器的使用,將會(huì)對(duì) IT 運(yùn)維及數(shù)字化轉(zhuǎn)型帶來巨大挑戰(zhàn)。顯然,開源集成或傳統(tǒng)監(jiān)控工具的管理方式已不合時(shí)宜,難以助力企業(yè)的數(shù)字化轉(zhuǎn)型。
每位用戶每一秒的體驗(yàn)都非常重要,APM采樣方法無法做到全面、全量監(jiān)控。
微服務(wù)快速更新的需求會(huì)使得監(jiān)控的對(duì)象和指標(biāo)量呈指數(shù)級(jí)增長, 傳統(tǒng)方式難以實(shí)現(xiàn)海量數(shù)據(jù)的采集和分析。
相比傳統(tǒng)監(jiān)控,可觀測性的側(cè)重點(diǎn)不同。 傳統(tǒng)監(jiān)控是對(duì)被監(jiān)控設(shè)施所進(jìn)行的明確的、可預(yù)測的審視和度量,是為了提高系統(tǒng)可觀測性而使用的手段,注重現(xiàn)實(shí)狀態(tài)的變化。而可觀測性是一種方法,通過檢查系統(tǒng)的外部輸出衡量系統(tǒng)內(nèi)部狀態(tài)的能力,也是系統(tǒng)的核心能力。
因此,Gartner認(rèn)證的應(yīng)用性能管理(APM)解決方案提供商基調(diào)聽云認(rèn)為,可觀測性是 IT 建設(shè)過程中的必要手段。 在開發(fā)與維護(hù)的生命周期中,都應(yīng)具備可觀測性能力,動(dòng)態(tài)高效地定位并解決突發(fā)性問題,在系統(tǒng)不可用時(shí),快速了解問題現(xiàn)狀及原因,有效預(yù)防故障發(fā)生,而不是簡單地降級(jí)限流。
可觀測性構(gòu)建的正確打開方式
既然可觀測性相比傳統(tǒng)監(jiān)控體系具有諸多優(yōu)勢和價(jià)值,那么該如何構(gòu)建呢?首先需要了解一個(gè)優(yōu)秀的可觀測性平臺(tái)應(yīng)具備什么樣的能力:
全面、全量的數(shù)據(jù)采集能力,擴(kuò)大數(shù)據(jù)采集的廣度、深度及數(shù)量;
通過自動(dòng)化技術(shù)實(shí)現(xiàn)數(shù)據(jù)采集的可伸縮和完整性;
高基分析的能力;
超大規(guī)模實(shí)時(shí)計(jì)算能力;
多源集成能力;
基于AI和確定性因果關(guān)系的根因分析能力;
業(yè)務(wù)實(shí)時(shí)洞察能力。
基調(diào)聽云智能業(yè)務(wù)可觀測性平臺(tái)
不同企業(yè)訴求不同,又該如何快速構(gòu)建適合自身業(yè)務(wù)系統(tǒng)的可觀測性呢? 以基調(diào)聽云可觀測性平臺(tái)的發(fā)展為例,構(gòu)建完備的可觀測性平臺(tái)可以分三步走。
融匯:以用戶體驗(yàn)和業(yè)務(wù)為中心,夯實(shí)數(shù)據(jù)基礎(chǔ)
全面豐富的數(shù)據(jù)是一切分析工具及決策的來源,盡可能收集基礎(chǔ)數(shù)據(jù)將有利于后續(xù)分析,否則當(dāng)系統(tǒng)故障需要排查分析時(shí),將難以有效評(píng)估當(dāng)時(shí)的狀態(tài)。
為完善技術(shù)??捎^測性數(shù)據(jù)的采集能力,基調(diào)聽云以Tracing為核心,全面采集APP、Web、小程序及系統(tǒng)應(yīng)用的指標(biāo)數(shù)據(jù),以業(yè)務(wù)承載關(guān)系采集主機(jī)、云原生組件、數(shù)據(jù)庫、信息隊(duì)列指標(biāo)數(shù)據(jù)。
融合撥測平臺(tái)(STM)主動(dòng)采集可觀測性數(shù)據(jù);
OneSDK / OneJS 采集集DEM終端的性能,會(huì)話和行為可觀測數(shù)據(jù);
一體化 Agent 采集后端應(yīng)用性能、基礎(chǔ)組件及日志數(shù)據(jù),覆蓋從業(yè)務(wù)層、應(yīng)用層到云原生基礎(chǔ)資源層全量可觀測數(shù)據(jù)采集;
支持 OpenTelemetry,第三方 APM 數(shù)據(jù)接入,指標(biāo)體系基于 OpenMetrics 實(shí)現(xiàn)廣泛第三方可觀測性指標(biāo)及元數(shù)據(jù)的接入。
融通:注重?cái)?shù)據(jù)的治理與應(yīng)用,數(shù)據(jù)關(guān)聯(lián)豐富化
眾所周知,傳統(tǒng)意義上可觀測性有三大支柱:Metrics 、Logging、Tracing,但割裂、無關(guān)聯(lián)的數(shù)據(jù)會(huì)對(duì)數(shù)據(jù)檢索帶來嚴(yán)峻的挑戰(zhàn),更難進(jìn)一步定位根因。
基調(diào)聽云將用戶體驗(yàn)、Metrics 、Logging、Tracing為可觀測性的四大支柱,重點(diǎn)關(guān)注用戶體驗(yàn)數(shù)據(jù),以Tracing為核心,連通Mertrics、Logs 數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)分析、統(tǒng)一建模與轉(zhuǎn)化關(guān)聯(lián),做到問題的精準(zhǔn)定位與數(shù)據(jù)的精準(zhǔn)檢索,有效解決傳統(tǒng)監(jiān)控的數(shù)據(jù)孤島問題。
以 Tracing 為核心融合可觀測性三大支柱
此外,基調(diào)聽云通過實(shí)時(shí)的業(yè)務(wù)洞察、業(yè)務(wù)影響及流程分析,實(shí)現(xiàn)性能數(shù)據(jù)與客戶業(yè)務(wù)數(shù)據(jù)的有機(jī)結(jié)合, 讓 IT 和業(yè)務(wù)在同一套平臺(tái)下協(xié)作,這也是基調(diào)聽云可觀測性平臺(tái)的核心競爭力之一。
如上圖所示,通過指標(biāo)與 Tracing 的結(jié)合可以對(duì) VIP 用戶進(jìn)行識(shí)別,設(shè)置 VIP 用戶的業(yè)務(wù)性能閾值,最終實(shí)現(xiàn) VIP 用戶的告警和體驗(yàn)保障。
融智:多元數(shù)據(jù)整合,增強(qiáng)數(shù)據(jù)應(yīng)用能力及可觀測性
智能化技術(shù)在可觀測性數(shù)據(jù)分析中的作用不可或缺,可觀測性的數(shù)據(jù)只有被關(guān)聯(lián)起來一起分析時(shí)才能發(fā)揮出它們最大的價(jià)值,但可觀測性的數(shù)據(jù)是海量的,只靠人力分析、運(yùn)維很難全面考慮,而人工智能算法是當(dāng)前處理海量數(shù)據(jù)最有希望的方法。
此外,智能化技術(shù)在云原生系統(tǒng)運(yùn)維中還將作為可觀測性的重要補(bǔ)充,發(fā)揮不可替代的作用,通過引入 AI 算法模型和機(jī)器學(xué)習(xí),整合原有數(shù)據(jù),可以進(jìn)一步增強(qiáng)可觀測能力,如使用 AI 進(jìn)行容量預(yù)測,提前發(fā)現(xiàn)系統(tǒng)性能容量瓶頸,實(shí)現(xiàn)故障發(fā)現(xiàn)與預(yù)防。
智能故障管理
可觀測性體系的實(shí)踐案例
案例一:常見場景之客戶投訴
任何行業(yè)都有可能遇到客戶投訴的場景,面對(duì)客戶投訴,在使用可觀測性平臺(tái)的情況下,只需知道一個(gè)用戶標(biāo)識(shí)即可輕松查詢相關(guān)信息。
相較傳統(tǒng)監(jiān)控將信息傳給運(yùn)維部門,再由研發(fā)人員檢索日志的方式,使用可觀測性平臺(tái)能夠大大提升檢索效率,減少時(shí)間成本。此外,除了快速響應(yīng)客戶投訴解決問題外,還能夠通過對(duì)投訴時(shí)間段內(nèi)所觀測信息的分析復(fù)盤,挖掘深層次的原因并掌握故障的影響范圍。
案例二:某大型銀行可觀測性實(shí)踐
隨著應(yīng)用系統(tǒng)架構(gòu)由傳統(tǒng)向新的架構(gòu)平臺(tái)轉(zhuǎn)換,硬件架構(gòu)由獨(dú)立服務(wù)器向虛擬資源池、容器環(huán)境轉(zhuǎn)換,某大型銀行面臨監(jiān)控?cái)?shù)據(jù)割裂,缺乏端到端應(yīng)用性能觀測手段、用戶體驗(yàn)觀測手段亟待建設(shè)等諸多業(yè)務(wù)挑戰(zhàn)。
如上圖所示,融合基調(diào)聽云SDK、SkyWalking和 OpenTelemetry 的調(diào)用連數(shù)據(jù),通過抽取鏈路指標(biāo)、關(guān)聯(lián)日志,實(shí)現(xiàn)可觀測數(shù)據(jù)的關(guān)聯(lián)融合。通過UserId及 TraceId的關(guān)聯(lián),實(shí)現(xiàn)端到端的交易全鏈路問題追溯;通過基于真實(shí)用戶的用戶旅途,還原用戶會(huì)話行為;通過異常檢測、相關(guān)性分析和根因分析,實(shí)現(xiàn)IT系統(tǒng)問題的根因定位。
案例三:某運(yùn)營商可觀測性建設(shè)
面對(duì)運(yùn)營商缺少統(tǒng)一的DevOps監(jiān)控工具、缺乏全鏈路調(diào)用追蹤和故障異常快速分析手段、難以保障重大體育賽事直播等種種業(yè)務(wù)挑戰(zhàn),基調(diào)聽云從容迎戰(zhàn)。
通過基調(diào)聽云智能可觀測性平臺(tái),將聽云APM監(jiān)控、Zabbix基礎(chǔ)監(jiān)控、日志易日志監(jiān)控有機(jī)集合,實(shí)現(xiàn)一體化可觀測平臺(tái)。
最終該運(yùn)營商從容地支撐了高達(dá)70萬tps的業(yè)務(wù)峰值,在國家級(jí)奧運(yùn)盛事的直播期間,經(jīng)第三方中立機(jī)構(gòu)評(píng)測,用戶體驗(yàn)性能得分第一。
案例四:某頭部城商行可觀測性一體化平臺(tái)建設(shè)
某銀行隨著信息科技系統(tǒng)架構(gòu)日趨復(fù)雜、 客戶人數(shù)急劇增長,對(duì)需求快速交付,系統(tǒng)的穩(wěn)定性、高效性、服務(wù)水平等方面都提出了更高的要求。
針對(duì)該銀行對(duì)實(shí)現(xiàn)管理對(duì)象統(tǒng)一調(diào)度、數(shù)據(jù)統(tǒng)一加工、工具統(tǒng)一治理,以及統(tǒng)一采控、統(tǒng)一數(shù)據(jù)、工具打通,優(yōu)先解決故障告警分析的需求,基調(diào)聽云從多個(gè)方面助力改造:
通過可觀測性一體化平臺(tái)對(duì)接已有各專業(yè)運(yùn)維工具,形成一體化的智能運(yùn)維平臺(tái),提升系統(tǒng)運(yùn)行狀態(tài)感知能力,問題分析定位,應(yīng)急處置能力,并提供統(tǒng)一運(yùn)維門口,提升運(yùn)維效率和業(yè)務(wù)連續(xù)性服務(wù)水平;
通過可觀測性一體化平臺(tái)構(gòu)建智能運(yùn)維大數(shù)據(jù)平臺(tái),提供運(yùn)維管理數(shù)據(jù)加工,指標(biāo)體系計(jì)算能力,性能容量分析能力,業(yè)務(wù)系統(tǒng)健康度分析能力,智能告警分析能力;
通過可觀測性一體化平臺(tái)建設(shè)以用戶旅程為抓手的業(yè)務(wù)體驗(yàn)端到端可觀測體系,為提升用戶體驗(yàn)、系統(tǒng)健壯性提供支撐。
可觀測性的用武之地才剛剛開始
龐大的數(shù)據(jù)量,系統(tǒng)架構(gòu)的演化,讓容器、數(shù)據(jù)之間的關(guān)系變得錯(cuò)綜復(fù)雜,故障排查棘手,此時(shí)打造具備可觀測性的系統(tǒng)成為應(yīng)對(duì)之策。
可觀測性是云原生時(shí)代下能夠聯(lián)動(dòng) IT 與業(yè)務(wù)的能力,它本質(zhì)上符合云原生環(huán)境以業(yè)務(wù)應(yīng)用為核心的趨勢。從監(jiān)控到可觀測性的發(fā)展,拓寬了傳統(tǒng)監(jiān)控的能力邊界,打破了傳統(tǒng)被動(dòng)監(jiān)控方式,形成了主動(dòng)、全局式的統(tǒng)一智能觀測能力,更有利地幫助我們掌握系統(tǒng)健康程度。
未來,隨著云原生的快速發(fā)展,可觀測性的發(fā)展?jié)摿薮?,其用武之地才剛剛開始。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!