我認為,在未來 3 年內,這三個類別——APM、監(jiān)測/指標、日志,可能還有其他類別——都可能不復存在。將只存在一個類別:可觀測性。并且它將包含您需要了解的,系統(tǒng)可以進入任何狀態(tài)所需的所有見解。
——Charity Majors, CEO Honeycomb
近日,由中國信通院發(fā)布的《中國數(shù)字經(jīng)濟發(fā)展報告(2022年)》數(shù)據(jù)顯示,中國數(shù)字經(jīng)濟發(fā)展始終呈現(xiàn)穩(wěn)中向好的發(fā)展態(tài)勢,產(chǎn)業(yè)規(guī)模持續(xù)快速增長,已數(shù)年穩(wěn)居世界第二。在 2021 年,中國數(shù)字經(jīng)濟規(guī)模已超 45 萬億元,占國內生產(chǎn)總值 39.8%,在國民經(jīng)濟中的地位更加穩(wěn)固、支撐作用更加明顯。
在產(chǎn)業(yè)數(shù)字化轉型提速升級過程中,基于云計算的技術創(chuàng)新與產(chǎn)品應用起到了重要作用,從底層的基礎設施框架,到上層的業(yè)務流程定義,都在持續(xù)進化并已顛覆很多傳統(tǒng)思維與模式。今年,又誕生許多新熱點技術和方法,「可觀測性」(Observability)成為其中佼佼者之一。

日趨成熟的可觀測性工具,配合已實踐多年的「系統(tǒng)可靠性工程」(SRE),打破了對原有開發(fā)運維體系的認知瓶頸。系統(tǒng)本身是否具備可觀測性,和是否有合適的可觀測方案守護,已成為能否保障系統(tǒng)穩(wěn)定性的最關鍵前提。運維不再限制于僵化的變更流程,開發(fā)可以隨時享受可編程基礎設施帶來的便利,測試和安全加固貫穿整個開發(fā)運維過程,系統(tǒng)所有的實時運行狀態(tài)都盡在掌控,潛在的風險可被提前預測,用數(shù)字化的手段,才是管理數(shù)字系統(tǒng)的最佳方案。
大型企業(yè)或可憑借自身強大的技術實力與持續(xù)性的產(chǎn)研投入,自建一套全鏈路可觀測平臺,但即便如此,隨著應用不斷迭代,或技術棧版本快速更新,仍要面對頻繁調整監(jiān)測參數(shù)的巨大工作量;若中小企業(yè)或初創(chuàng)團隊,僅建設這樣一套全鏈路可觀測平臺,就已大大超出其技術和運維能力承受范圍。

8 月 27 日,觀測云首席布道師——吳亞昆作為「DataFunSummit2022:數(shù)據(jù)治理在線峰會」的「數(shù)據(jù)可觀測性」主題論壇出品人,特別邀請到了觀測云、睿象云、貨拉拉、中國 SRE 聯(lián)盟、阿里云、同創(chuàng)永益等業(yè)內知名企業(yè)和團隊的技術專家,在線分享討論具備代表性的超大平臺可觀測性解決方案與行業(yè)實踐,以及如何讓初創(chuàng)企業(yè)也能開啟全面可觀測能力的落地場景。
觀測云與合作伙伴的應用實踐探索
1、睿象云:告警,為可觀測性平臺分析提供可靠「現(xiàn)象」
睿象云技術總監(jiān)王金良從可觀測性的整體形態(tài)出發(fā),圍繞告警在可觀測系統(tǒng)的核心功能、價值和最佳實踐展開,發(fā)表《可觀測系統(tǒng)中的告警管理實踐》主題分享。
王金良表示,可觀測性并不是在取代監(jiān)控,它更像是描述一種屬性的范疇,是一種能力的體現(xiàn)形式,越復雜的系統(tǒng)越需要這種屬性或能力。

告警作為 IT 運維信號總量的金字塔尖,對于可觀測性接下來的流轉及判斷起著至關重要作用。而統(tǒng)一的、準確的、智能化的告警平臺的誕生,為可觀測性平臺的分析,提供了更為可靠的「現(xiàn)象」,可幫助運維人員接下來分析原因引導方向。
2、 觀測云:數(shù)據(jù)治理視角下的可觀測性
觀測云高級技術專家張?zhí)锇l(fā)表《數(shù)據(jù)治理視角下的可觀測性》主題分享,并以數(shù)據(jù)資產(chǎn)管理場景為例,深入淺出地闡述可觀測性對系統(tǒng)穩(wěn)定運行的重要性。
張?zhí)锉硎荆缚捎^測性」表示收集一個系統(tǒng)的所有指標、日志以及鏈路追蹤數(shù)據(jù),并通過一定的治理手段使這些數(shù)據(jù)有機結合,以合適的方式呈現(xiàn)出來,最終幫助用戶更好地來理解和解釋系統(tǒng)當前所處的狀態(tài)。

以數(shù)據(jù)資產(chǎn)管理場景為例,治理后資產(chǎn)用什么方式對上層應用提供服務,這些對外服務如何管控,誰使用了數(shù)據(jù),用了多少數(shù)據(jù),使用體驗如何,都是對治理效果的一次定量化衡量。這個衡量過程的核心就是系統(tǒng)的可觀測性。觀測云目前的統(tǒng)一可觀測能力已經(jīng)非常成熟,實現(xiàn)這個能力的基礎就是數(shù)據(jù)關聯(lián),做到統(tǒng)一數(shù)據(jù)展示、數(shù)據(jù)查詢、數(shù)據(jù)分析與數(shù)據(jù)報表展示。
3、貨拉拉:依托強大的技術團隊,實現(xiàn)全鏈路可視化監(jiān)控
在本期主題論壇現(xiàn)場,貨拉拉架構師曹偉帶來《貨拉拉全鏈路監(jiān)控的落地與實踐》精彩主題分享。
曹偉介紹道,貨拉拉成立于 2013 年,是互聯(lián)網(wǎng)貨運物流市場中的頭部品牌,隨著貨拉拉的業(yè)務規(guī)模不斷壯大,原來的系統(tǒng)架構已無法滿足業(yè)務需求,因此自 2020 年起,貨拉拉便著手對業(yè)務系統(tǒng)監(jiān)控全面改革。
依托強大的技術團隊和深厚的技術積累,歷經(jīng)兩年重重測試與不斷調整,貨拉拉串聯(lián) Metric、Trace、Log 和業(yè)務,實現(xiàn)全鏈路可視化監(jiān)控閉環(huán),完成「所見即所得」的監(jiān)控可視化建設。

曹偉現(xiàn)場表示,貨拉拉自研的可觀測系統(tǒng)得益于公司多年深厚的技術積累和研發(fā)恒心,目前貨拉拉監(jiān)控 3.x 已實現(xiàn)快速定位、全局穩(wěn)定性、微服務治理、高 ROI 等效果,未來將對自研存儲、根因分析、指標告警聯(lián)動、服務拓撲、回饋開源社區(qū)等方面持續(xù)投入。
4、 中國 SRE 聯(lián)盟 :首席布道師劉峰 , SRE 的核心理念與可觀測性
在本次「數(shù)據(jù)可觀測性」主題論壇直播間,中國 SRE 聯(lián)盟首席布道師劉峰為觀看直播的觀眾帶來《SRE 的核心理念與可觀測性》精彩主題演講。
劉峰表示,分布式、復雜的服務以不可預測的用戶和可變吞吐量大規(guī)模運行,這意味著有數(shù)百萬種不同的方法出錯,但卻不能預測它們,將服務的所有輸出外部化,使我們能夠推斷該服務的內部狀態(tài),即服務的可觀測性是建設云時代 IT 系統(tǒng)時的剛需。伴隨 DevOps、SRE 的全面到來和技術棧持續(xù)升級迭代,可觀測性與 SRE 工程 、開發(fā)和運維、應用與系統(tǒng)環(huán)境、軟件工程與系統(tǒng)工程等之間逐漸形成引入和推動的「奇點」效應:同根同源,共生共進;無中生有,有中生新。

SRE 工程、可觀測性技術與應用實踐的最終目的,都是通過新興科學技術構建穩(wěn)定的系統(tǒng),用可靠的服務提升企業(yè)交付價值,助力數(shù)字化業(yè)務增長。
5、SLS:云原生可觀測平臺,助力業(yè)務數(shù)字化創(chuàng)新
隨著云計算技術不斷升級,承載業(yè)務的 IT 基礎設施規(guī)模擴大,各個應用之間的鏈路關系變得越來越復雜,每時每刻都在產(chǎn)生海量級的日志。對日志數(shù)據(jù)的采集、存儲與分析處理方式,是衡量企業(yè)系統(tǒng)數(shù)字化程度的重要標志。

來自阿里云的智能產(chǎn)品專家孟威表示,面對業(yè)務數(shù)字化,傳統(tǒng)的 IT 運維方案存在多種挑戰(zhàn),需要能打通可觀測數(shù)據(jù),快速根因診斷與問題定位,方便易用的新一代運維方案。日志服務 SLS,可提供一站式日志數(shù)據(jù)采集、加工、查詢與分析、可視化、告警、消費與投遞等功能,全面提升研發(fā)、運維、運營、安全等場景的數(shù)字化能力。
6、同創(chuàng)永益:數(shù)字韌性,數(shù)字化業(yè)務連續(xù)性下一站
同創(chuàng)永益鄭陽作為最后一位嘉賓出場,帶來《數(shù)字韌性:數(shù)字化業(yè)務連續(xù)性下一站》主題分享。
鄭陽表示,企業(yè)上云在為業(yè)務增長帶來提升的同時,也帶來了新的風險與挑戰(zhàn)。伴隨業(yè)務云化程度加深,最大的挑戰(zhàn)就是系統(tǒng)鏈路的復雜性,一個小的變更就有可能觸發(fā)大面積的系統(tǒng)混亂、故障和服務中斷。

混沌工程的出現(xiàn),讓人們對復雜分布式系統(tǒng)在生產(chǎn)環(huán)境中抵御突發(fā)事件的能力有了信心。利用混沌工程可驗證、保障系統(tǒng)穩(wěn)定性,比如在 Kubernetes 平臺上快速驗證其高可用性、彈性、可觀測性。
縱觀全國上下各企業(yè)的可觀測性建設,目前普遍處于探索階段,但站在中國可觀測性的起點,從技術范式顛覆的視角來看,系統(tǒng)的可觀測性將成為企業(yè)數(shù)字化轉型的典型特征。
中國的可觀測性始于觀測云
作為中國可觀測性領域的領頭羊,觀測云自今年 4 月正式發(fā)布以來,已榮獲中國信通院頒發(fā)的「可觀測性平臺技術能力」最高級別「先進級」認證、可信云企業(yè)級 SaaS 服務認證等多項國家級獎項,入選 CNCF 云原生全景圖的 Observability and Analysis 板塊,全面兼容 OpenTelemetry,數(shù)據(jù)接口全部開放。此外還提供強大的自定義編程功能,可接入物聯(lián)網(wǎng)、云平臺賬單等各種跨平臺數(shù)據(jù)源。


除提供開源組件外,觀測云還支持 SaaS 版按量計費模式,以及全功能的,可以本地部署的「社區(qū)版」供廣大技術愛好者免費試用體驗,極大降低了可觀測能力平臺的建設門檻,讓初創(chuàng)團隊甚至個人,都可以快速體驗到最先進和完整的可觀測能力。

聰明的團隊會觀測 ,一個成熟的技術團隊就應該掌握通過數(shù)據(jù)視角去分析問題,統(tǒng)一地建立整個系統(tǒng)可觀測性是 DevOps 和 SRE 能夠落地的充分必要條件。
觀測云始終堅持以數(shù)據(jù)為核心、價值為驅動,秉承開放創(chuàng)新發(fā)展的理念,持續(xù)增強技術與產(chǎn)品研發(fā)投入,提供優(yōu)質的可觀測性產(chǎn)品體驗,助力企業(yè)、技術團隊及個人系統(tǒng)的可觀測性系統(tǒng)建設,為企業(yè)數(shù)字化轉型提供最大化的價值,并攜手各方生態(tài)合作伙伴,共同為中國可觀測性的發(fā)展貢獻力量。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!