當前位置:首頁 >  IDC >  云計算 >  正文

濟南超算×青云科技:多元異構算力平臺建設與運營實踐

 2023-10-20 17:59  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

青云科技(qingcloud.com) AI 算力發(fā)布會上,國家超級計算濟南中心(下文簡稱:濟南超算)總工程師王繼彬博士圍繞算力平臺建設與運營主題做了精彩分享。

以下為演講全文,經(jīng)整理:

濟南超算

發(fā)展概況&建立歷程

濟南超算由國家科技部批準成立,創(chuàng)建于 2011 年 10 月,同時落地國內第一臺采用完全自主處理器的超級計算機。

其發(fā)展歷程主要包括五個階段:

2011 年:濟南超算成立并落地“神威·藍光”超級計算機。

2018 年:研制“神威 E 級原型機”讓整體算力實現(xiàn) 3 倍提升。

2019 年:在省市支持下成立了首個以超算為主題的科技園區(qū),主要布局超算應用生態(tài)做相關產業(yè)升級。

2021 年:上線山河超級計算機,主要圍繞通用超算的應用場景構建。

2022 年:發(fā)布新一代“神威·藍光 Ⅱ”超級計算機,實現(xiàn)核心部件完全國產化,整體算力達到 14PFlops。

 

在組織架構上,濟南超算有學術委員會和主任委員會,同時下設三個部門:業(yè)務支撐部門、科研團隊,另落地兩個相關科研平臺。

圍繞成果轉化濟南超算孵化了一系列相關企業(yè),譬如與青云科技聯(lián)合成立了泉云智慧公司,主打算力服務及其相關產品。在科創(chuàng)平臺建設上基于實驗室、技術中心、創(chuàng)新平臺擁有豐富的資源支撐,主要圍繞云計算、大數(shù)據(jù)、人工智能、高性能計算四個方向展開。同時濟南超算多次獲得省級科技進步獎,斬獲 Top500、國內 HPC Top100、國際人工智能算力 AIPerf500 等多項榮譽。

算力資源建設

融合發(fā)展&科學運營

濟南超算資源平臺建設規(guī)劃主要圍繞五個平臺:高性能計算、人工智能計算、云計算、工業(yè)仿真計算、數(shù)據(jù)存儲與災備平臺。

以多計算集群融合發(fā)展的思路,濟南超算目前人工智能計算集群達 1000 PFlops,超 2500 個節(jié)點,其中人工智能和云計算集群都按照混合異構方式構建。具體來看,超級計算集群不僅在 2022 年落地了“神威·藍光Ⅱ”超級計算機,整體算力約 14PFlops,這是采用新一代國產自主處理器構建千萬億次的國產超級計算機。還落地了面向通用應用場景的山河超級計算集群,整體集群算力達到 60PFlops,存儲容量達到 17PFlops,數(shù)據(jù)傳輸帶寬達到 1TB。

山河超級計算集群

計算資源:山河超級計算集群高性能計算資源超 50 萬物理核心,為適應特殊行業(yè)領域計算規(guī)劃建設了大內存節(jié)點,單節(jié)點內存可達 1.5TB,云計算集群實現(xiàn)從 IaaS、PaaS 到 SaaS 全方位覆蓋,提供超 60 種云服務。

云服務:山河超級計算集群與青云聯(lián)合打造,主要圍繞超算使用場景和人工智能場景進行規(guī)劃,整個人工智能集群超過 850PFlops。

網(wǎng)絡建設資源:山河超級計算集群與青云合作打造基于 SD-WAN 網(wǎng)絡接入的方式,對外互聯(lián)網(wǎng)出口網(wǎng)絡帶寬超 15Gbps,同時在構建山東省 16 地市網(wǎng)絡算力方面做了大量工作。

存儲資源:目前總存儲資源超 245PB,其中 17PB 是用于山河超級計算機配套使用的全閃并行文件存儲,支持傳統(tǒng)文件存儲、對象存儲和云計算里的塊存儲以及大數(shù)據(jù)存儲。

高性能計算節(jié)點:山河超級計算主要圍繞科學計算集群、工程計算集群和數(shù)據(jù)計算集群三個集群打造,加上“神威·藍光Ⅱ”超級計算機共有四個集群。

通過與青云合作建設 AI 計算節(jié)點,濟南超算針對已有四款集群做了融合和調度,與青云基于數(shù)據(jù)中心的物聯(lián)網(wǎng)平臺聯(lián)合打造了邊緣推理。目前,山河超級計算的云計算節(jié)點超 2500 個,整體提供的業(yè)務規(guī)模超 4 萬臺,得益于青云提供的相關支持還配套了超 5000 臺云桌面。同時山河超級計算平臺連續(xù)兩年參加 IO 500 榜單相關的測試打榜工作,并取得全球第一的成績,印證了其硬件配置高,配套軟件彈性伸縮、調度能力優(yōu)秀。

  濟南超算科技園區(qū)

2019 年在省市的支持下,濟南超算建設了國家超級計算濟南中心科技園區(qū),地處齊魯科創(chuàng)大走廊和山東自由貿易區(qū)交叉區(qū)域,可以非常便捷地服務周邊企業(yè)及科研院所,滿足其算力資源需求。濟南超算數(shù)據(jù)中心建筑面積達 4 萬平米,共建設了 21 個機房(包含 5 個 A 類機房、16 個 B 類機房),規(guī)劃了 2700 個機柜數(shù)。針對 AI 算力對單機柜功率的高要求,濟南超算機柜過半比例為高功率,主要分為 20 千瓦、35 千瓦和 50 千瓦三檔(傳統(tǒng) IDC 一般為 7 千瓦、3.5 千瓦和 5 千瓦),因此濟南超算數(shù)據(jù)中心在承載 AI 算力、高性能算力上具有非常大的優(yōu)勢。

同時濟南超算科技園區(qū)建設了大量公共空間和相關辦公環(huán)境,超 12 個培訓教室、大中型報告廳、休閑區(qū)域,非常適合做聯(lián)合科研創(chuàng)新、研發(fā)工作的企業(yè)。

算力網(wǎng)絡建設

多方攜手&逐步構建

  算力網(wǎng)絡建設發(fā)展歷程

濟南超算在算力網(wǎng)絡方面起步較早,整體圍繞六個方向規(guī)劃:算網(wǎng)基礎設施方面、算網(wǎng)操作系統(tǒng)方面(與青云聯(lián)合研發(fā)工作)、算網(wǎng)應用方面(青云參與輔助支撐)、算力安全、算力網(wǎng)絡安全、算網(wǎng)標準規(guī)范。

整個濟南超算的算力網(wǎng)絡建設內部命名為“山東超算互聯(lián)網(wǎng)建設”,發(fā)展歷程大致如下:

2017 年:在全國超算中心 CEO 聯(lián)席會議上提出,想構建一個全國性的超算互聯(lián)網(wǎng)絡。

2018 年:開始實施規(guī)劃并與青島海洋科學實驗室合作項目。

2019 年:立項重點支持超算互聯(lián)網(wǎng)建設。

2021 年:項目驗收并圍繞超算互聯(lián)網(wǎng)的關鍵技術做相關研發(fā)工作。

2022 年:第二期超算互聯(lián)網(wǎng)建設立項,同時山東省基于整個超算互聯(lián)網(wǎng)絡專門給濟南超算立項,支持山東超算互聯(lián)網(wǎng)的關鍵技術專項。

總體來說,濟南超算在整個算力網(wǎng)絡建設上積累了豐富經(jīng)驗與成果。

 

  山東超算互聯(lián)網(wǎng)從 2019 年規(guī)劃,分三期建設:第一期:與青島海洋實驗室合作驗證性網(wǎng)絡建立了"同城兩地三中心"架構,實現(xiàn)濟南超算濟南市運營的兩個數(shù)據(jù)中心互聯(lián),并與青島海洋實驗室遠距互聯(lián),在此之上構筑算力應用并做驗證。第二期:構建山東 16 地市的“山東算網(wǎng)”2022 — 2023 年底計劃在科研、教育、工業(yè)、民生等領域的算力應用開展落地、實施和驗證工作。第三期:構筑 5ms 算力圈到 2025 年主要基于濟南超算目前 16 地市的建設經(jīng)驗打造面向黃河流域算力平臺構筑 5ms 算力圈。

  算力網(wǎng)絡建設發(fā)展現(xiàn)狀

基于整個山東超算互聯(lián)網(wǎng)建設歷程,濟南超算針對原有算力網(wǎng)絡標準體系,根據(jù)自身理解做了定義,認為整個算力節(jié)點分為三種:一、傳統(tǒng)算力節(jié)點:主要提供算力服務。二、存力節(jié)點:主要提供多元存儲服務。三、網(wǎng)絡結點:主要提供網(wǎng)絡服務,如網(wǎng)絡加速、網(wǎng)絡接入、VPN、高速直連通道、邊緣應用加速。

  另外針濟南超算對整個算力節(jié)點做了“算網(wǎng)定義”,即在算力網(wǎng)絡上存在四張網(wǎng):生產網(wǎng)、傳輸網(wǎng)、配給網(wǎng)、終端網(wǎng),并按照三類節(jié)點構建(核心、骨干和邊緣)來承載這四張網(wǎng),其中核心節(jié)點是濟南、青島和棗莊,骨干上覆蓋了剩下的 13 個地市以及涉及地市的邊緣節(jié)點,整體組網(wǎng)拓撲采用了“星型”組網(wǎng)的建設方式。目前核心節(jié)點濟南和青島已經(jīng)建設完成,采用 100Gbps 網(wǎng)絡建設,剩下 14 個地市大多按照骨干節(jié)點、10Gbps 全光互聯(lián)的方式建設,還有一些邊緣節(jié)點有 1Gbps 和幾百兆的帶寬。具體實施上,濟南超算采用全光的 OTN 的方式構建,可靈活調整帶寬,實現(xiàn)極低延遲。

  算力網(wǎng)絡建設未來構想

由于建設項目的要求,目前實施仍按照“星型”模式,預計 2023 年底能調成環(huán)網(wǎng),因為網(wǎng)狀的結構相對更靈活,延遲更低。同時在建設時為濟南和棗莊預留了算力網(wǎng)絡接入?yún)^(qū),方便未來濟南往北對接京津冀算力圈,棗莊對接長三角的算力集群。

未來濟南超算也將繼續(xù)積極參與各類算網(wǎng)項目,目前已作為成員單位參與科技部牽頭的中國超算互聯(lián)網(wǎng),并在“東數(shù)西算”網(wǎng)絡方面成立了黃河流域算力聯(lián)盟,未來還將逐步構建連接黃河流域的國家級“東數(shù)西算”樞紐。

全算力服務

支持諸多科研&商業(yè)場景

濟南超算作為公共服務平臺,圍繞山東省產業(yè)和山東規(guī)劃建設的大科學計劃、大科學工程展開算力服務。

  傳統(tǒng)超算涉及的新能源、仿真、石油、高端農機裝備、新材料、海洋、藥物、化工、天文觀測、衛(wèi)星遙感等領域生態(tài)建設已較成熟,濟南超算自 2011 年開始圍繞國產超算平臺構建自主可控的超算應用生態(tài),2022 年上線自主可控的超算軟件生態(tài)平臺,主要為電池、材料、海洋、醫(yī)療、核能、環(huán)保、生態(tài)保護、石油勘探等行業(yè)提供基礎庫與軟件平臺。

生態(tài)環(huán)境方面

濟南超算運營國家生態(tài)環(huán)境大數(shù)據(jù)超算云中心開展很多國家生態(tài)環(huán)保、特別是空氣質量預測預報工作,支撐了部分國家重大活動,譬如服務山東本地空氣質量業(yè)務平臺。超算云中心得益于青云科技提供的許多支撐,自 2021 年底上線運行至今都相當穩(wěn)定。

工業(yè)互聯(lián)網(wǎng)方面

濟南超算在高鐵氣動仿真平臺上做得相對較早,也是自身比較擅長的領域。目前圍繞超算互聯(lián)網(wǎng)山東算網(wǎng)工程與省內工業(yè)企業(yè)合作,今年在鋼鐵行業(yè)做了相關計算工作。圍繞“黃河戰(zhàn)略”的場景涉及大量數(shù)據(jù)和模型相關的融合場景,智慧黃河模擬器內部還在研發(fā),作為底層基礎設施平臺青云調度能力在整個數(shù)據(jù)采集、數(shù)據(jù)流轉方面發(fā)揮了作用。

智慧政務業(yè)務方面

濟南超算為山東數(shù)字政府提供云計算服務,資源調度方面與青云科技合作,針對目前政務云的云計算資源池,與高性能計算、人工智能計算的集群之間實現(xiàn)了算力資源的彈性擴展。在山東省生態(tài)環(huán)保業(yè)務平臺時,其需要高性能計算算力,但政務云的傳統(tǒng)云計算平臺里很少規(guī)劃高性能計算,得益于濟南超算有獨立的高性能計算池因此實現(xiàn)了政務云資源池和山河高性能計算資源池之間的彈性資源擴展,可以支持山東環(huán)保業(yè)務平臺需要高性能計算業(yè)務時自動彈到高性能計算池,相反如果沒有需求時可自動收縮。

智慧醫(yī)療方面

濟南超算按照“云、邊、端”形式,與國家醫(yī)療大數(shù)據(jù)北方中心、省千佛山醫(yī)院等單位合作,研發(fā)了在線遠程標注、推理等相關場景。

對地觀測方面

濟南超算與空天院深度合作,建設濟南到北京的遙感專線,用于匯聚遙感數(shù)據(jù)。同時計算集群支撐針對遙感數(shù)據(jù)的分析處理,與青云合作數(shù)據(jù)流轉平臺用于數(shù)據(jù)無縫流轉,特別是處理后的數(shù)據(jù)。

智慧教育方面

基于青云的底層平臺,濟南超算做了像教學實訓類業(yè)務,并從已經(jīng)服務的 7、8 所大學向全國推廣,可以提供虛擬機、容器集中服務,基于青云提供的底座有效支撐了整個業(yè)務應用需求,在疫情期間在線教學上發(fā)揮了很大作用。

人工智能平臺建設方面

濟南超算依托青云以及其他合作伙伴共同推進自然語言巨量模型訓練的相關工作,去年在國家高考語文閱讀理解、作文上可以看到平臺訓練出來的模型整體效果優(yōu)秀,青云科技平臺就其中涉及的存儲數(shù)據(jù)流轉、AI 算力調度提供了強有力的支撐保障。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

熱門排行

信息推薦