8月30日,阿里云宣布正式啟動(dòng)張北超級(jí)智算中心,總建設(shè)規(guī)模為12 EFLOPS(每秒1200億億次浮點(diǎn)運(yùn)算)AI算力,將超過谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成為全球最大的智算中心,可為AI大模型訓(xùn)練、自動(dòng)駕駛、空間地理等人工智能探索應(yīng)用提供強(qiáng)大的智能算力服務(wù)。
該智算中心由飛天智算平臺(tái)支撐建設(shè),以先進(jìn)的技術(shù)架構(gòu),將衡量算力效率的核心指標(biāo)“千卡并行計(jì)算效率”,從傳統(tǒng)架構(gòu)的40%提升至90%,可將算力資源利用率提高3倍以上,AI訓(xùn)練效率提升11倍,推理效率提升6倍。
同期,阿里云正式對(duì)外開放這座超級(jí)智算中心的技術(shù)底座“飛天智算平臺(tái)”,可通過公共云和專有云的模式服務(wù)于各類企業(yè)機(jī)構(gòu),并同步啟動(dòng)另一座位于烏蘭察布的智算中心,建設(shè)規(guī)模為3 EFLOPS(每秒300億億次浮點(diǎn)運(yùn)算)AI算力。
兩座超級(jí)智算中心能夠?qū)崿F(xiàn)規(guī)模和效率的突破,是自大數(shù)據(jù)AI一體化平臺(tái)到算力基礎(chǔ)設(shè)施體系化技術(shù)創(chuàng)新的結(jié)果。傳統(tǒng)智算中心達(dá)到一定規(guī)模之后,增加算力資源反而會(huì)降低算力輸出的能力。阿里云通過體系化的核心技術(shù)自研,改變了智能計(jì)算的損耗難題。
例如,在通信技術(shù)上,阿里云采用高性能自研Solar-RDMA網(wǎng)絡(luò),實(shí)現(xiàn)端對(duì)端最低2微秒延遲,配合阿里云自研的無阻塞通信技術(shù),讓計(jì)算過程中的數(shù)據(jù)交換速度提升了5倍以上。同時(shí),自然風(fēng)冷、液冷等綠色技術(shù)的應(yīng)用,讓智算中心的能耗降低,PUE最低可達(dá)1.09。
據(jù)介紹,這兩座超大規(guī)模的智算中心正在服務(wù)于AI大模型訓(xùn)練、遙感探測(cè)、數(shù)字人、自動(dòng)駕駛、生命科學(xué)、新藥研發(fā)、元宇宙等前沿智能應(yīng)用。其中,小鵬汽車基于飛天智算將自動(dòng)駕駛模型訓(xùn)練提速近170倍。深勢(shì)科技采用飛天智算讓分子動(dòng)力學(xué)仿真模擬訓(xùn)練效率提升了5倍。