隨著全球智算集群規(guī)??缛搿叭f(wàn)卡時(shí)代”并向“十萬(wàn)卡”巔峰演進(jìn),傳統(tǒng)單機(jī)八卡服務(wù)器在應(yīng)對(duì)超萬(wàn)億參數(shù)模型時(shí),因集群通信開(kāi)銷(xiāo)過(guò)大導(dǎo)致算力線(xiàn)性增長(zhǎng)受阻,技術(shù)重心正加速向具備強(qiáng)互聯(lián)能力的超節(jié)點(diǎn)架構(gòu)轉(zhuǎn)移。
近日,依托OISA(全向智感互聯(lián))協(xié)同創(chuàng)新平臺(tái),摩爾線(xiàn)程、中國(guó)移動(dòng)研究院、之江實(shí)驗(yàn)室等產(chǎn)業(yè)伙伴正式發(fā)布《OISA高密超節(jié)點(diǎn)參考設(shè)計(jì)技術(shù)規(guī)范》。該規(guī)范針對(duì)當(dāng)前智算中心面臨的互聯(lián)瓶頸、供電壓力及散熱極限,提出了全棧式解決方案,為構(gòu)建自主可控、高性能的智算集群奠定了關(guān)鍵技術(shù)基石。
據(jù)介紹,在智算中心的物理布局與邏輯拓?fù)渲校琌ISA高密超節(jié)點(diǎn)通過(guò)空間密度與擴(kuò)展維度的深度重構(gòu),打破傳統(tǒng)架構(gòu)的算力增長(zhǎng)壁壘。技術(shù)規(guī)范大膽引入大尺寸高密線(xiàn)纜方案,在主流32卡至64卡互聯(lián)的基礎(chǔ)上,實(shí)現(xiàn)了標(biāo)準(zhǔn)單寬機(jī)柜內(nèi)128卡的全互聯(lián),并支持通過(guò)并柜擴(kuò)展實(shí)現(xiàn)256卡部署,極大優(yōu)化了單位土地面積的算力產(chǎn)出。核心協(xié)議層面,基于OISA 2.0版本的原生內(nèi)存語(yǔ)義支持,該設(shè)計(jì)實(shí)現(xiàn)了跨節(jié)點(diǎn)的無(wú)障礙數(shù)據(jù)訪問(wèn),配合創(chuàng)新報(bào)文重構(gòu)技術(shù),將卡間帶寬推向TB/s級(jí)別,時(shí)延縮短至數(shù)百納秒。這種“高密度物理空間+高帶寬邏輯互聯(lián)”的雙重革新,不僅支撐了多廠商國(guó)產(chǎn)芯片的兼容互通,更為大規(guī)模模型訓(xùn)練提供了近似單機(jī)性能的協(xié)同計(jì)算環(huán)境。
同時(shí),面對(duì)單顆GPU功耗攀升至700W以上、機(jī)柜功率向350kW甚至更高量級(jí)演進(jìn)的嚴(yán)峻挑戰(zhàn),OISA參考設(shè)計(jì)從柜級(jí)供電及散熱管理兩方面完成了底座式革命。供電側(cè),該方案引入高壓直流系統(tǒng)與柜內(nèi)集中供電、盲插技術(shù),通過(guò)減少中間電力轉(zhuǎn)換層級(jí),顯著降低能耗損耗,為超級(jí)AI數(shù)據(jù)中心提供了穩(wěn)定的動(dòng)力支撐。
在散熱側(cè),液冷技術(shù)在超節(jié)點(diǎn)架構(gòu)中從“選項(xiàng)”轉(zhuǎn)變?yōu)椤霸鷺?biāo)配”,針對(duì)單GPU 2kW以上的散熱需求進(jìn)行深度優(yōu)化,將PUE值從風(fēng)冷時(shí)代的1.4降至1.05~1.15。通過(guò)全量監(jiān)測(cè)流量、壓力、溫度的智能診斷系統(tǒng),這種導(dǎo)熱效率提升數(shù)千倍的技術(shù)方案,在確保系統(tǒng)高負(fù)載可靠性的同時(shí),也開(kāi)辟了智算產(chǎn)業(yè)綠色可持續(xù)發(fā)展的必然路徑。
業(yè)內(nèi)認(rèn)為,OISA高密超節(jié)點(diǎn)參考設(shè)計(jì)的發(fā)布,是產(chǎn)業(yè)各方凝聚共識(shí)、深化協(xié)同創(chuàng)新的重要里程碑,標(biāo)志著智算基礎(chǔ)設(shè)施從零散探索邁向了體系化、標(biāo)準(zhǔn)化的合作新階段。該規(guī)范通過(guò)整合產(chǎn)業(yè)鏈上下游資源,構(gòu)建一個(gè)更加包容、普惠的算力生態(tài),通過(guò)芯片、設(shè)備、應(yīng)用等環(huán)節(jié)的深度聯(lián)動(dòng),為行業(yè)提供了更多元、更具韌性的技術(shù)路徑選擇。
展望未來(lái),OISA協(xié)同創(chuàng)新平臺(tái)將繼續(xù)秉持開(kāi)放、合作、共贏的原則,持續(xù)融合Chiplet、光互連、內(nèi)存池等前沿技術(shù),致力于與合作伙伴共同探索計(jì)算極限。以中國(guó)移動(dòng)、之江實(shí)驗(yàn)室等為代表的產(chǎn)業(yè)伙伴,將不斷擴(kuò)大合作朋友圈,邀請(qǐng)更多開(kāi)發(fā)者參與定制化方案設(shè)計(jì)。