數(shù)字金融
網(wǎng)絡營銷推廣
電商服務
眾所周知,大語言模型的快速發(fā)展離不開強大的算力支持,但目前全球范圍內(nèi)算力資源仍然非常有限。即便是財力最雄厚的公司,所擁有的算力也無法滿足日益增長的需求。
根據(jù)上半年產(chǎn)業(yè)鏈的消息,Llama 38B和70B的訓練需要24000多塊H100組成的集群;而據(jù)稱有1.8萬億參數(shù)的GPT-4則是在10000—25000張A100的集群上完成的訓練;就連參數(shù)僅30億的Sora,也用4200—10500塊H100訓練了1個月的時間。
這正好印證了摩爾線程創(chuàng)始人張建中日前的一個觀點:“在AI模型訓練的主戰(zhàn)場上,萬卡還僅僅只是標配”。7月3日,摩爾線程在AI DAY上宣布了其夸娥(KUAE)萬卡智算集群解決方案的重大升級,這不僅是摩爾線程技術創(chuàng)新的里程碑,更是國產(chǎn)GPU技術發(fā)展的一次重要飛躍。
萬卡智算,無縫擴展
萬卡集群指的是由一萬張及以上的計算加速卡(如GPU)組成的高性能計算系統(tǒng),用以訓練基礎大模型。這種集群充分整合高性能GPU計算、高性能RDMA網(wǎng)絡、高性能并行文件存儲、智算平臺等關鍵技術,將底層基礎設施整合成為一臺“超級計算機”,可支持千億級甚至萬億級參數(shù)規(guī)模的大模型訓練,有助于大幅壓縮大模型訓練時間,以實現(xiàn)模型能力的快速迭代。
張建中說:“構建萬卡集群并非一萬張GPU卡的簡單堆疊,而是一項高度復雜的超級系統(tǒng)工程。”其面臨的主要挑戰(zhàn)包括如何實現(xiàn)超大規(guī)模組網(wǎng)互聯(lián)、如何提高集群有效計算效率、保證訓練高穩(wěn)定與高可用以及擁有故障快速定位能力和可診斷工具等。
據(jù)張建中介紹,全新一代夸娥智算集群能實現(xiàn)單集群規(guī)模超萬卡,浮點運算能力達到10Exa-Flops,顯存總?cè)萘窟_到PB級,卡間互聯(lián)總帶寬和節(jié)點互聯(lián)總帶寬均達到每秒PB級。同時,夸娥萬卡集群的平均無故障運行時間超過15天,最長可實現(xiàn)大模型穩(wěn)定訓練30天以上,希望可以對標行業(yè)最高水準。
此外,在優(yōu)化方面,夸娥萬卡集群通過系統(tǒng)軟件、框架、算法等層面的一系列優(yōu)化,實現(xiàn)了大模型的高效率訓練,MFU最高可達60%。此外,夸娥萬卡集群是一個通用加速計算平臺,支持多種不同架構和模態(tài)的大模型,具有高效易用的MUSA編程語言和完整兼容CUDA的能力,加速新模型的遷移和生態(tài)適配。
產(chǎn)業(yè)協(xié)同:共建大模型應用生態(tài)
摩爾線程的夸娥萬卡智算集群不僅僅是一項技術成果,更是一個產(chǎn)業(yè)協(xié)同的典范。在AI DAY發(fā)布會上,摩爾線程與多家企業(yè)進行了戰(zhàn)略簽約,共同構建國產(chǎn)GPU集群。張建中提到:“我們希望摩爾線程的加速平臺能夠加速一切計算,只是和計算相關的都可以在上面加速。”
發(fā)布會現(xiàn)場,摩爾線程攜手中國移動通信集團青海有限公司、中國聯(lián)通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司(排名不分先后),分別就青海零碳產(chǎn)業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目進行了戰(zhàn)略簽約。
借助摩爾線程先進的夸娥全棧智算解決方案,各方將攜手共建強大的全國產(chǎn)智算平臺,以加速產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展。夸娥萬卡智算集群項目標志著國產(chǎn)AI算力基礎設施的又一重大進展,將為各地的數(shù)字經(jīng)濟發(fā)展注入新活力。
發(fā)布會后,無問芯穹、清程極智、360、京東云、智平方等五家合作伙伴代表紛紛登臺,分享了夸娥智算集群在不同場景和領域的創(chuàng)新應用,展現(xiàn)了其在實際應用中的巨大潛力與廣泛適用性。
在接受采訪時,張建中提出,GPU產(chǎn)業(yè)的自主生態(tài)建設是必須的,但兼容國際主流生態(tài)也同樣重要,只有兩條腿走路才能讓產(chǎn)品更快地走向市場。而生態(tài)的適配、生態(tài)的發(fā)展能不能做得很好,則是全行業(yè)上下游的生態(tài)合作伙伴們一起努力的結果。
百花齊放,資源共享
自ChatGPT顛覆式創(chuàng)新引爆生成式大模型發(fā)展后,全球數(shù)百個大模型爭先恐后地走向市場,形成百模大戰(zhàn)之態(tài)勢。但也有人認為,通用大模型的重復性建設是群模亂舞,未來將僅有個位數(shù)通用大模型存活下來。
對此,張建中認為,正如人類不應該只有一個大腦一樣,F(xiàn)oundation Model還是越多越好。“人類每個人都有自己的觀點,有自己的看法和認知,人類才得以不停地進步和發(fā)展,這對于大模型也一樣,”張建中如是說。
張建中強調(diào), 隨著人類大腦的進步,對各種各樣信息的攝入量不斷增長,千行百業(yè)的專業(yè)知識都在逐漸轉(zhuǎn)變?yōu)椤俺WR”。另外,由于一些需要隱私保護的行業(yè)數(shù)據(jù)無法共享,這些行業(yè)都需要自己的Foundation Model,因此未來通用大模型一定會是百花齊放的狀態(tài)。
目前,許多成熟的大模型雖然已經(jīng)開始投入到人們的生活和工作中,但仍然無法滿足人們的要求,這正是因為訓練側(cè)算力不夠所導致。至于什么量級的算力集群能夠讓一個大模型做到足夠“聰明”呢?張建中認為或許應是百萬卡級別。
不過,如果張建中所言,目前百模大戰(zhàn)的背景下,萬卡是標配。顯然算力資源正因Foundation Model過多而被分散,這將導致很難有足夠的GPU能夠集中訓練出完美的大模型,或者說,這一天會更晚到來。
對此,張建中也表示:“大規(guī)模的算力資源應該由建設方和運營商對全社會開放使用,而不是被據(jù)為己有。且當集群發(fā)展到百萬卡級別時,將沒有任何一家企業(yè)能夠獨自負擔。”
摩爾線程打造的夸娥是一個通用加速的計算平臺,其目標也是希望通過夸娥智算集群,以規(guī)模夠大、計算更通用、生態(tài)兼容好的加速計算平臺,為美好世界加速。這種理念很好地順應了算力資源集中的發(fā)展趨勢,隨著技術的不斷優(yōu)化和生態(tài)的不斷完善,夸娥萬卡智算集群必將在AI產(chǎn)業(yè)的發(fā)展中發(fā)揮越來越重要的作用。