国产a级三级三级三级,人妻少妇中文字幕乱码,日韩爽爽视频爽爽

百模大戰(zhàn)，需要標配怎樣的萬卡？

2024-07-17 閱讀：252

眾所周知，大語言模型的快速發(fā)展離不開強大的算力支持，但目前全球范圍內(nèi)算力資源仍然非常有限。即便是財力最雄厚的公司，所擁有的算力也無法滿足日益增長的需求。

根據(jù)上半年產(chǎn)業(yè)鏈的消息，Llama 38B和70B的訓練需要24000多塊H100組成的集群；而據(jù)稱有1.8萬億參數(shù)的GPT-4則是在10000—25000張A100的集群上完成的訓練；就連參數(shù)僅30億的Sora，也用4200—10500塊H100訓練了1個月的時間。

這正好印證了摩爾線程創(chuàng)始人張建中日前的一個觀點：“在AI模型訓練的主戰(zhàn)場上，萬卡還僅僅只是標配”。7月3日，摩爾線程在AI DAY上宣布了其夸娥（KUAE）萬卡智算集群解決方案的重大升級，這不僅是摩爾線程技術創(chuàng)新的里程碑，更是國產(chǎn)GPU技術發(fā)展的一次重要飛躍。

萬卡智算，無縫擴展

萬卡集群指的是由一萬張及以上的計算加速卡（如GPU）組成的高性能計算系統(tǒng)，用以訓練基礎大模型。這種集群充分整合高性能GPU計算、高性能RDMA網(wǎng)絡、高性能并行文件存儲、智算平臺等關鍵技術，將底層基礎設施整合成為一臺“超級計算機”，可支持千億級甚至萬億級參數(shù)規(guī)模的大模型訓練，有助于大幅壓縮大模型訓練時間，以實現(xiàn)模型能力的快速迭代。

張建中說：“構建萬卡集群并非一萬張GPU卡的簡單堆疊，而是一項高度復雜的超級系統(tǒng)工程。”其面臨的主要挑戰(zhàn)包括如何實現(xiàn)超大規(guī)模組網(wǎng)互聯(lián)、如何提高集群有效計算效率、保證訓練高穩(wěn)定與高可用以及擁有故障快速定位能力和可診斷工具等。

據(jù)張建中介紹，全新一代夸娥智算集群能實現(xiàn)單集群規(guī)模超萬卡，浮點運算能力達到10Exa-Flops，顯存總?cè)萘窟_到PB級，卡間互聯(lián)總帶寬和節(jié)點互聯(lián)總帶寬均達到每秒PB級。同時，夸娥萬卡集群的平均無故障運行時間超過15天，最長可實現(xiàn)大模型穩(wěn)定訓練30天以上，希望可以對標行業(yè)最高水準。

此外，在優(yōu)化方面，夸娥萬卡集群通過系統(tǒng)軟件、框架、算法等層面的一系列優(yōu)化，實現(xiàn)了大模型的高效率訓練，MFU最高可達60%。此外，夸娥萬卡集群是一個通用加速計算平臺，支持多種不同架構和模態(tài)的大模型，具有高效易用的MUSA編程語言和完整兼容CUDA的能力，加速新模型的遷移和生態(tài)適配。

產(chǎn)業(yè)協(xié)同：共建大模型應用生態(tài)

摩爾線程的夸娥萬卡智算集群不僅僅是一項技術成果，更是一個產(chǎn)業(yè)協(xié)同的典范。在AI DAY發(fā)布會上，摩爾線程與多家企業(yè)進行了戰(zhàn)略簽約，共同構建國產(chǎn)GPU集群。張建中提到：“我們希望摩爾線程的加速平臺能夠加速一切計算，只是和計算相關的都可以在上面加速。”

發(fā)布會現(xiàn)場，摩爾線程攜手中國移動通信集團青海有限公司、中國聯(lián)通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司（排名不分先后），分別就青海零碳產(chǎn)業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目進行了戰(zhàn)略簽約。

借助摩爾線程先進的夸娥全棧智算解決方案，各方將攜手共建強大的全國產(chǎn)智算平臺，以加速產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展。夸娥萬卡智算集群項目標志著國產(chǎn)AI算力基礎設施的又一重大進展，將為各地的數(shù)字經(jīng)濟發(fā)展注入新活力。

發(fā)布會后，無問芯穹、清程極智、360、京東云、智平方等五家合作伙伴代表紛紛登臺，分享了夸娥智算集群在不同場景和領域的創(chuàng)新應用，展現(xiàn)了其在實際應用中的巨大潛力與廣泛適用性。

在接受采訪時，張建中提出，GPU產(chǎn)業(yè)的自主生態(tài)建設是必須的，但兼容國際主流生態(tài)也同樣重要，只有兩條腿走路才能讓產(chǎn)品更快地走向市場。而生態(tài)的適配、生態(tài)的發(fā)展能不能做得很好，則是全行業(yè)上下游的生態(tài)合作伙伴們一起努力的結果。

百花齊放，資源共享

自ChatGPT顛覆式創(chuàng)新引爆生成式大模型發(fā)展后，全球數(shù)百個大模型爭先恐后地走向市場，形成百模大戰(zhàn)之態(tài)勢。但也有人認為，通用大模型的重復性建設是群模亂舞，未來將僅有個位數(shù)通用大模型存活下來。

對此，張建中認為，正如人類不應該只有一個大腦一樣，F(xiàn)oundation Model還是越多越好。“人類每個人都有自己的觀點，有自己的看法和認知，人類才得以不停地進步和發(fā)展，這對于大模型也一樣，”張建中如是說。

張建中強調(diào)，隨著人類大腦的進步，對各種各樣信息的攝入量不斷增長，千行百業(yè)的專業(yè)知識都在逐漸轉(zhuǎn)變?yōu)椤俺ＷR”。另外，由于一些需要隱私保護的行業(yè)數(shù)據(jù)無法共享，這些行業(yè)都需要自己的Foundation Model，因此未來通用大模型一定會是百花齊放的狀態(tài)。

目前，許多成熟的大模型雖然已經(jīng)開始投入到人們的生活和工作中，但仍然無法滿足人們的要求，這正是因為訓練側(cè)算力不夠所導致。至于什么量級的算力集群能夠讓一個大模型做到足夠“聰明”呢？張建中認為或許應是百萬卡級別。

不過，如果張建中所言，目前百模大戰(zhàn)的背景下，萬卡是標配。顯然算力資源正因Foundation Model過多而被分散，這將導致很難有足夠的GPU能夠集中訓練出完美的大模型，或者說，這一天會更晚到來。

對此，張建中也表示：“大規(guī)模的算力資源應該由建設方和運營商對全社會開放使用，而不是被據(jù)為己有。且當集群發(fā)展到百萬卡級別時，將沒有任何一家企業(yè)能夠獨自負擔。”

摩爾線程打造的夸娥是一個通用加速的計算平臺，其目標也是希望通過夸娥智算集群，以規(guī)模夠大、計算更通用、生態(tài)兼容好的加速計算平臺，為美好世界加速。這種理念很好地順應了算力資源集中的發(fā)展趨勢，隨著技術的不斷優(yōu)化和生態(tài)的不斷完善，夸娥萬卡智算集群必將在AI產(chǎn)業(yè)的發(fā)展中發(fā)揮越來越重要的作用。

上一篇：亞馬遜推出低價商店，“價格戰(zhàn)”海外打響

下一篇：最新一期十大熱門手機榜單揭曉三星A55連冠被終結

色综合久久天天综线观看-色综合久久天天综合绕观看-色综合久久天天综合观看-色综合久久天天综合-色综合久久手机在线-色综合久久久久综合体桃花网