潞晨科技宣布完成數(shù)億元的 A 輪融資。據(jù)公司介紹,本輪融資是潞晨科技成立 18 個月內(nèi)完成的第三輪融資,此次融資資金將主要用于團隊擴張和業(yè)務(wù)拓展。
(相關(guān)資料圖)
眾所周知,如今生成式 AI 的 " 涌現(xiàn) " 能力來自于底層大模型的成熟,但訓(xùn)練大模型需要的算力、網(wǎng)絡(luò)、數(shù)據(jù)成本非尋常公司能承受。而本文主角潞晨科技,希望為這一難題提供解法。
潞晨科技成立于 2021 年,主要業(yè)務(wù)是通過打造分布式 AI 開發(fā)和部署平臺,幫助企業(yè)降低大模型的落地成本,提升訓(xùn)練、推理效率。公司創(chuàng)始人尤洋告訴 36 氪,自己此前在伯克利、新加坡國立大學(xué)均從事分布式計算、機器學(xué)習(xí)、高性能計算相關(guān)研究,曾創(chuàng)造 ImageNet 以及 BERT 訓(xùn)練速度的世界紀錄。而在 2021 年左右,他更加篤信大模型的趨勢,所以在當(dāng)年創(chuàng)立潞晨科技,希望降低大模型的落地門檻。
潞晨科技當(dāng)前的產(chǎn)品包括開源高效深度學(xué)習(xí)系統(tǒng) Colossal-AI 和對應(yīng)的企業(yè)版 PaaS 平臺。平臺主要由異構(gòu)內(nèi)存管理系統(tǒng)、高效 N 維并行系統(tǒng)、低延時推理系統(tǒng)組成,整體希望幫客戶達成最小化模型部署成本、最大化計算效率的效果。
針對內(nèi)存管理,尤洋對 36 氪表示,模型參數(shù)、層數(shù)越大,計算量相應(yīng)也越大。GPT3 的 1750 億參數(shù),可能需要占據(jù) 800G 內(nèi)存。再加上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時還需要存梯度、優(yōu)化器狀態(tài),"GPT3 在什么都沒干的情況下,就要消耗 3200G 內(nèi)存。" 尤洋舉例。再加上內(nèi)存資源其實較為稀缺,所以科學(xué)管理內(nèi)存資源在訓(xùn)練大模型的場景下變得異常重要。當(dāng) GPU 內(nèi)存放不下這些數(shù)據(jù),還需要把部分數(shù)據(jù)遷移到 CPU、NVMe 硬盤上。
尤洋表示,管理 GPU、CPU、NVMe 硬盤被稱為異構(gòu)管理。過去,異構(gòu)管理主要延續(xù)靜態(tài)思路,一開始就預(yù)估好參數(shù)、梯度、優(yōu)化器等所需的資源。在尤洋看來,這種方式由于比較固化,沒辦法隨著實際訓(xùn)練過程調(diào)配,很可能存在浪費資源。但潞晨采取的動態(tài)管理方式,可以更加靈活的平衡資源," 我們希望數(shù)據(jù)都能放到 GPU 里。但是如果 GPU 放不下了就放 CPU 里,CPU 放不下就放 NVMe 里,但同時我們需要最小化 CPU、GPU、NVMe 之間的數(shù)據(jù)移動,這是最重要的。" 尤洋表示,潞晨的異構(gòu)內(nèi)存管理系統(tǒng)可以幫助達成這一目標(biāo)。
另一方面,企業(yè)如今訓(xùn)練大模型,常基于成百上千張 GPU 卡完成。這是因為,理論上,卡越多需要的訓(xùn)練時間越少,大模型的落地也更具效率。但實際情況中,卡越多意味著承載計算功能的機器越多,而在最終匯總各機器結(jié)果時,通信又會造成新的效率損耗。
針對這一痛點,潞晨打造了高效 N 維并行系統(tǒng)。尤洋表示,在這一系統(tǒng)中公司采用了高維張量并行等方式提升效率。尤洋表示,這背后的原理主要是用二維的方式設(shè)計張量并行。張量并行可以讓計算任務(wù)被分解后同步進行。二維切片的方式,則讓每個機器只需要和同行或者同列的機器打交道,不需要和所有機器打交道。" 假如我們要 1 萬個機器計算、傳統(tǒng)方法(一維)一個機器需要跟 9999 個剩下機器打交道,我們只需要和 99 個機器打交道就可以。" 他說。
第三是低延時推理系統(tǒng),作用是減少模型推理速度慢帶來的延時感。尤洋表示,解決這一問題,整體的部署方式和模型本身的優(yōu)化都很重要。在優(yōu)化方面,潞晨的內(nèi)存管理、張量并行技術(shù),以及剪枝蒸餾等方案均能發(fā)揮作用。
可以看出,異構(gòu)內(nèi)存管理系統(tǒng)、高效 N 維并行系統(tǒng)主要在訓(xùn)練步驟中發(fā)揮效力,低延時推理系統(tǒng)則提升推理部分的速度。若再細分,異構(gòu)內(nèi)存管理系統(tǒng)更能幫助客戶節(jié)省資源成本,高效 N 維并行系統(tǒng)更能提升計算速度。尤洋表示,目前這三大系統(tǒng)均匯聚在公司的 PaaS 平臺中,開源版本 Colossal-AI 目前也已獲得約 3 萬顆 GitHub 星星。在具體服務(wù)方式上,尤洋表示,目前客戶可以通過潞晨的 PaaS 平臺直接訓(xùn)練自己的模型,潞晨也可以幫助客戶訓(xùn)練模型。據(jù)介紹,目前潞晨的方案已在自動駕駛、云計算、零售、醫(yī)藥、芯片、金融等行業(yè)落地。
Colossal-AI GitHub 星數(shù)
在 2023 年的整體規(guī)劃上,尤洋告訴 36 氪,今年以來公司的業(yè)務(wù)量隨著各行業(yè)客戶的模型訓(xùn)練需求激增,預(yù)計收入整體相比去年會增長 3-5 倍。據(jù)了解,本輪融資后潞晨將加速擴張,并希望吸引招募更多的 MLOps、AI 大模型、AI 框架等領(lǐng)域優(yōu)秀人才加入,以更好服務(wù)客戶。
來源:36氪
標(biāo)簽:
相關(guān)新聞
保險時訊
10-21
10-21
10-21
10-21
10-21
10-21
10-21
10-21
10-21
10-21
聚焦百姓
更多>