2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
微軟今天升級了它的DeepSpeed庫,用ZeRO-2訓練大型神經網絡。微軟表示,內存優(yōu)化技術能夠訓練1700億個參數(shù)的機器學習模型。就背景而言,英偉達龐大的威震天語言模型是當今世界上最大的語言模型之一,擁有110億個參數(shù)。
今天的聲明是在DeepSpeed庫2月份的開源發(fā)布之后發(fā)布的,該庫用于創(chuàng)建Turing-NLG。Turing-NLG擁有170億個參數(shù),是目前世界上已知的最大的語言模型。微軟在2月份推出了零冗余優(yōu)化器(Zero)和DeepSpeed。
ZeRO通過減少數(shù)據并行中的內存冗余來實現(xiàn)其結果,這是另一種將大型模型放入內存的技術。ZeRO-1包含一些模型狀態(tài)內存優(yōu)化,而ZeRO-2提供了激活內存和片段內存的優(yōu)化。
DeepSpeed是為跨多臺服務器的分布式模型訓練而設計的,但ZeRO-2也在單GPU上對訓練模型進行了改進,據報道,訓練模型如谷歌的BERT提高了30%。
更多細節(jié)將在周三由微軟首席技術官凱文·斯科特(Kevin Scott)發(fā)表的主題演講中宣布。
這一消息是在微軟全數(shù)字構建開發(fā)者大會開幕之際發(fā)布的,會上宣布了多項人工智能開發(fā)成果,包括用于機器學習中的差異隱私的WhiteNoise工具包,以及用于人工智能工業(yè)應用的盆栽項目。
上周,英偉達CEO黃延森發(fā)布了Ampere GPU架構和A100 GPU。新的GPU芯片——以及多模態(tài)模型和大規(guī)模推薦系統(tǒng)等趨勢——將在未來幾年引領更大的機器學習模型。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。