在很長一段時間內(nèi),占據(jù)大模型評測榜單最前列的大多是一些閉源模型,直到Meta再次發(fā)布了最新的開源模型。就在近日,Meta和OpenAI打響了硅谷 AI 大模型保衛(wèi)戰(zhàn)。
美國當(dāng)?shù)貢r間7月23日,Meta正式發(fā)布Llama 3.1。其包含8B、70B 和405B三個規(guī)模,最大上下文提升到了128k。Llama是目前開源領(lǐng)域中用戶最多、性能最強的大型模型系列之一。
Meta 表示,他們將通過提供更多與模型協(xié)同工作的組件(包括參考系統(tǒng)),繼續(xù)將 Llama 打造成一個系統(tǒng),并希望為開發(fā)人員提供工具,幫助他們創(chuàng)建自己的定制智能體和新智能體行為。
此外,Meta 也將通過新的安全和保障工具(包括 Llama Guard 3 和 Prompt Guard)幫助開發(fā)者負(fù)責(zé)任地進行開發(fā)。Meta 在在官方博客中寫道,“迄今為止,開源大語言模型在功能和性能方面大多落后于封閉的同類產(chǎn)品。如今,我們迎來了一個由開源引領(lǐng)的新時代。我們將公開發(fā)布 Meta Llama 3.1 405B,我們相信它是世界上規(guī)模最大、功能最強的開放基礎(chǔ)模型。”
與之前的 Llama 版本相比,Llama 3.1提高了用于訓(xùn)練前和訓(xùn)練后的數(shù)據(jù)的數(shù)量和質(zhì)量。這些改進包括為訓(xùn)練前數(shù)據(jù)開發(fā)更仔細(xì)的預(yù)處理和管理流程、開發(fā)更嚴(yán)格的質(zhì)量保證以及訓(xùn)練后數(shù)據(jù)的過濾方法。
另外,為了支持 405B 規(guī)模模型的大規(guī)模生產(chǎn)推理,團隊還將模型從 16 位 (BF16) 量化為 8 位 (FP8) 數(shù)字,有效降低了所需的計算要求并允許模型在單個服務(wù)器節(jié)點內(nèi)運行。
在其他場景中,Llama 3.1 405B進行了與人工評估的比較,Llama 3.1 405B在常識、可操作性、數(shù)學(xué)、工具使用和多語言翻譯等一系列任務(wù)中,其總體表現(xiàn)優(yōu)于GPT-4o和Claude 3.5 Sonnet。
作為最新版本的一部分,他們推出了 8B 和 70B 模型的升級版本。這兩個版本支持多種語言,相比于同樣參數(shù)大小的模型性能表現(xiàn)也更好。上下文長度大大增加,達到 128K,工具使用 SOTA,整體推理能力更強。
這使得 Llama 3.1 系列模型能夠支持高級用例,如長文本摘要、多語言對話智能體和編碼助手。值得一提的是,Meta 還修改了許可證,允許開發(fā)人員使用 Llama 模型(包括 405B 模型)的輸出結(jié)果來改進其他模型,并在 llama.meta.com 和 Hugging Face 上向社區(qū)提供這些模型的下載。
作為 Meta 迄今為止最大的模型,在超過 15 萬億個 token 上訓(xùn)練 Llama 3.1 405B 是一項重大挑戰(zhàn)。為了在合理的時間內(nèi)完成如此大規(guī)模的訓(xùn)練運行并取得這樣的結(jié)果,Meta 對整個訓(xùn)練堆棧進行了大幅優(yōu)化,并將模型訓(xùn)練推送到 1.6 萬多個 H100 GPU 上,使 405B 成為第一個以如此規(guī)模訓(xùn)練的 Llama 模型。
為了解決這個問題,Meta 在設(shè)計時選擇了保持模型開發(fā)過程的可擴展性和直接性(straightforward)。為了最大限度地提高訓(xùn)練的穩(wěn)定性,他們選擇了標(biāo)準(zhǔn)的僅解碼器 transformer 模型架構(gòu),并作了較小的調(diào)整,而沒有采用混合專家模型。
他們采用了迭代后訓(xùn)練程序,每一輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使得他們能夠為每一輪訓(xùn)練創(chuàng)建最高質(zhì)量的合成數(shù)據(jù),并提高每種能力的性能。與以前版本的 Llama 相比,Meta 改進了預(yù)訓(xùn)練和后訓(xùn)練所用數(shù)據(jù)的數(shù)量和質(zhì)量。
這些改進包括為預(yù)訓(xùn)練數(shù)據(jù)開發(fā)了更細(xì)致的預(yù)處理和整理管道,為后訓(xùn)練數(shù)據(jù)開發(fā)了更嚴(yán)格的質(zhì)量保證和過濾方法。正如語言模型的縮放規(guī)律所預(yù)期的那樣,Llama 3.1 405B 優(yōu)于使用相同程序訓(xùn)練的較小模型。他們還利用 Llama 3.1 405B 提高了小型模型的后期訓(xùn)練質(zhì)量。為了支持 Llama 3.1 405B 的大規(guī)模生產(chǎn)推理,他們將模型從 16 位(BF16)量化為 8 位(FP8)數(shù)值,有效降低了所需的計算要求,使模型可以在單個服務(wù)器節(jié)點內(nèi)運行。
Meta 在官方博客中寫道,與封閉的模型不同,Llama 模型權(quán)重可供下載。
開發(fā)人員可以完全根據(jù)自己的需求和應(yīng)用定制模型,在新的數(shù)據(jù)集上進行訓(xùn)練,并進行額外的微調(diào)。
這使得更廣泛的開發(fā)者社區(qū)和全世界都能更充分地發(fā)揮生成式人工智能的能力。開發(fā)人員可以根據(jù)自己的應(yīng)用進行完全定制,并在任何環(huán)境中運行,包括預(yù)置環(huán)境、云環(huán)境,甚至是筆記本電腦上的本地環(huán)境,而無需與 Meta 共享數(shù)據(jù)。
Meta 也表示,雖然很多人可能會認(rèn)為封閉模型更具成本效益,但根據(jù) Artificial Analysis 的測試,Llama 模型的單位 token 成本在業(yè)內(nèi)最低。正如 Mark Zuckerberg 所指出的那樣,開源將確保全世界更多的人能夠享受到人工智能帶來的好處和機會,確保權(quán)力不會集中在少數(shù)人手中,確保這項技術(shù)能夠在全社會范圍內(nèi)得到更均衡、更安全的部署。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/131141.html
2024年4月18日,Meta AI正式宣布推出開源大模型Llama3,這標(biāo)志著開源大型語言模型(LLM)領(lǐng)域的又一重大突破。Llama3以其卓越的性能和廣泛的應(yīng)用前景,或?qū)⑼苿尤斯ぶ悄芗夹g(shù)快速邁進新紀(jì)元。為方便AI應(yīng)用企業(yè)及個人AI開發(fā)者快速體驗Llama3的超高性能,近期優(yōu)刻得GPU云主機上線Llama3-8B-Instruct-Chinese鏡像,一鍵配置,快速部署模型開發(fā)環(huán)境。為客戶提供開...
在人工智能領(lǐng)域,自然語言處理技術(shù)一直備受關(guān)注。就在昨日,今年備受關(guān)注的國內(nèi)AI公司北京智譜AI發(fā)布了第四代 GLM 系列開源模型:GLM-4-9B。這是一個集成了先進自然語言處理技術(shù)的創(chuàng)新平臺,它憑借清華大學(xué)KEG實驗室提出的GLM模型結(jié)構(gòu),為智能體功能的發(fā)展帶來了新的突破的同時所有大模型全部保持開源,一系列商業(yè)化成果、技術(shù)突破讓人眼前一亮。讓我們一起揭開GLM-4的神秘面紗,探索其在代碼執(zhí)行、聯(lián)...
摘要:同時該版本在安全性和等關(guān)鍵功能上作出了改進年月日,發(fā)布。盡管谷歌這些年來是的主要貢獻者,但現(xiàn)在其他技術(shù)人員在這個項目上的貢獻量已經(jīng)幾乎和谷歌持平了。這些舉動都在表明云計算市場的戰(zhàn)火將繼續(xù)蔓延,已經(jīng)成為兵家必爭之地。年月日,宣布推出。Kubernetes 在過去幾年中一直是云計算領(lǐng)域最著名的開源項目之一。 2018 年,Kubernetes 度過了自己的 4 歲生日。從 2014 年開源...
閱讀 156·2024-12-10 11:51
閱讀 303·2024-11-07 17:59
閱讀 328·2024-09-27 16:59
閱讀 466·2024-09-23 10:37
閱讀 540·2024-09-14 16:58
閱讀 334·2024-09-14 16:58
閱讀 531·2024-08-29 18:47
閱讀 811·2024-08-16 14:40