將Llama-3 的上下文長度從8K擴(kuò)展到超過100萬！

UCloud小助手發(fā)布于2024-05-07 18:44 / 498人閱讀

企業(yè)微信截圖_17150609592386.png

Gradient Al最近將Llama-3 8B和7B模型通過漸進(jìn)式訓(xùn)練方法不斷將Llama-3模型的上下文長度從8k-路擴(kuò)展到262k、524k

今天Gradient Al成功宣布成功地將Llama-3 系列模型的上下文長度擴(kuò)展到超過1 M...并且1M上下文窗口 70B 模型在 NIAH(大海撈針)上取得了完美分?jǐn)?shù)。Llama 3模型最初被訓(xùn)練用于處理8000個token的默認(rèn)上下文長度，約相當(dāng)于6,000字或10頁文檔。

Gradient為了解鎖更長上下文的使用場景，擴(kuò)展了Llama 3模型的上下文窗口到超過100萬。這種擴(kuò)展使得模型可以處理相當(dāng)于《哈利·波特》系列前五本書的內(nèi)容量。

這種擴(kuò)展顯著增加了模型處理長文本的能力，允許它在一個任務(wù)中考慮更多的信息，從而提高了理解和生成文本的精確度和相關(guān)性。

為了逐步適應(yīng)這種大幅度增加的上下文長度，Gradient Al采用了漸進(jìn)式訓(xùn)練方法。這意味著模型從較短的序列長度開始訓(xùn)練，逐漸增加到目標(biāo)長度。這種方法有助于模型逐步學(xué)習(xí)處理更長文本的策略，而不是一開始就直接面對極大的挑戰(zhàn)。

企業(yè)微信截圖_17150610015762.png 方法概述

1.漸進(jìn)式訓(xùn)練(Progressive Training)

步驟：模型從處理較短的文本序列開始，逐步增加處理的序列長度。這種漸進(jìn)式增長使模型能夠適應(yīng)在每個步驟中的學(xué)習(xí)挑戰(zhàn)，從而逐步提高處理更長序列的能力。

優(yōu)勢：這種方法有助于避免在初期階段由于序列長度過大而導(dǎo)致的訓(xùn)練困難，保證了訓(xùn)練的穩(wěn)定性和效率。

2.使用 RingAttention 和 EasyContext Blockwise

技術(shù)細(xì)節(jié)：為了高效管理長序列的計算負(fù)擔(dān)，采用 RingAttention 庫優(yōu)化注意力機(jī)制的計算，使其能夠擴(kuò)展到非常長的序列。同時，EasyContext Blockwise 技術(shù)被用來分塊處理長文本，進(jìn)一步提高處理速度和降低內(nèi)存需求。

應(yīng)用效果：這些技術(shù)提高了模型在長序列上的訓(xùn)練和推理速度，使得在大規(guī)模GPU集群中的部署和執(zhí)行變得更加高效。

3.NTK-aware 插值和縮放法則

目的：利用神經(jīng)切線核(NTK)理論優(yōu)化模型參數(shù)的初始化和調(diào)整，以適應(yīng)不同長度的文本處理

實施：通過遵循縮放法則和進(jìn)行NTK-aware的參數(shù)插值，調(diào)整模型的RoPE(Rotary Positional Embeddings)theta參數(shù)，使模型在不同長度的文本上表現(xiàn)最佳。企業(yè)微信截圖_17150610316485.png

訓(xùn)練細(xì)節(jié)

1.數(shù)據(jù)處理

數(shù)據(jù)集：使用了大規(guī)模圖像-文本配對數(shù)據(jù)集和純文本數(shù)據(jù)集，這些數(shù)據(jù)集被用來交錯訓(xùn)練模型以平衡視覺和文本信息的處理能力。

數(shù)據(jù)增強(qiáng)：采用數(shù)據(jù)增強(qiáng)策略來豐富訓(xùn)練數(shù)據(jù)，提高模型對不同類型文本的適應(yīng)性和魯棒性

2.硬件配置

部署環(huán)境：模型在Crusoe Energy的高性能L40S集群上進(jìn)行訓(xùn)練，這些集群配備了先進(jìn)的GPU和高速網(wǎng)絡(luò)連接，以支持大規(guī)模并行處理。

項目地址：https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k 企業(yè)微信截圖_17150610543630.png

附高性能NVIDIA RTX 40 系列云服務(wù)器購買：

UCloud GPU云平臺擁有A100、A800、4090、V100S、P40等海量高性能GPU顯卡，靈活計費(fèi)，彈性擴(kuò)展，滿足AI訓(xùn)練、推理、微調(diào)等場景需求。
http://specialneedsforspecialkids.com/site/active/gpu.html?ytag=seo

compshare算力共享平臺，高性價比4090顯卡，配備獨立IP，支持按時、按天、按月靈活計費(fèi)。適合AI推理、微調(diào)用戶場景使用。

https://www.compshare.cn/?ytag=seo