項目簡介
DeepSeek-V2,一個專家混合(MoE)語言模型,其特點是經(jīng)濟高效的訓(xùn)練和推理。它包含 2360 億個總參數(shù),其中每個token激活了21億個參數(shù)。與 DeepSeek67B相比,DeepSeek-V2 實現(xiàn)了更強的性能,同時節(jié)省了 42.5%的訓(xùn)練成本,將 KV 緩存減少了 93.3%,并將最大生成吞吐量提高了 5.76 倍。
在 AlignBench 中排名前三,超越 GPT-4,接近 GPT-4-Turbo。在MT-Bench 中排名頂尖,與 LLaMA3-70B不相上下,并且勝過 Mixtral 8x22B。專注于數(shù)學(xué)、編碼和推理。
DeepSeek-V2 完全開源,可免費用于商業(yè)用途。
236B參數(shù),其中21B在生成過程中被激活
160位專家,其中有6位在生成中活躍
在英文基準測試中與 Mixtral 8x22B 匹配
128k上下文
在 8.1萬億標(biāo)記上訓(xùn)練
用于在 bf16 8x 80GB GPU 上進行推理
接受英語和中文語言訓(xùn)練
模型概述
DeepSeek-V2-Chat是一個先進的Mixture-of-Experts(MoE)語言模型,具有高效的訓(xùn)練和推理能力,總參數(shù)量為2360億,每個token激活21億參數(shù)。與之前的版本相比,該模型在性能方面顯著提升,并降低了訓(xùn)練成本、KV緩存需求以及生成開銷。
總體架構(gòu)
Mixture-of-Experts(MoE)結(jié)構(gòu): DeepSeek-V2-Chat基于混合專家的設(shè)計,允許每個輸入token僅激活部分參數(shù),大幅降低內(nèi)存使用并提高計算效率。
參數(shù)規(guī)模
總參數(shù)量達到2360億,但每個token激活21億參數(shù),從而實現(xiàn)性能與資源利用的平衡。
長上下文窗口
支持長達128K的上下文窗口。
性能優(yōu)勢
與Dense模型DeepSeek67B相比,DeepSeek-V2在多項標(biāo)準基準測試中表現(xiàn)更強。減少訓(xùn)練成本42.5%,KV緩存降低93.3%,并將最大生成吞吐量提高5.76倍。
數(shù)據(jù)訓(xùn)練
DeepSeek-V2在包含8.1萬億token的多樣化高質(zhì)量語料庫上進行預(yù)訓(xùn)練,并通過監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)來充分發(fā)揮模型潛力。
模型價格:價格非常香!
模型下載
Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-v2-chat
推薦使用NVIDIA RTX 40 顯卡做模型推理,購買地址如下:
http://specialneedsforspecialkids.com/site/active/gpu.html?ytag=seo
https://www.compshare.cn/?ytag=seo
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/131095.html
摘要:月日,中國混合云領(lǐng)導(dǎo)廠商攜手中國技術(shù)領(lǐng)軍者大河云聯(lián),在京聯(lián)合發(fā)布并現(xiàn)場演示全球首個混合云專線一體化產(chǎn)品,標(biāo)志著由技術(shù)推動云網(wǎng)融合進入全新高度。此次與大河云聯(lián)的聯(lián)合發(fā)布,正是為數(shù)據(jù)連通解決云網(wǎng)聯(lián)動的問題,將繼續(xù)領(lǐng)先業(yè)內(nèi),實現(xiàn)混合云的全面融合。3月20日,中國混合云領(lǐng)導(dǎo)廠商ZStack攜手中國SDN技術(shù)領(lǐng)軍者大河云聯(lián),在京聯(lián)合發(fā)布并現(xiàn)場演示全球首個混合云+SDN專線一體化產(chǎn)品,標(biāo)志著由SD-WA...
摘要:比特幣和以太坊像兩座最早出現(xiàn)的虛擬城市。下面我們先來分析比特幣和以太坊這兩個最大加密經(jīng)濟體的經(jīng)濟模型,我們經(jīng)過研究發(fā)現(xiàn)它們在可持續(xù)性上都存在各自的問題。狀態(tài)爆炸比特幣與智能合約平臺,都 公鏈的競爭是慘烈的,這個戰(zhàn)場里的玩家要想生存下來,既要有絕活,還得沒短板。在構(gòu)建加密經(jīng)濟網(wǎng)絡(luò)上,在技術(shù)實現(xiàn)和共識協(xié)議部分,我們?yōu)榇蠹曳窒砹薈KB 的絕活,即: 與時俱進的 Cell 模型 用 RIS...
閱讀 157·2024-12-10 11:51
閱讀 303·2024-11-07 17:59
閱讀 329·2024-09-27 16:59
閱讀 466·2024-09-23 10:37
閱讀 540·2024-09-14 16:58
閱讀 335·2024-09-14 16:58
閱讀 531·2024-08-29 18:47
閱讀 812·2024-08-16 14:40