在談到 AI、大模型、算力等關(guān)鍵詞時(shí),如果要提及硬件產(chǎn)品,很多人應(yīng)該會(huì)不假思索的說出英偉達(dá)。的確,在全球都缺算力的環(huán)境下,英偉達(dá)的地位是獨(dú)特又難以撼動(dòng)的。然而就在近日,有一家公司帶著自己的 AI 芯片來叫板了。昨天凌晨,科技圈迎來了一個(gè)重要新聞。成立時(shí)間不到兩年的美國(guó)芯片初創(chuàng)公司 Etched 推出了自己的第一塊 AI 芯片 Sohu,它運(yùn)行大模型的速度比英偉達(dá) H100 要快 20 倍,比今年 3 月才推出的頂配芯片 B200 也要快上超過 10 倍。Sohu 是世界第一款專用于 Transformer 計(jì)算的芯片,歷時(shí)兩年打造。作為一塊 ASIC(專用集成電路),Sohu 芯片最大的亮點(diǎn)在于直接把 Transformer 架構(gòu)蝕刻到芯片中,烏伯蒂稱 Sohu 采用臺(tái)積電的 4 納米工藝制造,推理性能大大優(yōu)于 GPU 和其他通用人工智能芯片,同時(shí)能耗更低,而如今的每款主流 AI 產(chǎn)品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驅(qū)動(dòng)的。在 Llama 70B 吞吐量中,Sohu 每秒可處理超過 50萬個(gè) tokens,讓用戶可以構(gòu)建 GPU 無法實(shí)現(xiàn)的產(chǎn)品。Sohu 能夠?qū)崿F(xiàn)實(shí)時(shí)語音代理、毫秒級(jí)處理數(shù)千字文本、更強(qiáng)大的代碼樹搜索、并行比較數(shù)百個(gè)響應(yīng)、多播推測(cè)解碼以及實(shí)時(shí)生成新內(nèi)容等功能,為未來萬億級(jí)參數(shù)模型的運(yùn)行提供了可能。速度超 H100 20 倍,F(xiàn)LOPS 利用率超 90%作為世界上首款 transformer ASIC(應(yīng)用型)芯片,一臺(tái)集成了 8 塊 Sohu 的服務(wù)器可以匹敵 160 塊 H100 GPU。也即,Sohu 的運(yùn)行速度是 H100 的 20 多倍。具體來講,通過專門化,Sohu 具備了前所未有的性能。一臺(tái)集成 8 塊 Sohu 芯片的服務(wù)器每秒可以處理 50 萬的 Llama 7B tokens。針對(duì) Llama 3 70B 的 FP8 精度基準(zhǔn)測(cè)試顯示:無稀疏性、8 倍模型并行、2048 輸入或 128 輸出長(zhǎng)度。此外,對(duì)于 Llama、Stable Diffusion 3,Sohu 僅支持 transformer 推理。Sohu 支持了當(dāng)前谷歌、Meta、微軟、OpenAI、Anthropic 等各家的模型,未來還會(huì)適配模型調(diào)整。由于 Sohu 僅能運(yùn)行一種算法,因此可以刪除絕大多數(shù)控制流邏輯,從而允許擁有更多數(shù)學(xué)塊。也因此,Sohu 實(shí)現(xiàn)了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 約為 30%。
軟件如何工作
在 GPU 和 TPU 上,軟件是一場(chǎng)噩夢(mèng)。處理任意 CUDA 和 PyTorch 代碼需要極其復(fù)雜的編譯器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在軟件上總共花費(fèi)了數(shù)十億美元,但收效甚微。而 Sohu 只運(yùn)行 transformer,因此只需要為 transformer 編寫軟件。大多數(shù)運(yùn)行開源或內(nèi)部模型的公司都使用特定于 transformer 的推理庫(kù),比如 TensorRT-LLM,vLLM 或 HuggingFace 的 TGI。這些框架非常僵化,雖然你可以進(jìn)行模型超參數(shù)調(diào)優(yōu),但實(shí)際上不支持更改底層模型代碼。但這沒關(guān)系,因?yàn)樗?transformer 模型都非常相似(甚至是文本 / 圖像 / 視頻模型),所以超參數(shù)調(diào)優(yōu)就是你真正需要的。雖然 95% 的 AI 公司是這樣,但一些最大的 AI 實(shí)驗(yàn)室采用定制方式。他們有工程師團(tuán)隊(duì)來手動(dòng)調(diào)整 GPU 核心以實(shí)現(xiàn)更高的利用率,并進(jìn)行逆向工程以將寄存器對(duì)每個(gè)張量核心的延遲將至最低。Etched 讓我們不需要再進(jìn)行逆向工程,他們的軟件(從驅(qū)動(dòng)程序、內(nèi)核到服務(wù)堆棧)都將是開源的。如果你想實(shí)現(xiàn)自定義 transformer 層,則內(nèi)核向?qū)Э梢宰杂傻剡@樣做。
創(chuàng)業(yè)團(tuán)隊(duì):哈佛輟學(xué)生領(lǐng)銜
打造 Sohu 芯片的 Etched 位于加州庫(kù)比蒂諾,公司成立僅兩年,目前團(tuán)隊(duì)只有 35 人,創(chuàng)始人是一對(duì)哈佛輟學(xué)生 Gavin Uberti(前 OctoML 和前 Xnor.ai 員工)和 Chris Zhu,他們與 Robert Wachen 和前賽普拉斯半導(dǎo)體公司首席技術(shù)官 Mark Ross 一起,一直致力于打造專用于 AI 大模型的芯片。兩人在2022年就聲稱Transformer將改變世界。領(lǐng)英資料也顯示公司創(chuàng)立時(shí)間在2022年10月,比ChatGPT問世還早一個(gè)月。
在 Sohu 芯片發(fā)布的同時(shí),Etched 也宣布已完成了 1.2 億美元的 A 輪融資,由 Primary Venture Partners 和 Positive Sum Ventures 共同領(lǐng)投。Etched 的總?cè)谫Y額已達(dá)到 1.2536 億美元,本輪融資的重要投資者包括 Peter Thiel、GitHub 首席執(zhí)行官 Thomas Dohmke、Cruise 聯(lián)合創(chuàng)始人 Kyle Vogt 和 Quora 聯(lián)合創(chuàng)始人 Charlie Cheever。Uberti 聲稱到目前為止,已有匿名客戶預(yù)訂了「數(shù)千萬美元」的硬件,預(yù)計(jì)在今年三季度,Sohu 將推向市場(chǎng)。未來真的如 Uberti 所說,只有在 Sohu 這樣的芯片上,視頻生成、音頻生成、具身智能等技術(shù)才能真正落地嗎?
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/131121.html