在人工智能領域,每一天都可能發生顛覆性的變革。就在Midjourney剛剛進行大更新的第二天,開源圖像生成領域就迎來了一匹令人矚目的黑馬——FLUX.1。這個突如其來的新玩家不僅在性能上聲稱大幅超越了DALL·E3、Midjourney V6等閉源模型,還將開源的SD3系列全線秒殺,瞬間引爆了AI圈。
出道即巔峰專找最硬的打,有點喬峰橫掃聚賢莊的意思。原來剛成立的FLUX.1的創始人是大名鼎鼎的Robin Rombach。Robin是擴散模型領域的權威之一,其代表作有VQGAN、Taming Transformers和Latent Diffusion。
后來,Stability AI收購了Robin的Latent Diffusion模型,并聘請他成為首席科學家,期間他領導了全球著名文生圖開源項目Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。
今年3月,由于Stability AI內部出現動蕩,Robin選擇離開。經過四個月的沉淀,他帶著新的開源大模型平臺FLUX.1重磅回歸。更令人驚訝的是,FLUX.1一亮相就獲得了由著名風投機構Andreessen Horowitz領投的3200萬美元種子輪融資。這無疑為FLUX.1的未來發展注入了強心劑。
那么,FLUX.1到底有什么過人之處?
FLUX.1在視覺質量、圖像細節和輸出多樣性等方面性能優越,其具有三大特點:文字生成、復雜構圖、人手描繪。 文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復字母的棘手單詞,例如生成一個黑森林Flux Schnell蛋糕:
而在構圖方面,FLUX.1則表現出來非常擅長遵循復雜的指令,確定圖像中事物的位置的能力。
例如,FLUX.1完美地演繹了這段提示詞:三個魔法巫師站在一張黃色桌子上,每個巫師都拿著一個標志。左邊,一個穿著黑色長袍的巫師拿著一個寫著“AI”的標志;中間,一個穿著紅色長袍的女巫拿著一個寫著“is”的標志;在右邊,一個穿著藍色長袍的巫師拿著一個寫著“cool”的標志。
人手一直是多模態生成模型的重災區。FLUX.1生成的人手圖像雖然還稱不上是完美,但實現了很大的進步。
FLUX.1共有專業版、開發者版、快速版三種版本。
其中,FLUX.1[pro]是最先進的一個版本,具有頂級的即時跟蹤、視覺質量、圖像細節和輸出多樣性,面向專業用戶提供定制的企業解決方案。
FLUX.1[dev]面向非商業應用,它從FLUX.1[pro]提煉而來,具有相似的質量和能力,同時比相同尺寸的標準模型更高效。
FLUX.1[schnell]是三款模型中最快的,專為本地開發和個人使用而定制,并根據Apache 2.0標準許可公開提供。
性能方面,FLUX.1經過特別微調,在預訓練中保留了整個輸出多樣性,在指令遵守、視覺質量、尺寸/長寬變化等多個方面樹立了新標準。
其中FLUX.1[pro]和[dev]兩款模型,在5項測評標準中都超過了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型。 FLUX.1[schnell]作為輕量級模型,不僅優于同類競爭對手,還優于Midjourney v6.0、DALL·E 3等強大的非蒸餾模型。
此外,所有FLUX.1模型均支持0.1和2.0百萬像素的多種寬高比和分辨率。以下是一些實例作品:
而如此強大的性能是怎么做到的?
在模型架構上,FLUX.1采用基于多模態和并行擴散Transformer模塊的混合架構,并將其擴展到12B參數。
團隊通過建立流匹配(Flow Matching)來改進最先進的擴散模型,并通過結合旋轉位置嵌入(Rotary Position Embedding)和并行注意力層,來提高模型性能和硬件效率。
根據FLUX.1團隊的測試數據,即便是開源的Schnell版本,在文本語義還原、圖片質量、動作一致性、連貫性和多樣性等方面,也超越了Midjourney v6.0、DALL·E3(HD)和SD3-Ultra等主流模型。特別是在文本嵌入圖片方面,FLUX.1展現出了明顯的優勢。
Flux.1由Stable Diffusion的創始團隊成立,該團隊此前的工作還包括高質量圖像生成模型VQGAN、視頻生成模型Stable Video Diffusion等。
Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持續開發SD后續版本的成員,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在該項目創始團隊中。
該團隊稱,其核心信念是開發廣泛可訪問的模型,促進研究界和學術界的創新和協作,并提高模型透明度。 在下一步的工作上,工作室預告將發布一款SOTA文生視頻模型,“讓所有人都能將文本轉為視頻”。該模型將建立在FLUX.1的基礎上,“以高清和前所未有的速度實現精確創作和編輯”。
在眾多大廠、創企狂卷文生視頻之際,文生圖領域突然迎來黑馬。
“橫空出世”的FLUX.1的不僅展現出卓越的性能,在文字生成、復雜構圖、人手描繪等方面突破難關,還以多樣化的版本滿足不同用戶的需求。
對于開發者和AI愛好者來說,FLUX.1的出現無疑是一個重大利好。Schnell版本已經完全開源,并獲得了Comfyui的支持。
如果你有36G以上的顯存,甚至可以運行t5的fp16版本。FLUX.1的橫空出世,不僅為開源AI圖像生成領域帶來了新的希望,也為整個AI行業注入了新的活力。它的強大性能和開源特性,很可能會加速AI圖像生成技術的普及和創新。對于普通用戶來說,這意味著我們可能很快就能在家用電腦上運行媲美甚至超越Midjourney的AI圖像生成模型。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/131145.html
GLM-4-Plus是智譜AI最新推出的旗艦級預訓練語言模型,標志著公司在人工智能技術上取得了重大突破。相比前一代GLM-3模型,GLM-4-Plus在多個關鍵指標上實現了大幅提升,尤其是在語言理解能力、指令遵循能力和長文本處理能力方面。這些進步使得GLM-4-Plus在各類自然語言處理任務中的表現更加出色。主要更新語言基座模型 GLM-4-Plus:在語言理解、指令遵循、長文本處理等方面性能得到...
前幾個月OpenAI大名鼎鼎的Sora 一經發布,似乎象征著視頻領域已經進入了生成式 AI 時代。不過直到今天,我們仍然沒有用上OpenAI 的官方視頻生成工具,等不及的人們已經開始尋找其他的方法。其中不乏一些國內的廠商如快手的可靈等等。而在近日,一款全新的開源視頻編輯工具 Clapper 引發了人們的關注。與其他的文生視頻或者文生視頻工具不同,這款工具的設計目的并非取代傳統視頻編輯器,或使用 3...
摘要:損失函數此次競賽我們采用的基線損失函數為,該損失函數在訓練過程中模擬課程學習的思想,按照樣本從易到難的順序進行訓練。 1. 引言10月11-17日,萬眾期待的國際計算機視覺大會 ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全...
摘要:本文著重以人臉識別為例介紹深度學習技術在其中的應用,以及優圖團隊經過近五年的積累對人臉識別技術乃至整個人工智能領域的一些認識和分享。從年左右,受深度學習在整個機器視覺領域迅猛發展的影響,人臉識別的深時代正式拉開序幕。 騰訊優圖隸屬于騰訊社交網絡事業群(SNG),團隊整體立足于騰訊社交網絡大平臺,專注于圖像處理、模式識別、機器學習、數據挖掘、深度學習、音頻語音分析等領域開展技術研發和業務落地。...
閱讀 156·2024-12-10 11:51
閱讀 303·2024-11-07 17:59
閱讀 328·2024-09-27 16:59
閱讀 466·2024-09-23 10:37
閱讀 540·2024-09-14 16:58
閱讀 334·2024-09-14 16:58
閱讀 531·2024-08-29 18:47
閱讀 811·2024-08-16 14:40