NVIDIA和MIT的研究人員推出了一種新的視覺(jué)語(yǔ)言模型(VLM)預(yù)訓(xùn)練框架,名為VILA。這個(gè)框架旨在通過(guò)有效的嵌入對(duì)齊和動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)架構(gòu),改進(jìn)語(yǔ)言模型的視覺(jué)和文本的學(xué)習(xí)能力。VILA通過(guò)在大規(guī)模數(shù)據(jù)集如Coy0-700m上進(jìn)行預(yù)訓(xùn)練,采用基于LLaVA模型的不同預(yù)訓(xùn)練策略進(jìn)行測(cè)試。研究人員還引入了視覺(jué)指令調(diào)整方法,利用視覺(jué)語(yǔ)言數(shù)據(jù)集進(jìn)行基于提示的指令調(diào)整來(lái)細(xì)化模型。VILA在視覺(jué)問(wèn)答基準(zhǔn)測(cè)試中...