NVIDIA和MIT的研究人員推出了一種新的視覺語言模型(VLM)預訓練框架,名為VILA。這個框架旨在通過有效的嵌入對齊和動態神經網絡架構,改進語言模型的視覺和文本的學習能力。VILA通過在大規模數據集如Coy0-700m上進行預訓練,采用基于LLaVA模型的不同預訓練策略進行測試。研究人員還引入了視覺指令調整方法,利用視覺語言數據集進行基于提示的指令調整來細化模型。VILA在視覺問答基準測試中...