大型多模態模型
多模態模型(Large Multimodal Models)
是指能同時處理 多種資料類型 的 機器學習模型,
包括文字 、圖像、音訊和視訊等。
此類模型相較於傳統 專注於單一資料類型的 AI模型,
更強調 跨模態 協同 以提升 任務準確度。
在過去一年內,OpenAI、Anthropic、Perplexity 與 Google
先後發布 能 同時 理解 與 生成
文字、影像、語音 甚至 程式碼 的 新模型;
這些新模型 都 已 從單純的文字生成工具 躍升為
可支援 多場域應用 的 大型多模態模型。