2025年10月20日 星期一

2025 10 20 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 人工智慧基礎概論 (L11) Gemini ChatGPT perplexity Claude 大型多模態模型 多模態模型(Large Multimodal Models)是指能同時處理多種資料類型的 機器學習模型,包括文字 、圖像、音訊和視訊等。此類模型相較於傳統 專注於單一資料類型的 AI模型,更強調跨模態協同以提升任務準確度。 • 在過去一年內,OpenAI、Anthropic、Perplexity 與 Google 先後發布能 同時理解與生成文字、影像、語音甚至程式碼的新模型;這些新模型都 已從單純的文字生成工具躍升為可支援多場域應用的大型多模態模型。

   大型多模態模型 

    多模態模型(Large Multimodal Models)

     是指能同時處理  多種資料類型  機器學習模型

     包括文字 、圖像、音訊和視訊等。

     此類模型相較於傳統 專注於單一資料類型的 AI模型,

     更強調   跨模態 協同   以提升  任務準確度。 

     在過去一年內,OpenAI、Anthropic、Perplexity 與 Google 

     先後發布     能    同時  理解     與  生成   

     文字、影像、語音  甚至  程式碼    的  新模型

     這些新模型   都 已 從單純的文字生成工具  躍升為   

     可支援 多場域應用    大型多模態模型