半監督式學習
定義 半監督學習 指的是:
在訓練時,同時 利用少量 有標籤資料 和 大 量 無標籤資料 來建立模型。
這種方法可以 彌補實務中 標記資料難取得、成本高的問題。
核心概念
半監督學習 透過少量 有標籤資料 引導學習,同時 從大量 無標籤資料中
提取 數據 結構、分布 等隱含特徵,以 提高 模型 的泛化能力。
常見方法
•自訓練(Self-training):
用 初始模 型 標記 無標籤資料,然後用這些 自標記 資料 再訓練。
•共訓練(Co-training):
使用兩個或多個模型,互相交換 信心高 的 預測結果 進行學習。
•圖式方法(Graph-based methods):
利用 資料點間 的相似性,將標籤資訊 在圖中傳播。
•半監督生成模型:
例如 半監督 變分自編碼器(Semi-supervised VAE)、半監 督GAN等
優勢
•減少標記成本
•提升模型在無標籤資料上的應用效能
•適用於 資料標註困難、需要專家知識的領域(如醫學影 像、法律文件)
挑戰 '
•不正確的標籤 擴散可能 引發 連鎖錯誤
•模型 過於依賴 未標記資料 的 分布假設