(2)數據清洗(Data Cleaning):
數據清洗 是 提升數據品質的重要步驟,目的是解決數據中的
遺缺值、重複值、錯誤值與不一致性問題,
確保數據的完整性與可靠性。
以下是常見 資料清洗過程 的核心內容:
A. 遺缺值(Missing Value)處理
遺缺值 是指 數據中 某些欄位沒有記錄 有效數據,需根據業務需求
選擇適當的處理方式:
填補遺缺值:
使用統計方法填補(例如平均值、中位數、眾數等),
或是利用插補法(Interpolation)或 預測模型 填補遺缺值
(如基於迴歸分析預測等)。
刪除記錄:
如果遺缺值 占比高 或 數據不可修復,可直接刪除相關記錄
(需謹慎 評估刪除 對樣本代表性 的影響)。
B. 重複值(Duplicate Value)處理
重複值 是指數據中存在相同內容的記錄,可能因多次導入資料或
錯誤記錄而產生。
識別重複值:
透過 檢查主鍵、唯一識別碼 或 關鍵欄位,
確認是否存在重複記錄。
刪除重複值:
保留一份正確的記錄,刪除其他重複項。
C. 錯誤值(Error/Invalid Value)處理
指數據中的值不符合合理範圍或 存在明顯錯誤。
檢測並修正明顯的錯誤值
(例如超出合理範圍的數值、拼寫錯誤等),例如:
年齡出現負數(如-5 歲)、錯誤的拼寫(如Taiwan 被記錄為Taiwwn)。
D. 離群值(Outlier Value)處理
指數據中 遠離大多數其他數據點 的異常值,
通常可能是有意義的數據 而 非 錯誤值。
離群值是數據集中明顯偏離其他數據點的異常值,
可能反映數據的 異常情況,也可能是雜訊或錯誤。
在處理離群值時,需要根據 業務需求和分析目標採取適當策略。