2025年10月23日 星期四

2025 10 23 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 人工智慧基礎概論 (L11) A. 遺缺值(Missing Value)處理 B. 重複值(Duplicate Value)處理 C. 錯誤值(Error/Invalid Value)處理 D. 離群值(Outlier Value)處理 (2)數據清洗(Data Cleaning): 數據清洗 是 提升數據品質的重要步驟,目的是解決數據中的 遺缺值、重複值、錯誤值與不一致性問題, 確保數據的完整性與可靠性。

 

(2)數據清洗(Data Cleaning):

數據清洗   提升數據品質重要步驟,目的是解決數據中的

遺缺值、重複值、錯誤值與不一致性問題,

確保數據的完整性與可靠性。


以下是常見 資料清洗過程   的核心內容:


     A. 遺缺值(Missing Value)處理

        遺缺值 是指 數據中  某些欄位沒有記錄  有效數據,需根據業務需求

        選擇適當的處理方式:

            填補遺缺值:

                  使用統計方法填補(例如平均值、中位數、眾數等),

                  或是利用插補法(Interpolation)或 預測模型 填補遺缺值

                (如基於迴歸分析預測等)。


           刪除記錄:

                  如果遺缺值  占比高 數據不可修復可直接刪除相關記錄

               (需謹慎   評估刪除  對樣本代表性  的影響)。


     B. 重複值(Duplicate Value)處理

                 重複值 是指數據中存在相同內容的記錄,可能因多次導入資料或

                 錯誤記錄而產生。

              識別重複值:

                  透過  檢查主鍵、唯一識別碼  或  關鍵欄

                 確認是否存在重複記錄。

           刪除重複值:

                  保留一份正確的記錄,刪除其他重複項。


     C. 錯誤值(Error/Invalid Value)處理

                   指數據中的值不符合合理範圍或  存在明顯錯誤

              檢測並修正明顯的錯誤值

                (例如超出合理範圍的數值、拼寫錯誤等),例如:

                    年齡出現負數(如-5 歲)、錯誤的拼寫(如Taiwan 被記錄為Taiwwn)。


     D. 離群值(Outlier Value)處理

                 指數據中 遠離大多數其他數據點   的異常值

                  通常可能是有意義的數據  而  非  誤值。

            離群值是數據集中明顯偏離其他數據點的異常值

           可能反映數據的    異常情況,也可能是雜訊或錯誤。

            在處理離群值時,需要根據 業務需求和分析目標採取適當策略