資料處理與分析
在AI 領域中的概念
為了從海量資料中 萃取出有價值的資訊,
統計學 扮演著不可或缺的角色。
從 基礎的 資料敘述統計, 到 進階的 重抽樣 與 模擬技術,
統計學 提供了我們分析資料、驗證模型的堅實基礎。
換句話說,統計學是我們駕馭資料、獲得洞見的指南針。
統計測量數大致包含三種類型:
1.中央趨勢的衡量、
2.分散度的衡量及
3.其他測量數。
分散度之衡量統計量
為 可 衡量資料 之 離散程度,主要用於 尋找變異的 原因 和 性質,
常見的分散度之衡量統計量有:
1. 四分位數(Quartile)、
2. 全距(Range)、
3. 四分 位距(Interquartile Range)、
4. 平均差(Mean Deviation)、
5. 變異數(Coefficient of Variation)及
6.標準差(Standard Deviation)等。
四分位數(Quartile):
所有數值 由小到大 排列 並 分成四等份,
處 於 三個分割點位 置 的 數值 就是 四分位數。
全距(Range, R):
觀察值中的 最大值 減去 最小值後 的數值,由於只考慮
最大 與 最小 兩個觀察值,
未考慮所有觀察值,故不能精確的 反應全體觀察值的 分散情 形,
且會受 極端值 影響。
四分位距(Interquartile Range, IQR):
為統計離差的度量,等於第三 和第一 四分 位之間的差異,
與全距有一樣的缺點。
平均差(Mean Deviation):
每一個 觀察值 與 平均數 之間的差距,其數值越大
表 示 分散程度 越高。
標準差(Standard Deviation):
標準差 是衡量一組 資料分散程度 的 統計量。
當標 準差較大時,表示資料點離平均值的距離較遠,
也就是說,資料的分散程度較 高。
反之,若標準差較小,則表示資料點都聚集在平均值附近,
資料的分散程 度較低。
在品質管理中,標準差常用來評估 產品 或 過程 的 穩定性。
標準差越大, 表示 產品品質 越不穩定,良率越低。