(4)數據分析(Data Analysis)
數據分析是 運用 統計方法、機器學習 及 其他技術,從處理後的 數據中
提取 有用資訊 與 洞 察 的過程。
根據分析目的,可分為以下四種主要方法:
第一種: A. 敘述性分析(Descriptive Analysis):
描述數據 的 基本特徵 和 分佈情況。
使用各別有其 優點、限制、適用 領域的
統計指標
(如平均值、中位數、標準差、百分位數 等),以及
圖表
(如直方圖、散佈圖、折線圖 等)
等來 總結 和 呈現 數據。
a. 平均值(Mean):
將一組數據的 所有值相加 後 除以 數據的個數,所得出的結果,
代表了數據的平均水平。
優點:計算簡單,易於理解。
缺點:極端值(離群值)的影響較大,若數據集中有極端值,
平均值可能會 偏離 數據的中心 趨勢。
b. 中位數(Median):
將一組數據按照大小順序排列,位於中間位置的值,如果數
據個數為偶數,則取中間兩個數的平均值。
優點:不受極端值影響,能更好地反映數據的中心趨勢。
缺點:對數據 分布的變動性 不敏感。
c. 標準差(Standard Deviation):
用來衡量一組數據的分散程度,標準差越大,數據的分散程度越大,
反之亦然。
優點:能量化描述數據的分散程度,常用於比較不同組數據的分散情況。
缺點:計算相對複雜,且受極端值影響。
d. 百分位數(Percentile):
將一組數據按照大小順序排列後,將數據分為100 份,
每份佔1%,則第p 百分位數是指有p%的數據小於或等於它的值。
優點:能詳細描述數據的分佈情況,不受極端值影響。
缺點:計算相對複雜,對於較大的數據集計算量較大。
e. 直方圖(Histogram):
將 連續型數據 分 成幾個類別(通常稱為「組」或「bin」),
並 用矩形的高度表 示每個類別中數據的個數。
優點:能直觀地展示數據的分布情況,包括 集中趨勢、分散程度 和
是否有異常值,可快速了解數據的整體樣貌。
缺點:組間隔的選擇會影響直方圖的外觀,不同的組間隔可能產生
不同的視覺效果。
f. 散佈圖(Scatter plot):
用於展示兩個變量之間的關係,每個數據點代表一組觀察值,
其位置由兩個變量的值決定。
優點:能直觀地顯示兩個變量之間的相關性,包括線性相關、非線性相關
或無相關、可以幫助發現異常值。
缺點:當數據點過多時,圖形可能變得擁擠,難以觀察。
g. 折線圖(Line chart):
用於顯示數據 隨 時間 或 其他連續變量 的變化趨勢。
優點:能清晰地 展示 數據的變化趨勢,易於比較不同時間點的數據;
可以顯示多個變量的變化趨勢。
缺點:較不適合 展示 類別型數據。