數據分析(Data Analysis)
數據分析 是運用 統計方法、機器學習 及 其他技術,
從 處理後 的 數據中 提取有 用資訊 與 洞察 的過程。
根據 分析目的,可分為以下四種主要方法:
A. 敘述性分析(Descriptive Analysis):
描述數據的 基本特徵 和 分佈情況。
使用 各別 有其優點、限制、適用領域 的
統 計指標(如平均值、中位數、標準差、百分位數等),以及
圖 表(如直方圖、散佈 圖、折線圖等)等來總結和呈現數據。
a. 平均值(Mean):
將一組數據的所有值相加後除以數據的個數,所得出的結果,
代表了數據的平均水平。
優點:計算簡單,易於理解。
缺點:極端值(離群值)的影響較大,若數據集中有極端值,
平均值 可能會偏離 數據的中心趨勢。
b. 中位數(Median):
將一組數據按照大小順序排列,位於中間位置的值,如果數 據個數為偶數,
則 取中間兩個數 的 平均值。
優點:不受極端值影響,能更好地反映數據的中心趨勢。
缺點:對數據分布的變動性不敏感。
c. 標準差(Standard Deviation):
用來衡量一組數據的分散程度,標準差越大,數 據的分散程度越大,
反之亦然。
優點:能量化描述數據的分散程度,常用於比較不同組數據的分散情況。
缺點:計算相對複雜,且受極端值影響。
d. 百分位數(Percentile):
將一組數據按照大小順序排列後,將數據分為 100份, 每份佔1%,
則第p百分位數 是指 有p%的數據 小於或等於 它的值。
優點:能詳細描述數據的分佈情況,不受極端值影響。
缺點:計算相對複雜,對於較大的數據集計算量較大。
e. 直方圖(Histogram):
將連續型數據 分成幾個類別(通常稱為「組」或「bin」),
並 用 矩形的高度 表 示 每個類別中 數據的個數。
優點:能直觀地展示數據的分布情況,包括集中趨勢、分散程度和
是否有異 常值,可快速了解數據的整體樣貌。
缺點:組間隔的選擇 會影響直方圖的外觀,不同的組間隔
可能產生不同的視 覺效果。
f. 散佈圖(Scatter plot):
於展示 兩個變量之間 的 關係,每個數據點代表一組觀 察值,其位置
由 兩個變量的值 決定。
優點:能直觀地顯示兩個變量之間 的 相關性,包括 線性相關、非線性相關
或 無相關、可以幫助發現異常值。
缺點:當數據點過多時,圖形可能變得擁擠,難以觀察。
g. 折線圖(Line chart):
用於顯示 數據隨 時間 或 其他連續變量 的變化趨勢。
優點:能清晰地展示 數據的 變化趨勢,易於 比較不同時間點 的數據;
可以顯 示多個變量的變化趨勢。
缺點:較不適合 展示類別型數據。