11. 某研究者希望探索「購買頻率」與「年齡」之間的線性關係,最適合使用下列
哪一種統計方法?
A. 卡方檢定
B. 相關分析
C. K-means 分群
D. 隨機森林分類
答案:B 解題邏輯:探討數值變數間的線性關係應 使用相關分析(如皮爾森相關係 數)。
12. 在建立分類模型前,研究者希望 分出資料中的潛在群體,應採用哪一種技術?
A. One-hot Encoding
B. 推論性統計
C. 分群分析
D. 線性回歸
答案:C 解題邏輯:分群分析屬於非監督式學習,適用於發掘群體特徵。
Q13. 在檢查資料分佈時,某變數的偏態為 Skewness = 0,表示此變數的分佈為:
A. 高峰分佈
B. 左偏分佈
C. 對稱分佈
D. 負相關分佈
答案:C 解題邏輯:Skewness = 0 表示分佈接近對稱,屬於正態分佈特徵之一。
14. 若某欄位的資料同時包含「男」、「M」、「 Male」,最適合採用下列哪一種處理?
A. 編碼轉換
B. 再分群
C. 去除重複
D. 類別標準化
答案:D 解題邏輯:此為分類標籤不一致的情況,應進行類別統一(標準化)處 理。
Q15. 當分析模型表現時,若想同時考慮「精確率」與「召回率」,應使用哪個指標?
A. 交叉驗證
B. 準確率
C. F1 分數
D. ROC 曲線
答案:C 解題邏輯:F1 分數是 精確率 與 召回率 的 調和平均,可平衡兩者。
16. 某資料欄位的值分布非常集中於平均數附近,幾乎沒有極端值,
則其峰度 (Kurtosis)屬於:
A. 高峰態
B. 常態態
C. 低峰態
D. 無峰態
答案:A 解題邏輯:數據高度集中代表高峰態(Leptokurtic), Kurtosis > 3。
17. 當需要檢查分析模型是否過度擬合,應進行下列哪一項操作?
A. 描述性統計
B. 交叉驗證
C. 編碼轉換
D. 變數篩選
答案:B 解題邏輯:交叉驗證能評估 模型的 泛化能力,避免 overfitting。
18. 研究者計劃將年齡資料分為三組:青年、中年、老年,此處使用的資料處理技 巧為:
A. 正規化
B. 資料分箱
C. 獨熱編碼
D. 變數篩選
答案:B 解題邏輯:將 數值資料分群 為 類別 稱為分箱(Binning),常用於類別化處 理。
19. 若希望觀察「廣告預算」與「銷售額」的散佈情形與趨勢關係,應使用哪一種 圖表?
A. 折線圖
B. 長條圖
C. 散佈圖
D. 圓餅圖
答案:C 解題邏輯:散佈圖能呈現 兩個連續變數間 的 關係 與 分佈 特性。
20. 某類別變數具有極多不同值(如顧客 ID),若直接使用 One-hot Encoding,可
能導致下列哪一種問題?
A. 分群誤差
B. 維度爆炸
C. 類別失真
D. 平均偏移
答案:B 解題邏輯:One-hot 編碼在高基數欄位 上會 產生大量欄位,導致維度爆 炸。