1. 研究團隊希望 從使用者行為 紀錄中 自動蒐集資料 來 分析商品 瀏覽頻率,
最適合 使用下列哪一種資料收集方法?
A. 問卷調查
B. 訪談紀錄
C. 網路爬蟲
D. 實驗觀察
答案:C 解題邏輯:網路爬蟲 可針對 網頁或 平台自動化 收集使用者行為 紀錄,
適合 大規模行為資料。
2. 資料清理時發現有筆資料的「年齡」欄位顯示為 200,
應優先採取哪種處理方 式?
A. 替換為平均年齡
B. 設為 0
C. 標註為遺漏值或刪除
D. 移入新欄位儲存
答案:C 解題邏輯:200 歲屬於不合理異常值,應透過刪除或轉為缺失值方式
處 理。
3. 下列哪一種資料型態最適合使用「眾數(Mode)」來進行分析?
A. 股票價格
B. 平均收入
C. 學歷程度
D. 商品庫存數量
答案:C 解題邏輯:眾數適合用於類別資料分析,如教育程度(小學、國中等)。
Q4. 若一份資料在 極少數案例下 出現極大值,最適合使用下列
哪種集中趨勢指標?
A. 平均數
B. 中位數
C. 眾數
D. 標準差
答案:B 解題邏輯:中位數可降低極端值對分析結果的影響。
5. 資料清洗流程中,將「VIP-999」這類不合理的分類標籤 統整為 標準分類,
屬於 哪一種處理?
A. 標準化格式
B. 編碼轉換
C. 重複值刪除
D. 異常類別重編
答案:D 解題邏輯:「VIP-999」屬於異常類別,需 重新映射 或統一類別標籤。
6. 若要觀察考試成績的分佈情形及是否存在極端低分,最適合使用哪一種圖表?
A. 圓餅圖
B. 散佈圖
C. 長條圖
D. 箱形圖
答案:D 解題邏輯:箱形圖可揭示中位數、四分位數與異常值。
7. 在建立迴歸模型前,為使特徵具有相似尺度,應使用下列哪一種資料處理方 法?
A. 資料分箱
B. One-hot 編碼
C. 標準化
D. 分群分析
答案:C 解題邏輯:標準化(Z-score)可將特徵轉為均值 0、標準差 1,
有助於線 性模型建模。
8. 某公司發現其銷售金額右偏(少數高額訂單拉高均值),該資料的偏態為:
A. 無偏態
B. 負偏態
C. 正偏態
D. 高峰態
答案:C 解題邏輯:右偏表示尾部拉長往右,常見於財富或銷售數據。
9. 針對「教育程度」欄位進行機器學習分析時,若其包含
「小學、國中、高中、 大學」,最適合的編碼方式是?
A. One-hot 編碼
B. Label 編碼
C. Binary 編碼
D. 轉為缺失值
答案:B 解題邏輯:「教育程度」為有序類別,使用 Label 編碼可保留順序關係。
10. 在進行類別變數轉換時,若資料欄位為「城市名稱」共計 200 個類別,
以下哪 種編碼方法最能避免維度爆炸?
A. One-hot 編碼
B. 標籤編碼
C. 二進位編碼
D. 均值填補
答案:C 解題邏輯:Binary Encoding 適用於高基數類別,可有效壓縮欄位數。