2025年7月17日 星期四

2025 07 17 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 永續管理師 AI企畫師 AI 管理顧問師 AI 應用規劃師 路爬蟲 可針對網頁或平台自動化收集使用者行為紀錄, 適合 大規模行為資料。

1. 研究團隊希望  從使用者行為   紀錄中  自動蒐集資料  來 分析商品  瀏覽頻率,

       最適合 使用下列哪一種資料收集方法? 

 A. 問卷調查 

 B. 訪談紀錄 

 C. 網路爬蟲 

 D. 實驗觀察  

答案:C 解題邏輯:網路爬蟲 可針對  網頁平台自動化  收集使用者行為 紀錄,

           適合 大規模行為資料。 


2.  資料清理時發現有筆資料的「年齡」欄位顯示為 200,

       應優先採取哪種處理方 式? 

 A. 替換為平均年齡 

 B. 設為 0 

 C. 標註為遺漏值或刪除

 D. 移入新欄位儲存  

答案:C 解題邏輯:200 歲屬於不合理異常值,應透過刪除或轉為缺失值方式

            處 理。 


 3. 下列哪一種資料型態最適合使用「眾數(Mode)」來進行分析? 

 A. 股票價格 

 B. 平均收入 

 C. 學歷程度 

 D. 商品庫存數量  

答案:C 解題邏輯:眾數適合用於類別資料分析,如教育程度(小學、國中等)。

 Q4. 若一份資料在   極少數案例下   出現極大值,最適合使用下列

        哪種集中趨勢指標? 

 A. 平均數 

 B. 中位數 

 C. 眾數 

 D. 標準差

 答案:B 解題邏輯:中位數可降低極端值對分析結果的影響。


5. 資料清洗流程中,將「VIP-999」這類不合理的分類標籤 統整為  標準分類,

    屬於 哪一種處理? 

 A. 標準化格式 

 B. 編碼轉換 

 C. 重複值刪除 

 D. 異常類別重編  

答案:D 解題邏輯:「VIP-999」屬於異常類別,需 重新映射 統一類別標籤。 


6. 若要觀察考試成績的分佈情形及是否存在極端低分,最適合使用哪一種圖表? 

 A. 圓餅圖 

 B. 散佈圖 

 C. 長條圖 

 D. 箱形圖 

 答案:D 解題邏輯:箱形圖可揭示中位數、四分位數與異常值。 


 7. 在建立迴歸模型前,為使特徵具有相似尺度,應使用下列哪一種資料處理方 法?   

A. 資料分箱 

 B. One-hot 編碼 

 C. 標準化 

 D. 分群分析  

答案:C 解題邏輯:標準化(Z-score)可將特徵轉為均值 0、標準差 1,

            有助於線 性模型建模。


8. 某公司發現其銷售金額右偏(少數高額訂單拉高均值),該資料的偏態為: 

 A. 無偏態 

 B. 負偏態 

 C. 正偏態

D. 高峰態 

 答案:C 解題邏輯:右偏表示尾部拉長往右,常見於財富或銷售數據。 


9. 針對「教育程度」欄位進行機器學習分析時,若其包含

    「小學、國中、高中、 大學」,最適合的編碼方式是? 

 A. One-hot 編碼 

 B. Label 編碼 

 C. Binary 編碼 

 D. 轉為缺失值 

 答案:B 解題邏輯:「教育程度」為有序類別,使用 Label 編碼可保留順序關係。


10. 在進行類別變數轉換時,若資料欄位為「城市名稱」共計 200 個類別,

     以下哪 種編碼方法最能避免維度爆炸? 

 A. One-hot 編碼 

 B. 標籤編碼 

 C. 二進位編碼 

 D. 均值填補 

 答案:C 解題邏輯:Binary Encoding 適用於高基數類別,可有效壓縮欄位數。