2025年9月11日 星期四

2025 09 12 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 AI應用規劃師(初級) 人工智慧基礎概論 (L11)  L113機器學習概念 機器學習是如何運作的 1、資料收集與準備 2、選擇合適的演算法模型 3、開始模型訓練 4、模型分析評估 5、模型優化與調參 6、模型部署與應用 7、持續改進

 機器學習是如何運作的





    

  1、資料收集與準備

               數據 是機器學習的核心。

               1.1首先需要從數據庫、文件、API或其他來源收集數據

               1.2 接下來是 數據清洗包括處理缺失值(刪除、填充或插值)、

                       修正異常值或錯誤數據。

                數據的質量直接  影響模型  效能

                因此  數據準備  是整個流程中   最重要 且 耗時  的  步驟之一。


        2、選擇合適的演算法模型

                依據   問題類型  和  數據特點   選擇合適  的  演算法 是 關鍵

                分類問題   可以使用

                      2.1邏輯回歸

                      2.2決策樹

                      2.3支持向量機

                      2.4隨機森林

                      2.5神經網路


                  回歸問題   適合

                     2.6 線性回歸

                     2.7 嶺回歸

                     2.8  Lasso回歸


                   聚類問題  可以使用

                     2.9    K均值

                     2.10  層次聚類

                     2.11  DBSCAN

                  此外,還需考慮   數據  規模 和 複雜性


                    小數據集  適合     簡單模型(如決策樹或線性回歸),而

                   大數據集  則適合 深度學習模型(如神經網路)

                   演算法選擇  直接影響  模型的  效能 和 效率


           3、開始模型訓練

                     模型訓練 是將  數據  輸入模型  並  調整參數  

                     以 最小化預測誤差  的過程。

                      首先需要 將數據劃 分為

                       3.1訓練集:   用於   模型學習

                       3.2驗證集:   用於   超參數調整

                       3.3測試集     用於   最終評估


                       訓練過程包括

                       3.4   前向傳播  (生成預測)

                       3.5   計算損失   

                       3.6   反向傳播(調整參數)

                       3.7   直到模型收斂(損失不再顯著下降)


                4、模型分析評估

                      模型評估 的 目的 是  驗證模型  的  效能 和 泛化 能力

                      常用的 效能指標  包括

                      分類任務中

                           4.1   準確率

                           4.2   召回率

                           4.3   F1分數

                           4.4   AUC-ROC曲線

                       回歸任務中

                           4.5 均方誤差(MSE)

                           4.6 均方根誤差(RMSE)

                           4.7 平均絕對誤差(MAE)


                     通過評估可以發現模型的不足

                     例如    過擬合 或 欠擬合,並為後續優化提供方向


               5、模型優化與調參

                       模型優化是  提升效能 的  關鍵步驟

                       超參數調整 是 核心

                       可以通過

                            5.1網格搜尋(Grid Search)

                            5.2隨機搜尋(Random Search)

                            5.3貝葉斯優化

                        等方法尋  找最佳超參數組合


                       正則化技術(如L1/L2正則化或Dropout)

                         可以 防止過擬合,而

                       集成學習(如投票法、Bagging或Boosting)

                        則  通過   組合多個模型   提高效能。

                        優化的目的是在 保持模型 泛化能力  的同時,

                        盡可能 提高  其在 測試集上  表現


            6、模型部署與應用

                       模型部署  是  將 訓練好的模型  應用到  實際場景中的過程。


                       首先需要

                         將 模型 保存為  文件(如.pkl或.h5)

                        然後

                         根據需求    部署方式

                          例如

                          6.1 本地部署(集成到應用程式中)或

                          6.2 雲端部署(通過API提供服務,如Flask、Django或FastAPI)。


                          部署後 需要

                               6.3 持續監控  模型效能

                               6.4 檢測          數據漂移或概念漂移,並

                               6.5定期           重新 訓練模型

                        以適應新數據,確保模型在實際應用中保持 高效 和 準確


                 7、持續改進

                              機器學習 是一個動態過程,需要

                              通過 回饋循環 和 A/B測試  不斷  優化 模型

                              收集使用者   回饋或新數據,用於模型的持續改進。

                              A/B測試       可以比較不同模型版本的效能,選擇最優方案。

                        通過不斷  迭代Iterative Method,模型能夠適應變

                        化  的  環境 和 需求  保持最佳效能

                      持續改進  是  確保模型  長期有效性  的關鍵步驟