2025年10月23日 星期四

2025 10 24 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 人工智慧基礎概論 (L11) (4)數據分析(Data Analysis) A. 敘述性分析(Descriptive Analysis):a. 平均值(Mean):b. 中位數(Median): c. 標準差(Standard Deviation): d. 百分位數(Percentile): e. 直方圖(Histogram): f. 散佈圖(Scatter plot): g. 折線圖(Line chart):

 (4)數據分析(Data Analysis)

          數據分析是 運用  統計方法、機器學習  及  其他技術從處理後的 數據中 

         提取  有用資訊  與   洞 察    的過程。


         根據分析目的,可分為以下四種主要方法:


    第一種:  A. 敘述性分析(Descriptive Analysis):

             描述數據 的  基本特徵 和  分佈情況

           使用各別有其  優點、限制、適用  領域的

         統計指標

           (如平均值、中位數、標準差、百分位數 等),以及

            圖表

          (如直方圖、散佈圖、折線圖 等)

         等來 總結  和 呈現  數據


          a. 平均值(Mean):

          將一組數據的 所有值相加 後  除以 數據的個數,所得出的結果,

          代表了數據的平均水平。

             優點:計算簡單,易於理解。

             缺點:極端值(離群值)的影響較大,若數據集中有極端值,

                         平均值可能會  偏離  數據的中心  趨勢。


          b. 中位數(Median):

             將一組數據按照大小順序排列,位於中間位置的值,如果數

             據個數為偶數,則取中間兩個數的平均值

           優點:不受極端值影響,能更好地反映數據的中心趨勢。

           缺點:數據  分布的變動性 不敏感


         c. 標準差(Standard Deviation):

           用來衡量一組數據的分散程度,標準差越大,數據的分散程度越大,

           反之亦然。

           優點:能量化描述數據的分散程度,常用於比較不同組數據分散情況

           缺點:計算相對複雜,且受極端值影響。


        d. 百分位數(Percentile):

            將一組數據按照大小順序排列後,將數據分為100 份,

            每份佔1%,則第p 百分位數是指有p%的數據小於或等於它的值。

          優點:能詳細描述數據的分佈情況,不受極端值影響。

          缺點:計算相對複雜,對於較大的數據集計算量較大。


       e. 直方圖(Histogram):

          將   連續型數據   分 成幾個類別(通常稱為「組」或「bin」),

          並  用矩形的高度表  示每個類別中數據的個數。

          優點:能直觀地展示數據的分布情況,包括  集中趨勢、分散程度  和

                      是否有異常值,可快速了解數據的整體樣貌。

          缺點:組間隔的選擇會影響直方圖的外觀不同的組間隔可能產生

                     不同的視覺效果。


        f. 散佈圖(Scatter plot):

           用於展示兩個變量之間的關係,每個數據點代表一組觀察值,

           其位置由兩個變量的值決定。

          優點:能直觀地顯示兩個變量之間的相關性,包括線性相關、非線性相關

                      或無相關、可以幫助發現異常值。

          缺點:當數據點過多時,圖形可能變得擁擠,難以觀察。


       g. 折線圖(Line chart):

          用於顯示數據    隨   時間  或  其他連續變量    的變化趨勢。

         優點:能清晰地 展示 數據的變化趨勢易於比較不同時間點的數據; 

                     可以顯多個變量的變化趨勢。

         缺點:較不適合 展示  類別型數據