2025年8月3日 星期日

2025 08 04 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 永續管理師 AI企畫師 AI 管理顧問師 AI 應用規劃師 AI應用規劃師 數據分析(Data Analysis)根據 分析目的,可分為以下四種主要方法: A. 敘述性分析(Descriptive Analysis):B. 探索性分析(Exploratory Analysis)C. 診斷性分析(Diagnostic Analysis)D. 預測性分析(Predictive Analysis)

數據分析(Data Analysis) 


數據分析  是運用     統計方法、機器學習 其他技術

從  處理後  的  數據中  提取有 用資訊  與  洞察    的過程。

根據   分析目的,可分為以下四種主要方法: 


 A. 敘述性分析(Descriptive Analysis): 

 描述數據的  基本特徵  和  分佈情況。

使用   各別   有其優點、限制、適用領域    的

統 計指標(如平均值、中位數、標準差、百分位數等),以及   

圖         表(如直方圖、散佈 圖、折線圖等)等來總結和呈現數據。


 a. 平均值(Mean):

     將一組數據的所有值相加後除以數據的個數,所得出的結果, 

     代表了數據的平均水平。 

         優點:計算簡單,易於理解。 

         缺點:極端值(離群值)的影響較大,若數據集中有極端值,

        平均值  可能會偏離  數據的中心趨勢。


b. 中位數(Median):

     將一組數據按照大小順序排列,位於中間位置的值,如果數 據個數為偶數,

    則  取中間兩個數    的  平均值

         優點:不受極端值影響,能更好地反映數據的中心趨勢。

         缺點:對數據分布的變動性不敏感。 


 c. 標準差(Standard Deviation):

      用來衡量一組數據的分散程度,標準差越大,數 據的分散程度越大,

      反之亦然。

       優點:能量化描述數據的分散程度,常用於比較不同組數據的分散情況。 

       缺點:計算相對複雜,且受極端值影響。 


 d. 百分位數(Percentile):

       將一組數據按照大小順序排列後,將數據分為 100份, 每份佔1%

       則第p百分位數  是指    有p%的數據   小於或等於   它的值。

        優點:能詳細描述數據的分佈情況,不受極端值影響。

        缺點:計算相對複雜,對於較大的數據集計算量較大。


 e. 直方圖(Histogram):

     將連續型數據   分成幾個類別(通常稱為「組」或「bin」), 

    並   矩形的高度  表   示   每個類別中   數據的個數。 

       優點:能直觀地展示數據的分布情況,包括集中趨勢、分散程度和

                      是否有異 常值,可快速了解數據的整體樣貌。 

      缺點:組間隔的選擇   會影響直方圖的外觀,不同的組間隔

                    可能產生不同的視 覺效果。 


 f. 散佈圖(Scatter plot):

       於展示   兩個變量之間  的  關係,每個數據點代表一組觀 察值,其位置

      由   兩個變量的值   決定。 

       優點:能直觀地顯示兩個變量之間   的  相關性,包括 線性相關非線性相關

                      或 無相關、可以幫助發現異常值 

      缺點:當數據點過多時,圖形可能變得擁擠,難以觀察。 


 g. 折線圖(Line chart):

        用於顯示   數據隨  時間   或  其他連續變量   的變化趨勢。 

        優點:能清晰地展示    數據的  變化趨勢,易於  比較不同時間點  的數據;

                        可以顯 示多個變量的變化趨勢。 

        缺點:較不適合   展示類別型數據