左永安顧問 安永經營管理商學院 主持顧問 VIEWPOINT

2016年11月19日 星期六

2016 11 19 左永安顧問 左記歐洲商行 安永經營管理顧問集團 台北左府(無極)道德宮 天藍海 鹿鳴國際電子商務有限公司 台大 台師大 EMBA 共通核心職能 TTQS ICAP PMP 您可以利用「遺漏值分析」程序,來執行下列三個主要功能: 說明遺漏資料的形式。遺漏值位在何處?範圍有多大?成對的變數是否易於在多個觀察值中出現遺漏值?資料值是否極端?遺漏值是否隨機? 不同遺漏值方法的估計平均數、標準差、共變量和相關性:完全排除、成對、迴歸或 EM (expectation-maximization)。 其中,成對法會將成對完成觀察值的個數,加以顯示出來。 使用迴歸或 EM 方法,以估計值填入(插補)遺漏值;不過,一般認為多重插補可提供更精確的結果。

您可以利用「遺漏值分析」程序,來執行下列三個主要功能:
  • 說明遺漏資料的形式。遺漏值位在何處?範圍有多大?成對的變數是否易於在多個觀察值中出現遺漏值?資料值是否極端?遺漏值是否隨機?
  • 不同遺漏值方法的估計平均數、標準差、共變量和相關性:完全排除、成對、迴歸或 EM (expectation-maximization)。 其中,成對法會將成對完成觀察值的個數,加以顯示出來。
  • 使用迴歸或 EM 方法,以估計值填入(插補)遺漏值;不過,一般認為多重插補可提供更精確的結果。
當資料不完整時,您就可以利用遺漏值分析,來提出因資料不完整,所造成的種種影響。如果有遺漏值的觀察值在系統上與沒有遺漏值的觀察值不同,則結果可能令人誤解。再者,如果遺漏資料,可能會因為資訊少於原先計劃,而降低統計量的精確度。另外還有一個考量就是,許多統計程序的假設基礎,都是建構在完整的觀察值上面的,因此,如果有遺漏值的話,可能就需要使用更複雜的理論。
範例。 在評估血友病的治療結果時,我們會同時評量數個變數。不過,並非每位患者都可以使用每一種測量。所以,我們會顯示遺漏值的形式,製成一覽表,並且發現它們是隨機的。然後再使用 EM 分析功能,來估計平均數、相關和共變異數。它也用來確定資料是隨機完全遺漏。或者,也可以用填入值來取代遺漏值,並將之存入新資料檔中,以供進一步分析。
統計量。 就單變量統計量而言,它包括:非遺漏值個數、平均數、標準差、遺漏值個數,以及極端數值個數。若使用完全排除、成對、EM 或迴歸等方法,則可得到估計平均數、共變異數矩陣,以及相關性矩陣。有 EM 結果的 Little's MCAR 檢定。不同方法的平均數總和。對於用「遺漏值對非遺漏值」所定義的組別而言:t 檢定。 對所有的變數:遺漏值形式顯示出變數觀察值。
資料考量
資料。 您所用的資料,可以是類別或數值(比例或連續)。不過,您可估計統計量並只為定量變數插補遺漏資料。但對每個變數而言,如果遺漏值沒有被編碼成系統遺漏值的話,則必須被定義為使用者遺漏值。舉例來說,若問卷項目中的 Don't know 回應值編碼為 5,而且您又想將其視為遺漏值,則此項目就應該將 5 編碼成使用者遺漏值。請參閱遺漏值主題,以取得更多資訊。
次數加權。 此程序允許次數(重複)加權。具有負或零重複加權值的觀察值會被忽略。系統會截斷非整數加權。
假設。 完全排除、配對和迴歸估計是根據遺漏值形式不依賴資料值的假設。(該條件就是「隨機完全遺漏」或 MCAR)。所以,當資料是 MCAR 時,所有用來估計的方法(包含 EM 方法)對相關值與共變異數都能得到一致而不偏的估計值。違反 MCAR 假設會導致由完全排除、配對和迴歸方法所產生的偏差估計值。如果資料不是 MCAR,您應使用 EM 估計值。
EM 估計是依據遺漏值形式只和觀察資料有關的假設。(這種狀況稱作「隨機遺漏」,或 MAR。)這個假設容許以可用的資訊來調整估計值。例如,在教育程度與收入的研究中,教育程度低的受試者可能有較多的遺漏收入值。在這種情況下,資料是 MAR,而非 MCAR。換句話說,收入會被記錄的機率取決於受試者的教育程度。這個機率會因教育程度而改變,但不會因「該教育程度」的收入而變。如果收入會被記錄的機率也隨著每一個教育程度的收入值而不同(例如,有高收入的人並未申明),則資料既非 MCAR 亦非 MAR。這不是不常發生的狀況,而且,如果發生了,沒有適用的方法。
相關程序。 有許多程序可讓您使用完全排除估計或成對估計。像「線性迴歸」和「因素分析」,就讓您用平均值來置換遺漏值。此外,「預測附加模組」也提供數種方式,讓您置換時間序列中的遺漏值。
取得遺漏值分析
此功能需要「遺漏值分析」選項。
  1. 在功能表上,選擇:
    分析 > 遺漏值分析...
  2. 至少選擇一個數值(尺度)變數以估計統計量和隨意選擇插補遺漏值。
您可以:
  • 選取類別變數(數字或字串),然後輸入類別個數的上限(最大類別)。
  • 按一下「形式」將遺漏資料的形式列表。如需相關資訊,請參閱主題 顯示遺漏值形式
  • 按一下「描述性統計量」來顯示遺漏值的描述性統計量。如需相關資訊,請參閱主題 顯示遺漏值的描述性統計量
  • 選取一個方法來估計統計量 (平均數、共變異數與相關) 與可能的插補遺漏值。如需相關資訊,請參閱主題 估計統計量和插補遺漏值
  • 如果您選取「EM 方法」或「迴歸方法」,請按一下「變數」,來指定估計所使用的子集。如需相關資訊,請參閱主題 預測與已預測變數
  • 選取一個觀察值標籤變數。此變數用來在顯示個別觀察值的形式表中標示觀察值。