Wednesday, June 17, 2009

主成份分析(Principal Components Analysis)_概念

主成份分析主要是用來做資料向度縮減的方法,它主要在解釋變項原來的變異量。它的功能包括(王保進,2004):
  1. 向度縮減(dimensional reduction)
  2. 資料與變項篩選(screening):計算各變項的主成份分數,並且繪製成scatter plot來偵測outlier,以免分析產成偏誤。
  3. 試探性分析(exploratory analysis):將保留下來的主成份,做為進一步分析(多元迴歸、區別分析等等)的新變項。
進行主成份分析的步驟如下(王保進,2004):
  • 先確定資料是否適合進行主成份分析:主要方法有Bartlett's sphericity test(球面檢定)以及KMO(MSA)值。另外有一個最初步的方法是計算變項間的相關矩陣,如果相關係數的絕對值小於.3的個數太多,表示應該要刪除此變項。但是如果相關係數大於.85表示變項間會產生ill-condition的狀況,表示應該要刪除該變項。
Bartlett's shpericity test(球面檢定):此檢定法約略呈卡方分配(chi-square),卡方值愈大表示愈適合進行主成份分析。不過此法的缺點在於它很容易推翻虛無假設,所以此法是用來當參考用的。
Kaiser-Meyer-Olkin Measure of Sampling Adequacy(簡稱KMO或是MSA):主要是用來判斷取樣是否適當,而且是以變項間的相關係數進行計算。KMO的值介於0~1之間,愈接近1表示資料愈適合進行主成份分析。一般而言KMO的值只要大於.6就算適當。
  • 要保留的主成份個數:主要依照陡坡考驗(scree test)以及Kaiser準則進行判斷。
陡坡考驗(scree test):主要是依照陡坡圖(scree plot)的繪製來進行判斷。scree plot是以變項的correlation matrix所得之特徵值(eigenvalue)來繪製的。它的判斷基準為找出特徵值曲線突然轉折彎角(elbow)的地方,在該彎角以上的特徵值就是可以保留下來的主成份。
Kaiser準則:因為以scree plot來判斷保留之主成份數量似乎過於主觀,因此Kaiser認為應該留特徵值大於1之主成份。

王保進(2004)。多變量分析 : 套裝程式與資料分析。台北市:高等教育文化。

No comments:

Post a Comment