pca 예제

공분산 행렬은 초기 변수의 가능한 모든 쌍과 연관된 공분산을 항목으로 포함하는 p ×p 대칭 행렬(여기서 p는 치수)입니다. 예를 들어, 3개의 변수 x, y 및 z가 있는 3차원 데이터 세트의 경우 공분산 행렬은 이로부터 3×3 행렬입니다: 데이터에 변수가 있는 만큼 많은 주 성분이 있기 때문에, 주 성분은 첫 번째 pri방식으로 구성됩니다. ncipal 구성 요소는 데이터 집합에서 가능한 가장 큰 분산을 차지합니다. 예를 들어, 데이터 집합의 분산형 플롯이 아래와 같이 첫 번째 주성분을 추측할 수 있다고 가정해 보겠습니다. 예, 그것은 원점을 통과하기 때문에 보라색 마크와 일치하는 대략 라인이며 점 (빨간색 점)의 투영이 가장 많이 분산되는 선입니다. 또는 수학적으로 말하자면 분산을 최대화하는 선입니다(투영된 점(빨간색 점에서 원점까지의 제곱 거리의 평균). 이제 주요 구성 요소의 의미를 이해되었으므로 고유 벡터와 고유 값으로 돌아가보겠습니다. 당신이 먼저 그들에 대해 알아야 할 것은 모든 고유 벡터가 고유 가치를 가지고 있도록, 그들은 항상 쌍으로 와서 있다는 것입니다. 그리고 그 수는 데이터의 차원 의 수와 같습니다.

예를 들어 3차원 데이터 집합의 경우 3개의 변수가 있으므로 3개의 고유값값을 가진 3개의 고유 벡터가 있습니다. 아래 예제는 작은 3×2 행렬을 정의하고, 행렬의 데이터를 중심으로, 중심 데이터의 공분산 행렬을 계산한 다음 공분산 행렬의 이젠분해화를 계산합니다. 고유 벡터와 고유 값은 주 성분 및 특이값으로 간주되어 원래 데이터를 투영하는 데 사용됩니다. 보다 구체적으로, PCA 이전에 표준화를 수행하는 것이 중요한 이유는 후자가 초기 변수의 분산에 대해 매우 민감하기 때문입니다. 즉, 초기 변수의 범위 간에 큰 차이가 있는 경우 범위가 큰 변수가 작은 범위(예: 0에서 100 사이의 범위의 변수가 0과 사이 범위의 변수를 지배합니다) 1) 편향된 결과로 이어질 것입니다. 따라서 데이터를 유사한 축척으로 변환하면 이 문제를 방지할 수 있습니다. 주 성분을 가진 후, 각 구성 요소에 의해 차지하는 분산 (정보)의 비율을 계산하기 위해, 우리는 고유 값의 합으로 각 구성 요소의 고유 가치를 나눈다.

Posted in Uncategorized.