복붙노트

[HADOOP] KMeans는 범주 형 변수 처리

HADOOP

KMeans는 범주 형 변수 처리

나는 큰 데이터 파일에 Kmeans 클러스터링 알고리즘의 맵리 듀스 프로그램을 쓰고 있어요. 각 관찰 범주와 숫자를 모두 변수를 포함 컬럼으로 구성되어 있습니다. Kmeans 들어, 거리 계산의 범주 형 변수를 포함하기에 적합하지 않다. 그래서 우리는 범주 항목과 열을 필터링 할 필요가있다.

내 질문은 : 문자로 항목을 필터링하는 것은 쉽다,하지만 열이 숫자뿐 아니라 범주 처리 (예 : 우편 번호로 ID)를 포함하는 경우?

감사합니다!

해결법

  1. ==============================

    1.모든 범주 변수를 제거하면 아마가는 방법이 아니다. 당신은 수치 데이터 세트로 설정하여 데이터를 변환하려고 했습니까? 거기에 다른 방법이 있지만, 예를 들면 :

    모든 범주 변수를 제거하면 아마가는 방법이 아니다. 당신은 수치 데이터 세트로 설정하여 데이터를 변환하려고 했습니까? 거기에 다른 방법이 있지만, 예를 들면 :

    A A 범주 형 변수를 감안할 때 (예를 들어) 3 종류를 포함 (색상을 말할 수) (검정, 흰색, 파란색), 세 개의 새로운 이진 변수와 데이터 세트에 교체 할 수 있습니다 (A_1, A_2, a_3). 지정된 객체의 경우, 새로운 이진 변수 중 하나는 다른 모든 0이되어야 하나 같아야한다. 따라서, 객체는이 있다면 = 블랙, 다음 A_1 = 1, A_2 = 0, a_3 = 0.

    당신은 여전히이 새로운 변수를 표준화 할 필요가있다. ... 그냥 A_ 1 = A_ 1-평균 (A_ 1) (주파수)을 시도 할 수있는 다른 방법이 있습니다.

  2. from https://stackoverflow.com/questions/23328409/kmeans-dealing-with-categorical-variable by cc-by-sa and MIT license