[HADOOP] CSV를 SequenceFile로 변환
HADOOPCSV를 SequenceFile로 변환
SequenceFile로 변환하고 싶은 CSV 파일이 있습니다.이 파일은 클러스터링 작업에서 사용할 NamedVectors를 만드는 데 사용됩니다. seqdirectory 명령을 사용하여 SequenceFile을 작성한 다음 해당 출력을 NamedVectors를 작성하는 -nv 옵션과 함께 seq2sparse에 공급했습니다. 이것이 하나의 큰 벡터를 출력으로주는 것처럼 보이지만 궁극적으로 내 CSV의 각 행이 NamedVector가되기를 바랍니다. 내가 어디로 잘못 가고 있니?
해결법
-
==============================
1.seqdirectory 명령은 모든 파일을 문서로 사용하므로 실제로는 하나의 문서 만 있으므로 하나의 벡터 만 얻을 수 있습니다. 제대로 작동하게하려면 CSV 파일의 각 줄을 파일 자체로 만드십시오. 여기서 문서의 키는 파일 이름이고 값은 내용입니다. 그럼에도 불구하고, 디스크 읽기 및 쓰기가 고통스럽게 느려질 수 있기 때문에 코퍼스가 커지면 이것은 실제로 불가능합니다.
seqdirectory 명령은 모든 파일을 문서로 사용하므로 실제로는 하나의 문서 만 있으므로 하나의 벡터 만 얻을 수 있습니다. 제대로 작동하게하려면 CSV 파일의 각 줄을 파일 자체로 만드십시오. 여기서 문서의 키는 파일 이름이고 값은 내용입니다. 그럼에도 불구하고, 디스크 읽기 및 쓰기가 고통스럽게 느려질 수 있기 때문에 코퍼스가 커지면 이것은 실제로 불가능합니다.
실제로이 의견에서 내가 공유하는 링크를 따라하는 것이 좋습니다.
from https://stackoverflow.com/questions/11994930/converting-csv-to-sequencefile by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] spark가 오류를 반환합니다 libsnappyjava.so : 공유 객체에서 세그먼트를 매핑하지 못했습니다 : 작업이 허용되지 않습니다. (0) | 2019.07.22 |
---|---|
[HADOOP] Spark / Yarn : 파일이 HDFS에 존재하지 않습니다. (0) | 2019.07.22 |
[HADOOP] hiveserver2 시작하기 (0) | 2019.07.22 |
[HADOOP] hadoop의 여러 폴더에 쓰기? (0) | 2019.07.22 |
[HADOOP] 새로운 데이터가 HDFS에 추가되었는지 어떻게 알 수 있습니까? (0) | 2019.07.22 |