복붙노트

[HADOOP] CSV를 SequenceFile로 변환

HADOOP

CSV를 SequenceFile로 변환

SequenceFile로 변환하고 싶은 CSV 파일이 있습니다.이 파일은 클러스터링 작업에서 사용할 NamedVectors를 만드는 데 사용됩니다. seqdirectory 명령을 사용하여 SequenceFile을 작성한 다음 해당 출력을 NamedVectors를 작성하는 -nv 옵션과 함께 seq2sparse에 공급했습니다. 이것이 하나의 큰 벡터를 출력으로주는 것처럼 보이지만 궁극적으로 내 CSV의 각 행이 NamedVector가되기를 바랍니다. 내가 어디로 잘못 가고 있니?

해결법

  1. ==============================

    1.seqdirectory 명령은 모든 파일을 문서로 사용하므로 실제로는 하나의 문서 만 있으므로 하나의 벡터 만 얻을 수 있습니다. 제대로 작동하게하려면 CSV 파일의 각 줄을 파일 자체로 만드십시오. 여기서 문서의 키는 파일 이름이고 값은 내용입니다. 그럼에도 불구하고, 디스크 읽기 및 쓰기가 고통스럽게 느려질 수 있기 때문에 코퍼스가 커지면 이것은 실제로 불가능합니다.

    seqdirectory 명령은 모든 파일을 문서로 사용하므로 실제로는 하나의 문서 만 있으므로 하나의 벡터 만 얻을 수 있습니다. 제대로 작동하게하려면 CSV 파일의 각 줄을 파일 자체로 만드십시오. 여기서 문서의 키는 파일 이름이고 값은 내용입니다. 그럼에도 불구하고, 디스크 읽기 및 쓰기가 고통스럽게 느려질 수 있기 때문에 코퍼스가 커지면 이것은 실제로 불가능합니다.

    실제로이 의견에서 내가 공유하는 링크를 따라하는 것이 좋습니다.

  2. from https://stackoverflow.com/questions/11994930/converting-csv-to-sequencefile by cc-by-sa and MIT license