복붙노트

[HADOOP] Apache Pig에서 SequenceFile에 데이터 저장

HADOOP

Apache Pig에서 SequenceFile에 데이터 저장

Apache Pig는 PiggyBank SequenceFileLoader를 사용하여 Hadoop 시퀀스 파일에서 데이터를로드 할 수 있습니다.

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader ();

로그 = LOAD '/ 데이터 / 로그'USING SequenceFileLoader AS (...)

돼지 라이브러리에서 Hadoop 시퀀스 파일에 쓸 수있는 라이브러리가 있습니까?

해결법

  1. ==============================

    1.StoreFunc를 구현하기 만하면됩니다.

    StoreFunc를 구현하기 만하면됩니다.

    이제는 Pig 0.7이 나오면 Load / Store 인터페이스를 완전히 재 설계하므로 훨씬 쉬워집니다.

    "Hadoop 확장 팩"트위터는 github에서 오픈 소스로 오픈 소스이며, Google 프로토콜 버퍼를 기반으로로드 및 저장 기능을 생성하는 코드가 포함되어 있습니다 (입력 / 출력 형식을 기반으로 작성 - 이미 시퀀스 파일, 명백하게). 덜 사소한 것들을 어떻게하는지에 대한 예제가 필요하면 그것을 확인하십시오. 그것은 꽤 간단해야합니다.

  2. ==============================

    2.이것은 나를 위해 일하는 것 같았다. https://github.com/kevinweil/elephant-bird/pull/73

    이것은 나를 위해 일하는 것 같았다. https://github.com/kevinweil/elephant-bird/pull/73

  3. from https://stackoverflow.com/questions/2423949/storing-data-to-sequencefile-from-apache-pig by cc-by-sa and MIT license