[HADOOP] Apache Pig에서 SequenceFile에 데이터 저장
HADOOPApache Pig에서 SequenceFile에 데이터 저장
Apache Pig는 PiggyBank SequenceFileLoader를 사용하여 Hadoop 시퀀스 파일에서 데이터를로드 할 수 있습니다.
REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader ();
로그 = LOAD '/ 데이터 / 로그'USING SequenceFileLoader AS (...)
돼지 라이브러리에서 Hadoop 시퀀스 파일에 쓸 수있는 라이브러리가 있습니까?
해결법
-
==============================
1.StoreFunc를 구현하기 만하면됩니다.
StoreFunc를 구현하기 만하면됩니다.
이제는 Pig 0.7이 나오면 Load / Store 인터페이스를 완전히 재 설계하므로 훨씬 쉬워집니다.
"Hadoop 확장 팩"트위터는 github에서 오픈 소스로 오픈 소스이며, Google 프로토콜 버퍼를 기반으로로드 및 저장 기능을 생성하는 코드가 포함되어 있습니다 (입력 / 출력 형식을 기반으로 작성 - 이미 시퀀스 파일, 명백하게). 덜 사소한 것들을 어떻게하는지에 대한 예제가 필요하면 그것을 확인하십시오. 그것은 꽤 간단해야합니다.
-
==============================
2.이것은 나를 위해 일하는 것 같았다. https://github.com/kevinweil/elephant-bird/pull/73
이것은 나를 위해 일하는 것 같았다. https://github.com/kevinweil/elephant-bird/pull/73
from https://stackoverflow.com/questions/2423949/storing-data-to-sequencefile-from-apache-pig by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] "잘못된 FS ... 예상 : file : ///"Java에서 HDFS에서 파일을 읽으려고 할 때 (0) | 2019.06.27 |
---|---|
[HADOOP] 하둡의 분산 캐시에 대한 혼란 (0) | 2019.06.27 |
[HADOOP] 스파크 SQL은 다수의 파편이있는 쪽매 데이터 작성을 완료 할 수 없습니다. (0) | 2019.06.27 |
[HADOOP] 클러스터를 초기화 할 수 없습니다. mapreduce.framework.name 및 해당 서버 주소 - job2remoteClustr 제출을위한 구성을 확인하십시오. (0) | 2019.06.27 |
[HADOOP] ClassNotFoundException : org.apache.hive.jdbc.HiveDriver (0) | 2019.06.27 |