복붙노트

[HADOOP] csv 데이터를 Hbase에로드 [닫힘]

HADOOP

csv 데이터를 Hbase에로드 [닫힘]

나는 hadoop과 hbase에 매우 익숙하며, 발견 한 모든 튜토리얼 동안 나를 넘어 뜨리는 몇 가지 개념적 질문을 가지고있다.

나는 우분투 VM 내에서 단일 노드에서 실행중인 hadoop과 hbase를 가지고있다. 하나의 hbase 테이블에로드하고 싶은 CSV 파일이 있습니다.

열은 다음과 같습니다. loan_number, borrower_name, current_distribution_date, loan_amount

hbase에이 csv 파일을로드하기 위해 MapReduce 작업을 작성해야한다는 것을 알고 있습니다. 다음 튜토리얼에서는이 MapReduce 작업을 작성하는 데 필요한 Java에 대해 설명합니다. http://salsahpc.indiana.edu/ScienceCloud/hbase_hands_on_1.htm

내가 누락 된 것은 :

어디서이 파일들을 저장합니까? 어디서 컴파일합니까? 나는 이것을 Visual Studio 12를 실행하는 7 머신에서 컴파일하고 우분투 VM으로 옮겨야합니까?

나는이 질문과 대답을 읽었지만 나는 여전히 기본을 놓치고 있다고 생각한다 : MapReduce를 사용하여 Hbase 테이블에 CSV 파일로드하기

나는이 기본적인 hadoop / hbase 물류를 다루는 것을 찾을 수 없다. 어떤 도움이라도 대단히 감사하겠습니다.

해결법

  1. ==============================

    1.HBase에 데이터를 대량로드하기 위해 MapReduce 작업을 코딩 할 필요가 없습니다. HBase에 데이터를 대량로드하는 방법에는 여러 가지가 있습니다.

    HBase에 데이터를 대량로드하기 위해 MapReduce 작업을 코딩 할 필요가 없습니다. HBase에 데이터를 대량로드하는 방법에는 여러 가지가 있습니다.

    1) importtsv 및 completebulkload와 같은 HBase 도구 사용 http://hbase.apache.org/book/arch.bulk.load.html

    2) Pig를 사용하여 데이터를 대량로드하십시오. 예:

    A = LOAD '/hbasetest.txt' USING PigStorage(',') as 
          (strdata:chararray, intdata:long);
    STORE A INTO 'hbase://mydata'
            USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(
                  'mycf:intdata');
    

    3) 프로그래밍 방식으로 HBase API를 사용하십시오. hbaseloader라는 작은 프로젝트에서 파일을 HBase 테이블로로드합니다.이 테이블에는 파일 내용이있는 ColumnFamily가 하나만 있습니다. 그것을 살펴보면, 테이블의 구조를 정의하고 csv 파일을 읽고 파싱하도록 코드를 수정하기 만하면됩니다.

    4) 앞서 언급 한 예제에서와 같이 MapReduce 작업을 프로그래밍 방식으로 사용하십시오.

  2. ==============================

    2.

    Where do I save these files and where do I compile them? Should I compile this on my win 7 machine running visual studio 12 and then move it to the ubuntu vm?
    

    어디서나 Map Reduce 클래스를 저장할 수 있습니다 (Win 7 또는 Ubuntu VM 중 하나). 어디에서나 컴파일 할 수 있습니다. 생성 한 클래스로 Jar 파일을 만들고 그 VM을 사용하여 맵 축소를 실행하십시오.

    그런 다음 Hadoop을 시작한 후 Ubuntu VM에서 다음 명령을 사용하여 만든 맵 축소 클래스를 실행할 수 있습니다.

    <Path To Hadoop Bin>/hadoop jar <Path to Jar>/<Jar Name>.jar <Map Reduce Class Name> <Class Arguments> ...
    

    위의 명령을 실행하면 작성한 Map Reduce 클래스가 Hbase 테이블과 함께 실행되어 채워집니다.

    희망이 도움이

  3. from https://stackoverflow.com/questions/13906847/loading-csv-data-into-hbase by cc-by-sa and MIT license