복붙노트

[HADOOP] HBase를가 Pyspark를 사용하여 상호 작용하는 최선의 방법은 무엇입니까

HADOOP

HBase를가 Pyspark를 사용하여 상호 작용하는 최선의 방법은 무엇입니까

나는 [spark2.3.1] pyspark을 이용하고 있고 Hbase1.2.1, 나는 HBase를 사용하여 pyspark에 액세스 할 수있는 최선의 방법이 될 수 있는지 궁금?

나는 검색의 몇 가지 초기 수준을했고,이 SHC 코어 사용과 같은 가능한 몇 가지 옵션이있는 것을 발견이 달성 될 수 1.1.1-2.1-s_2.11.jar는하지만 대부분에서, 몇 가지 예를 들어 보면하려고 whereever 장소 코드는 스칼라로 작성 또는 예를 기반으로 스칼라도 있습니다. 나는 pyspark에서 기본 코드를 구현하는 시도 :

from pyspark import SparkContext
from pyspark.sql import SQLContext

def main():
    sc = SparkContext()
    sqlc = SQLContext(sc)
    data_source_format = 'org.apache.spark.sql.execution.datasources.hbase'
    catalog = ''.join("""{
        "table":{"namespace":"default", "name":"firsttable"},
        "rowkey":"key",
        "columns":{
            "firstcol":{"cf":"rowkey", "col":"key", "type":"string"},
            "secondcol":{"cf":"d", "col":"colname", "type":"string"}
        }
    }""".split())
    df = sqlc.read.options(catalog=catalog).format(data_source_format).load()
    df.select("secondcol").show()

# entry point for PySpark application
if __name__ == '__main__':
    main()

및 사용하여 실행 :

spark-submit  --master yarn-client --files /opt/hbase-1.1.2/conf/hbase-site.xml --packages com.hortonworks:shc-core:1.1.1-2.1-s_2.11  --jars /home/ubuntu/hbase-spark-2.0.0-alpha4.jar HbaseMain2.py

그것은 나에게 빈 출력을 반환합니다 :

+---------+
|secondcol|
+---------+
+---------+

나는 내가 뭘 잘못 확실하지 않다? 또한없는이 일을 가장 좋은 방법이 될 것입니다 무엇인지?

언급을 감상 할 수있다.

문안 인사

해결법

  1. ==============================

    1.마지막으로, SHC을 사용하여, 나는 pyspark 코드를 사용하여 불꽃-2.3.1과 HBase를-1.2.1에 연결할 수입니다. 다음은 내 작품이다 :

    마지막으로, SHC을 사용하여, 나는 pyspark 코드를 사용하여 불꽃-2.3.1과 HBase를-1.2.1에 연결할 수입니다. 다음은 내 작품이다 :

    참고 : NumberOfRegions 3보다 커야 기대 HBase를 테이블로 데이터를 HBase를 테이블을 생성 및 삽입하는 동안, 따라서 I를 추가 옵션 (카탈로그 = writeCatalog, newtable = 5)에 데이터를 HBase를 첨가하면서

  2. from https://stackoverflow.com/questions/54826218/what-is-the-best-possible-way-of-interacting-with-hbase-using-pyspark by cc-by-sa and MIT license