[HADOOP] HBase를가 Pyspark를 사용하여 상호 작용하는 최선의 방법은 무엇입니까
HADOOPHBase를가 Pyspark를 사용하여 상호 작용하는 최선의 방법은 무엇입니까
나는 [spark2.3.1] pyspark을 이용하고 있고 Hbase1.2.1, 나는 HBase를 사용하여 pyspark에 액세스 할 수있는 최선의 방법이 될 수 있는지 궁금?
나는 검색의 몇 가지 초기 수준을했고,이 SHC 코어 사용과 같은 가능한 몇 가지 옵션이있는 것을 발견이 달성 될 수 1.1.1-2.1-s_2.11.jar는하지만 대부분에서, 몇 가지 예를 들어 보면하려고 whereever 장소 코드는 스칼라로 작성 또는 예를 기반으로 스칼라도 있습니다. 나는 pyspark에서 기본 코드를 구현하는 시도 :
from pyspark import SparkContext
from pyspark.sql import SQLContext
def main():
sc = SparkContext()
sqlc = SQLContext(sc)
data_source_format = 'org.apache.spark.sql.execution.datasources.hbase'
catalog = ''.join("""{
"table":{"namespace":"default", "name":"firsttable"},
"rowkey":"key",
"columns":{
"firstcol":{"cf":"rowkey", "col":"key", "type":"string"},
"secondcol":{"cf":"d", "col":"colname", "type":"string"}
}
}""".split())
df = sqlc.read.options(catalog=catalog).format(data_source_format).load()
df.select("secondcol").show()
# entry point for PySpark application
if __name__ == '__main__':
main()
및 사용하여 실행 :
spark-submit --master yarn-client --files /opt/hbase-1.1.2/conf/hbase-site.xml --packages com.hortonworks:shc-core:1.1.1-2.1-s_2.11 --jars /home/ubuntu/hbase-spark-2.0.0-alpha4.jar HbaseMain2.py
그것은 나에게 빈 출력을 반환합니다 :
+---------+
|secondcol|
+---------+
+---------+
나는 내가 뭘 잘못 확실하지 않다? 또한없는이 일을 가장 좋은 방법이 될 것입니다 무엇인지?
언급을 감상 할 수있다.
문안 인사
해결법
-
==============================
1.마지막으로, SHC을 사용하여, 나는 pyspark 코드를 사용하여 불꽃-2.3.1과 HBase를-1.2.1에 연결할 수입니다. 다음은 내 작품이다 :
마지막으로, SHC을 사용하여, 나는 pyspark 코드를 사용하여 불꽃-2.3.1과 HBase를-1.2.1에 연결할 수입니다. 다음은 내 작품이다 :
참고 : NumberOfRegions 3보다 커야 기대 HBase를 테이블로 데이터를 HBase를 테이블을 생성 및 삽입하는 동안, 따라서 I를 추가 옵션 (카탈로그 = writeCatalog, newtable = 5)에 데이터를 HBase를 첨가하면서
from https://stackoverflow.com/questions/54826218/what-is-the-best-possible-way-of-interacting-with-hbase-using-pyspark by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하이브 이전 타임 스탬프에서 일의 차이를 찾기 (0) | 2019.10.05 |
---|---|
[HADOOP] 왜 RunJar는 jar 파일을 압축 해제합니까? (0) | 2019.10.05 |
[HADOOP] 스파크 - 2 개 PairRDD 요소를 결합 (0) | 2019.10.05 |
[HADOOP] 내 간단한 스파크 응용 프로그램이 너무 느리게 작동합니다 이유는 무엇입니까? (0) | 2019.10.05 |
[HADOOP] 스크립트를 실행하는 동안 하이브에 오류가 (0) | 2019.10.05 |