아파치 마루로 500GB SQL 테이블을 변환하는 방법?

아마 이것은 잘 문서화되어 있지만, 이것을하는 방법이 매우 혼란스러워지고 있습니다 (많은 아파치 도구들이 있습니다).

SQL 테이블을 만들 때 다음 명령을 사용하여 테이블을 만듭니다.

CREATE TABLE table_name(
   column1 datatype,
   column2 datatype,
   column3 datatype,
   .....
   columnN datatype,
   PRIMARY KEY( one or more columns )
);

이 테이블을 파르 케에 어떻게 변환하나요? 이 파일은 디스크에 기록됩니까? 원래 데이터가 몇 GB 인 경우 대기해야하는 시간은 얼마나됩니까?

원래의 원시 데이터를 대신 파르 케 형식으로 포맷 할 수 있습니까?

해결법

==============================

1.Apache Spark를 사용하여 다음 작업을 수행 할 수 있습니다.

Apache Spark를 사용하여 다음 작업을 수행 할 수 있습니다.

1.load your table from mysql via jdbc
2.save it as a parquet file

예:

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.jdbc("YOUR_MYSQL_JDBC_CONN_STRING",  "YOUR_TABLE",properties={"user": "YOUR_USER", "password": "YOUR_PASSWORD"})
df.write.parquet("YOUR_HDFS_FILE")

==============================
2.Sqoop (Sql to Hadoop의 약자)을 사용하십시오. 문서에서 짧은 발췌 부분 :

Sqoop (Sql to Hadoop의 약자)을 사용하십시오. 문서에서 짧은 발췌 부분 :

from https://stackoverflow.com/questions/41498672/how-to-convert-an-500gb-sql-table-into-apache-parquet by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 하나의 MapReduce 작업 인 하둡을 긁어내어 키로 여러 출력 작성 (0)	2019.07.21
[HADOOP] 예외 : java.lang.Exception : master 'yarn'을 사용하여 실행하는 경우 HADOOP_CONF_DIR 또는 YARN_CONF_DIR을 환경에 설정해야합니다. 스파크에 (0)	2019.07.21
[HADOOP] Oracle에서 HDFS로 데이터 이동, HDFS에서 Teradata로 이동 및 처리 (0)	2019.07.21
[HADOOP] hadoop 맵의 InstantiationException 프로그램 축소 (0)	2019.07.21
[HADOOP] hdfs : // URI를 사용할 때 NameNode HA (0)	2019.07.21

복붙노트

[HADOOP] 아파치 마루로 500GB SQL 테이블을 변환하는 방법?

아파치 마루로 500GB SQL 테이블을 변환하는 방법?

해결법

1.Apache Spark를 사용하여 다음 작업을 수행 할 수 있습니다.

2.Sqoop (Sql to Hadoop의 약자)을 사용하십시오. 문서에서 짧은 발췌 부분 :

'HADOOP' 카테고리의 다른 글

티스토리툴바