[HADOOP] 하둡이없는 쪽모이도?
HADOOP하둡이없는 쪽모이도?
내 프로젝트 중 하나에서 기둥 형 스토리지로 원장을 사용하고 싶습니다. 하지만 hadoop / hdfs 라이브러리에 의존하고 싶지 않습니다. hdfs 외부에서 마루를 사용할 수 있습니까? 또는 최소 종속성은 무엇입니까?
해결법
-
==============================
1.동일한 질문을 조사한 결과 나는 그 순간에 가능하지 않다는 것을 발견했다. 내가 hadoop API에서 마루를 decoupling 제안이 자식 문제를 발견했다. 분명히 아직 완료되지 않았습니다.
동일한 질문을 조사한 결과 나는 그 순간에 가능하지 않다는 것을 발견했다. 내가 hadoop API에서 마루를 decoupling 제안이 자식 문제를 발견했다. 분명히 아직 완료되지 않았습니다.
Apache Jira에서 나는 hadoop 외부에 마루 파일을 읽는 방법을 묻는 문제를 발견했습니다. 그것은 쓰여질 때까지 해결되지 않습니다.
편집하다:
문제는 github에서 더 이상 추적되지 않습니다 (위의 첫 번째 링크는 죽었습니다). 내가 발견 한 새로운 문제는 다음 제목으로 아파치의 Jira에 있습니다.
-
==============================
2.파티가 끝나기 전에 나는 이것을 가능하게 만들 수있는 작업을하고 있습니다. https://github.com/jmd1011/parquet-readers.
파티가 끝나기 전에 나는 이것을 가능하게 만들 수있는 작업을하고 있습니다. https://github.com/jmd1011/parquet-readers.
이것은 아직 개발 중이지만, 최종 구현은 이것을 작성하는 데 한두 달 안에 끝나야합니다.
편집 : 몇 개월 후, 그리고 여전히 작업! 그것은 적극적으로 발전하고 있으며 예상보다 오래 걸립니다.
-
==============================
3.마루에 어떤 종류의 데이터가 있습니까? Parquet 파일을 읽는 데 HDFS가 필요하지 않습니다. 확실히 전제 조건은 아닙니다. 우리는 스테이징 테이블을 위해 Incorta의 마루 파일을 사용합니다. 우리는 HDFS에 대한 의존성을 가지고 있지 않지만 원하는 경우 HDFS에 파일을 저장할 수 있습니다. 당연히 우리는 Incorta에서 직접 파렛트 파일을 읽을 수 있지만 Apache Drill을 사용하여 연결할 수도 있고 file : ///을 연결로 사용할 수 있습니다. hdfs : /// 예를 보려면 아래를 참조하십시오.
마루에 어떤 종류의 데이터가 있습니까? Parquet 파일을 읽는 데 HDFS가 필요하지 않습니다. 확실히 전제 조건은 아닙니다. 우리는 스테이징 테이블을 위해 Incorta의 마루 파일을 사용합니다. 우리는 HDFS에 대한 의존성을 가지고 있지 않지만 원하는 경우 HDFS에 파일을 저장할 수 있습니다. 당연히 우리는 Incorta에서 직접 파렛트 파일을 읽을 수 있지만 Apache Drill을 사용하여 연결할 수도 있고 file : ///을 연결로 사용할 수 있습니다. hdfs : /// 예를 보려면 아래를 참조하십시오.
Parquet 데이터를 읽거나 쓰려면 저장 플러그인 형식 정의에 Parquet 형식을 포함시켜야합니다. dfs 플러그인 정의에는 마루판 형식이 포함되어 있습니다.
{ "type" : "file", "enabled" : true, "connection" : "file:///", "workspaces" : { "json_files" : { "location" : "/incorta/tenants/demo//drill/json/", "writable" : false, "defaultInputFormat" : json } },
-
==============================
4.파일 형식이기 때문에 마루를 하둡 생태계에서 분리 할 수 있습니다. 요즘 가장 간단한 접근법은 아파치 애로우 (Apache Arrow)를 통해 발견 할 수있다. 여기 파이썬 예제를 보라.
파일 형식이기 때문에 마루를 하둡 생태계에서 분리 할 수 있습니다. 요즘 가장 간단한 접근법은 아파치 애로우 (Apache Arrow)를 통해 발견 할 수있다. 여기 파이썬 예제를 보라.
PyArrow의 공식 문서에서 발췌 한 내용은 다음과 같습니다.
쓰기
In [2]: import numpy as np In [3]: import pandas as pd In [4]: import pyarrow as pa In [5]: df = pd.DataFrame({'one': [-1, np.nan, 2.5], ...: 'two': ['foo', 'bar', 'baz'], ...: 'three': [True, False, True]}, ...: index=list('abc')) ...: In [6]: table = pa.Table.from_pandas(df) In [7]: import pyarrow.parquet as pq In [8]: pq.write_table(table, 'example.parquet')
독서
In [11]: pq.read_table('example.parquet', columns=['one', 'three'])
편집하다:
Pandas와 (과) 직접
판다를 직접 읽고 쓸 수 있습니다. DataFrames. 이렇게하면 my_df.to_parquet ( "myfile.parquet") 및 my_df = pd.read_parquet ( "myfile.parquet")과 같이 간단 해집니다.
-
==============================
5.요즘은 hadoop에 의존 할 필요가 없습니다.
요즘은 hadoop에 의존 할 필요가 없습니다.
내 다른 게시물을 참조하십시오 : Windows에서 Apache Parquet 파일을 보는 방법?
from https://stackoverflow.com/questions/29279865/parquet-without-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 스파크 2.0 - 하이브를 쿼리 할 때 "테이블 또는 뷰를 찾을 수 없음"(스파크 캔트 하이브 테이블 참조) [닫힘] (0) | 2019.07.25 |
---|---|
[HADOOP] oozie가 종속성을 처리하는 방법은 무엇입니까? (0) | 2019.07.25 |
[HADOOP] RDD 파티션과 슬라이스의 차이점은 무엇입니까? (0) | 2019.07.25 |
[HADOOP] 하이브에서 상위 2 행 선택 (0) | 2019.07.25 |
[HADOOP] JDBC API를 사용하여 하이브 종료 상태 또는 오류 코드를 캡처하는 방법 (0) | 2019.07.24 |