[HADOOP] Big Data Analysis 시작 방법 [닫기]
HADOOPBig Data Analysis 시작 방법 [닫기]
나는 R의 오랜 사용자였으며 최근에 파이썬으로 작업하기 시작했습니다. 데이터웨어 하우징에 RDBMS 시스템을 사용하고 대량 처리를 위해 R / Python을 사용하여 Big Data Analysis로 손을 더럽힐 필요가 있습니다.
Big Data를 시작하는 방법을 알고 싶습니다. - Map / Reduce 및 Hadoop 사용으로 간단하게 시작하는 방법
대체로, 작게 시작하여 점진적으로 Big Data Analysis에서 내 기술과 노하우를 축적하는 방법을 알고 싶습니다.
제안 및 권장 해 주셔서 감사합니다. 이 쿼리의 일반적인 특성에 대해 사과 드리지만이 주제와 관련하여 더 많은 관점을 얻으려고합니다.
해결법
-
==============================
1.좋은. 그걸 가지고 놀아.
좋은. 그걸 가지고 놀아.
벌금. 그것도 가지고 놀아 라.
"큰"데이터 세트를 찾는 것을 땀 흘리지 마십시오. 작은 데이터조차도 매우 흥미로운 문제를 제시합니다. 사실, 모든 데이터 세트는 시작 시점입니다.
한때 조직의 6 천만 달러 예산을 분석하기 위해 작은 별표를 만들었습니다. 원본 데이터는 스프레드 시트에 있으며 본질적으로 이해할 수 없습니다. 그래서 그것을 그것을 스타 스키마로 내리고 파이썬에서 여러 분석 프로그램을 작성하여 관련 번호에 대한 간략한 보고서를 작성했습니다.
이것은 쉽다.
먼저 데이터웨어 하우징 (Ralph Kimball의 The Data Warehouse Toolkit)에 대한 책을 구하십시오.
둘째로, "Star Schema"를 신중하게 연구하십시오 - 특히 Kimball이 설명하는 모든 변종과 특수한 경우 (깊이)
셋째, 다음을 깨달으십시오. SQL은 업데이트 및 트랜잭션 용입니다.
"분석"처리 (크거나 작은)를 수행 할 때 거의 모든 종류의 업데이트가 없습니다. SQL (및 관련 정규화)은 더 이상 중요하지 않습니다.
킴볼 (Kimball)의 요점 (다른 것들도)은 데이터웨어 하우스의 대부분이 SQL이 아니라 단순한 플랫 파일에 있다는 것입니다. 데이터 마트 (Ad-hoc, 슬라이스 및 주사위 분석 용)는 SQL을 사용하여 쉽고 유연하게 처리 할 수 있도록 관계형 데이터베이스에있을 수 있습니다.
따라서 "결정"은 사소한 것입니다. 트랜잭션 ( "OLTP") 인 경우 Relational 또는 OO DB에 있어야합니다. 분석적이라면 ( "OLAP") 슬라이스 앤 주사위 분석을 제외하고는 SQL이 필요하지 않습니다. 심지어 DB는 필요에 따라 공식 파일에서로드됩니다.
-
==============================
2.고려할 수있는 한 가지는 DMelt (http://jwork.org/dmelt/) 데이터 분석 프로그램입니다. 주목할만한 특징 중 하나는 Python 언어를 사용하는 수백 가지 예제와 몇 권의 책이 있다는 것입니다. 내가 사용하고있는 이유는 내 Windows 10 (자바 VM을 사용하고 있기 때문에)에서 실행되며, 벡터 그래픽 형식으로 내보낼 수있는 2D / 3D의 그래픽이 매우 뛰어납니다.
고려할 수있는 한 가지는 DMelt (http://jwork.org/dmelt/) 데이터 분석 프로그램입니다. 주목할만한 특징 중 하나는 Python 언어를 사용하는 수백 가지 예제와 몇 권의 책이 있다는 것입니다. 내가 사용하고있는 이유는 내 Windows 10 (자바 VM을 사용하고 있기 때문에)에서 실행되며, 벡터 그래픽 형식으로 내보낼 수있는 2D / 3D의 그래픽이 매우 뛰어납니다.
from https://stackoverflow.com/questions/4322559/how-to-get-started-with-big-data-analysis by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 임팔라는 하이브에 비해 쿼리 응답이 더 빠릅니다. (0) | 2019.07.04 |
---|---|
[HADOOP] Hadoop을위한 Java만으로 [닫기] (0) | 2019.07.04 |
[HADOOP] 마루 대 ORC 대 ORC 대 Snappy (0) | 2019.07.04 |
[HADOOP] Hadoop 분산 캐시를 사용할 때 FileNotFoundException 발생 (0) | 2019.07.04 |
[HADOOP] hadoop에서 hdfs 명령은 더 이상 사용되지 않습니다. (0) | 2019.07.04 |