[HADOOP] 프로세스 구조화되지 않은 여러 라인 CSV 하둡
HADOOP프로세스 구조화되지 않은 여러 라인 CSV 하둡
내가 구조화되지 않은 여러 라인과 않은 종료 인용과 형식 아래 데이터를 데 하둡 맵리 듀스에서 데이터를 처리하고 싶습니다.
2/1/2013 5:16,Edward Felton,2,8/1/2012 3:57,Working on all the digital elements for our big event in Sydney in a couple of weeks... for more visit http://www.xy.com/au/geworks/,324005862,2,18200695
12/28/2012 19:28,Laura McCullum,2,7/26/2012 18:03,"The Day You Give Them Jive <br>
<a href="http://youtu.be/qfq9LVD2Qr4" > http://youtu.be/qfq9LVD2Qr4 <br>
<br>
'Like' if you have always wanted to destroy a cube!",502114904,2,18400313
11/21/2012 13:35,Timothy Widdowson,4,8/17/2012 12:38,"Can a table really replace a laptop...
With the new Windows tablets on the horizon and the Apple / Android devices out there I have been wondering if it is possible to really work with just and tablet.
My mission:
-For one whole week I will be working with just my iPad.
Hardware:
-Apple iPad
-Apple keyboard.
-Apple to HDMI connector.
-HDMI capable monitor.
- InCase iPad stand.
:-)",105001439,1,19301609
3/15/2013 13:43,Mary Romeo,3,8/16/2012 22:23,"HOW TO SHORTEN LONG LINKS YOU'RE POSTING <br>
The attached image describes how to shorten a long url before posting it. In 4 easy steps the 3-4 line urls can become a tiny link to post.",213022329,1,19901561
11/30/2012 2:17,Lu Yin Zhong,3,8/29/2012 1:29,working on 2013 comms plan...need big ideas!!,302014449,2,20300666
3/5/2013 22:15,Tim Steigert,12,8/29/2012 15:36,"Looking up 1024 email addresses. Manually? Probably a day! Doing it with SSOget, the add-in for #["excel"]? 5 minutes! Effort saved and #["productivity"] gained? Priceless! Now go get it and enjoy it for yourself! :)<br>http://sc.xy.com/*SSOget @@@data@@@{"image":"","title":""}",100011871,11,20400713
11/1/2012 20:46,Pranay Jain,2,8/30/2012 14:26,Do people agree with the iCloud restrictions that Airwatch will put on Personal iOS devices that have email?,212065316,0,20700913
11/9/2012 18:32,Monica Sharma,5,9/7/2012 11:42,hhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh gh gh gh gh ghghghghgghhhghghghghgh hg h gh gh,502000192,5,21400516
나에게 어떻게 언급 한 데이터를 처리하는 코드를 알려주세요? 미리 감사드립니다 !!!!!!!
해결법
-
==============================
1.당신은 여러 줄의 데이터에 대처하고 있기 때문에 당신은 당신의 데이터에 액세스 할 수있는 간단한 TextInputFormat을 사용할 수 없습니다. 따라서 당신은 CSV 파일에 대한 사용자 정의 InputFormat를 사용해야합니다.
당신은 여러 줄의 데이터에 대처하고 있기 때문에 당신은 당신의 데이터에 액세스 할 수있는 간단한 TextInputFormat을 사용할 수 없습니다. 따라서 당신은 CSV 파일에 대한 사용자 정의 InputFormat를 사용해야합니다.
현재 (https://issues.apache.org/jira/browse/MAPREDUCE-2208 참조) 하둡에 멀티 라인 CSV 파일을 처리에는 내장 방법은 없습니다 만, 다행히 당신이 시도 할 수 GitHub의에 코드가왔다 : HTTPS를 : //github.com/mvallebr/CSVInputFormat.
지금까지 비 종료 인용에 관한 한, 데이터를 사전 처리와 처음에 그것을 청소해야 할 수도 있습니다. 더 구분하기 전 또는 인용 ( ") 후이없는 경우 하나의 간단한 규칙은 견적을 탈출하는 것입니다 :
또 다른 옵션은 적절한 방식으로 데이터를 탈출하는 잘못된 CSV를 생성하는 응용 프로그램을 수정하는 것입니다.
from https://stackoverflow.com/questions/21884834/process-unstructured-and-multiple-line-csv-in-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 스파크에 맵리 듀스 (0) | 2019.10.23 |
---|---|
[HADOOP] HDFS에 파일을 복사 할 수 없습니다 (0) | 2019.10.23 |
[HADOOP] 어떻게 하둡와 문자열 매칭 알고리즘을 구현하는 방법? (0) | 2019.10.23 |
[HADOOP] 스파크 RDD에서 combineByKey 및 aggregateByKey없이 지정된 출력을 얻는 방법 (0) | 2019.10.23 |
[HADOOP] 맵리 듀스를 사용하여 암호로 보호 된 zip 파일을 처리하면 [복제] (0) | 2019.10.23 |