[HADOOP] hadoop 자바에서 json 입력을 파싱하기
HADOOPhadoop 자바에서 json 입력을 파싱하기
내 입력 데이터가 hdfs에 있습니다. 나는 단순히 단어를 계산하려고하지만 약간의 차이가 있습니다. 데이터는 json 형식입니다. 각 데이터 라인은 다음과 같습니다.
{"author":"foo", "text": "hello"}
{"author":"foo123", "text": "hello world"}
{"author":"foo234", "text": "hello this world"}
나는 단지 "텍스트"부분에서 단어의 단어 카운트를하고 싶다.
어떻게해야합니까?
지금까지 다음 변종을 시도 :
public static class TokenCounterMapper
extends Mapper<Object, Text, Text, IntWritable> {
private static final Log log = LogFactory.getLog(TokenCounterMapper.class);
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context)
throws IOException, InterruptedException {
try {
JSONObject jsn = new JSONObject(value.toString());
//StringTokenizer itr = new StringTokenizer(value.toString());
String text = (String) jsn.get("text");
log.info("Logging data");
log.info(text);
StringTokenizer itr = new StringTokenizer(text);
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
} catch (JSONException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
하지만이 오류가 발생합니다.
Error: java.lang.ClassNotFoundException: org.json.JSONException
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:247)
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:820)
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:865)
at org.apache.hadoop.mapreduce.JobContext.getMapperClass(JobContext.java:199)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:719)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1093)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
해결법
-
==============================
1.Hadoop 작업 병에 JSon 라이브러리를 포함하는 것을 잊어 버린 것 같습니다. 도서관에서 어떻게 일자리를 구할 수 있는지 살펴볼 수 있습니다. http://tikalk.com/build-your-first-hadoop-project-maven
Hadoop 작업 병에 JSon 라이브러리를 포함하는 것을 잊어 버린 것 같습니다. 도서관에서 어떻게 일자리를 구할 수 있는지 살펴볼 수 있습니다. http://tikalk.com/build-your-first-hadoop-project-maven
-
==============================
2.지도 축소 코드와 함께 외부 항아리를 사용하는 몇 가지 방법이 있습니다.
지도 축소 코드와 함께 외부 항아리를 사용하는 몇 가지 방법이 있습니다.
비교:
Cloudera의 메인 포스트 읽기).
from https://stackoverflow.com/questions/16825821/parsing-json-input-in-hadoop-java by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 브라우저를 통해 HDFS에서 파일을 읽는 방법 (0) | 2019.07.27 |
---|---|
[HADOOP] s3distcp를 사용하여 amazon s3에서 hdfs로 파일 복사 실패 (0) | 2019.07.27 |
[HADOOP] Java를 사용하여 Hadoop에서 오프셋 된 파일을 읽는 방법 (0) | 2019.07.27 |
[HADOOP] 어떻게 하이브에 mysql 테이블을 전송? (0) | 2019.07.27 |
[HADOOP] 대략 "장치에 남은 공간 없음"을 얻습니다. EMR m1.large 인스턴스에 10GB의 데이터 (0) | 2019.07.27 |