[HADOOP] Twitter (소셜 네트워킹) 데이터 세트
HADOOPTwitter (소셜 네트워킹) 데이터 세트
내 프로젝트의 트위터 또는 기타 소셜 네트워킹 사이트 데이터 세트를 찾고 있습니다. 현재 CAW 2.0 트위터 데이터 세트가 있지만 사용자의 트윗 만 포함합니다. 친구, 팔로어 등의 수를 나타내는 데이터가 필요합니다.
트위터 일 필요는 없지만 트위터 나 페이스 북을 선호합니다. 이미 infochimps를 시도했지만 분명히 파일이 트위터 용으로 더 이상 다운로드 할 수 없습니다.
누군가가 이런 종류의 데이터 집합을 찾기 위해 좋은 웹 사이트를 제공 할 수 있습니까? 나는 hadoop에 데이터 셋을 먹일 것이다.
해결법
-
==============================
1.다음 세 가지 데이터 세트를 사용해보십시오.
다음 세 가지 데이터 세트를 사용해보십시오.
약 9700 만 건의 트윗이 포함되어 있습니다.
http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2
ed 참고 : 이전에 링크 된 데이터 세트는 Twitter에서 삭제 요청으로 인해 더 이상 사용할 수 없습니다.
4700 만 사용자의 사용자 그래프 포함 :
http://an.kaist.ac.kr/traces/WWW2010.html
다음 데이터 집합에는 네트워크뿐만 아니라 트윗이 포함되어 있지만 데이터는 스노우 볼 샘플링 등으로 수집되었으므로 친구 네트워크가 일정하지 않습니다. 약 1,000 만 건의 짹짹이있어 훨씬 많은 데이터를 연구원에게 우편으로 보낼 수 있습니다.
http://www.public.asu.edu/~mdechoud/datasets.html
데이터를 배포하는 라이센스를 살펴 보았지만
희망이 도움이, 또한이 데이터 세트로 어떤 종류의 작업을 계획하고 있는지 말해 줄 수 있습니까? 데이터 집합과 함께 사용할 수있는 몇 가지 hadoop / pig 스크립트가 있습니다.
-
==============================
2.페이스 북에서 1 억 페이지가 추출되었습니다. http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6
페이스 북에서 1 억 페이지가 추출되었습니다. http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6
나는 그들이 무엇을 포함하고 있는지 알지 못합니다. 그러나 당신은 그것을 보았을 수 있습니다, 그것은 급류 사이트에서 찾기가 쉽습니다.
페이 스북 API를 사용할 수도 있지만, 데이터 세트를 충분히 원할 경우 페이스 북에 액세스 권한을 요청해야합니다. 그것은 친구, 좋아하는, 그룹에 대한 링크가 포함되어 있습니다 ...
-
==============================
3.Facebook 소셜 그래프, 애플리케이션 설치 및 Last.fm 사용자, 이벤트, UCIrvine의 연구원이 수집 한 그룹 : http://odysseas.calit2.uci.edu/research/
Facebook 소셜 그래프, 애플리케이션 설치 및 Last.fm 사용자, 이벤트, UCIrvine의 연구원이 수집 한 그룹 : http://odysseas.calit2.uci.edu/research/
-
==============================
4.트위터 데이터 수집을위한 최상의 도구는 http://www.followthehashtag.com이며, 내역이나 미래의 데이터를 얻을 수 있으며 고급 데이터 내보내기 기능을 사용할 수 있다고 생각합니다.
트위터 데이터 수집을위한 최상의 도구는 http://www.followthehashtag.com이며, 내역이나 미래의 데이터를 얻을 수 있으며 고급 데이터 내보내기 기능을 사용할 수 있다고 생각합니다.
일주일에 한 번 큰 데이터 세트 (약 20 만개의 트윗)를 추가하는 섹션
http://followthehashtag.com/datasets/
from https://stackoverflow.com/questions/3340810/twitter-social-networking-dataset by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 학습을 시작하는 방법 hadoop [닫힘] (0) | 2019.07.05 |
---|---|
[HADOOP] 분산 컴퓨팅은 어디에서부터 시작해야합니까? (0) | 2019.07.05 |
[HADOOP] Hadoop MapReduce 대 MPI (Spark vs Mahout 대 Mesos) - 다른 것을 계속 사용할 때? (0) | 2019.07.05 |
[HADOOP] 이름 노드 대 보조 이름 노드 (0) | 2019.07.05 |
[HADOOP] "작업 시도 _201104251139_0295_r_000006_0 작업이 600 초 동안 상태를보고하지 못했습니다." (0) | 2019.07.05 |