복붙노트

[HADOOP] Twitter (소셜 네트워킹) 데이터 세트

HADOOP

Twitter (소셜 네트워킹) 데이터 세트

내 프로젝트의 트위터 또는 기타 소셜 네트워킹 사이트 데이터 세트를 찾고 있습니다. 현재 CAW 2.0 트위터 데이터 세트가 있지만 사용자의 트윗 만 포함합니다. 친구, 팔로어 등의 수를 나타내는 데이터가 필요합니다.

트위터 일 필요는 없지만 트위터 나 페이스 북을 선호합니다. 이미 infochimps를 시도했지만 분명히 파일이 트위터 용으로 더 이상 다운로드 할 수 없습니다.

누군가가 이런 종류의 데이터 집합을 찾기 위해 좋은 웹 사이트를 제공 할 수 있습니까? 나는 hadoop에 데이터 셋을 먹일 것이다.

해결법

  1. ==============================

    1.다음 세 가지 데이터 세트를 사용해보십시오.

    다음 세 가지 데이터 세트를 사용해보십시오.

    약 9700 만 건의 트윗이 포함되어 있습니다.

    http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

    ed 참고 : 이전에 링크 된 데이터 세트는 Twitter에서 삭제 요청으로 인해 더 이상 사용할 수 없습니다.

    4700 만 사용자의 사용자 그래프 포함 :

    http://an.kaist.ac.kr/traces/WWW2010.html

    다음 데이터 집합에는 네트워크뿐만 아니라 트윗이 포함되어 있지만 데이터는 스노우 볼 샘플링 등으로 수집되었으므로 친구 네트워크가 일정하지 않습니다. 약 1,000 만 건의 짹짹이있어 훨씬 많은 데이터를 연구원에게 우편으로 보낼 수 있습니다.

    http://www.public.asu.edu/~mdechoud/datasets.html

    데이터를 배포하는 라이센스를 살펴 보았지만

    희망이 도움이, 또한이 데이터 세트로 어떤 종류의 작업을 계획하고 있는지 말해 줄 수 있습니까? 데이터 집합과 함께 사용할 수있는 몇 가지 hadoop / pig 스크립트가 있습니다.

  2. ==============================

    2.페이스 북에서 1 억 페이지가 추출되었습니다. http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

    페이스 북에서 1 억 페이지가 추출되었습니다. http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

    나는 그들이 무엇을 포함하고 있는지 알지 못합니다. 그러나 당신은 그것을 보았을 수 있습니다, 그것은 급류 사이트에서 찾기가 쉽습니다.

    페이 스북 API를 사용할 수도 있지만, 데이터 세트를 충분히 원할 경우 페이스 북에 액세스 권한을 요청해야합니다. 그것은 친구, 좋아하는, 그룹에 대한 링크가 포함되어 있습니다 ...

  3. ==============================

    3.Facebook 소셜 그래프, 애플리케이션 설치 및 Last.fm 사용자, 이벤트, UCIrvine의 연구원이 수집 한 그룹 : http://odysseas.calit2.uci.edu/research/

    Facebook 소셜 그래프, 애플리케이션 설치 및 Last.fm 사용자, 이벤트, UCIrvine의 연구원이 수집 한 그룹 : http://odysseas.calit2.uci.edu/research/

  4. ==============================

    4.트위터 데이터 수집을위한 최상의 도구는 http://www.followthehashtag.com이며, 내역이나 미래의 데이터를 얻을 수 있으며 고급 데이터 내보내기 기능을 사용할 수 있다고 생각합니다.

    트위터 데이터 수집을위한 최상의 도구는 http://www.followthehashtag.com이며, 내역이나 미래의 데이터를 얻을 수 있으며 고급 데이터 내보내기 기능을 사용할 수 있다고 생각합니다.

    일주일에 한 번 큰 데이터 세트 (약 20 만개의 트윗)를 추가하는 섹션

    http://followthehashtag.com/datasets/

  5. from https://stackoverflow.com/questions/3340810/twitter-social-networking-dataset by cc-by-sa and MIT license