• Русский
  • English
  • Главная / Новости / Свежие наборы данных для социальных медиа

    Свежие наборы данных для социальных медиа

    25.08.2014


    Важным шагом перед выполнением любого научного проекта в области анализа данных является поиск подходящего набора данных. Одним из преимуществ взрывного роста социальных медиа сервисов является доступность больших, бесплатных, открытых наборов данных, часто ассоциированных с графовой/сетевой структурой и метаданными. Эти данные позволят протестировать ваши алгоритмы под действительно большой нагрузкой. В помощь исследователям, Грант Маршалл сделал обзор нескольких актуальных источников медиа данных.
     

    Не все социальные данные одинаковы и зачастую требования к данным будут определяться вашим исследованием. Например, связи в социальной сети могут быть направленными, как отношения «подписчик/на кого подписываются» в Твиттере, так и ненаправленными как отношение друзья в Фейсбуке. Другим примером являются специальные ограничения сервиса, такие как ограничение в 140 символов в твите. Исследования по тональности предложений в таком контексте затруднены, но могут быть решены с помощью специальных средств. При проведении анализа об этом необходимо помнить.

    Вот два хороших источника для поиска социальных данных:

    Stanford Large Network Dataset Collection (SNAP) превосходный ресурс на котором собраны наборы данных различных сетей, в том числе разных размеров. Примеры наборов данных:

    • Социальные сети — онлайн социальные сети, ребра представляют отношения между людьми
    • Коммуникационные сети — сети пересылки электронной почты, ребра обозначают коммуникации
    • Сети цитат — узлы это научные статьи, ребра это цитирование статьи
    • Сети сотрудничества — узлы это ученые, ребра это совместная работа (соавторство)
    • веб-графы — узлы это веб-страницы, ребра это гиперссылки
    • и др.

    Social Computing Data Repository — так же очень хороший ресурс с информацией из социальных интернет сервисов, таких как YouTube, Livejournal, Last.fm, Foursquare, Flickr, Digg и др.

    Для наборов данных специального вида можно порекомендовать следующие ресурсы

    • 100 миллионов фотографий сервиса Flickr от исследовательской лаборатории Yahoo. Множество фотографий в этом наборе содержат геолокационные метки, что позволяет проводить исследования на стыке анализа изображений и геолокации.
    • Для исследования топологий сетей подойдут наборы данных Social Computing Research @ MPI-SWS. В наличии наборы данных из Flickr, LiveJournal, Orkut, YouTube, Facebook, топологии Twitter и спам-сети Twitter.
    • Yelp Dataset Challenge это соревнование по инновационному использованию социальных данных. Набор данных включает в себя сведения о социальном графе, сведения о бизнесе и оценке бизнеса людьми. Прямо сейчас идет четвертый тур в исследования этого набора данных. Дедлайн подачи работы 31 декабря 2014 года.
    • Wikipedia Data Dump — набор текстов и связей между ними из википедии. Доступны тексты википедии на разных языках.

    Конечно, это далеко не полный список доступных наборов данных. Возможно, вы найдете что-то подходящее в каталоге правительственных данных или специализированных поисковых системах.