Национальный исследовательский университет ЮУрГУ
Приоритетное направление развития 5
"Суперкомпьютерные и грид-технологии
для решения проблем энерго- и ресурсосбережения"
Новость от 25.08.2014

Свежие наборы данных для социальных медиа

Важным шагом перед выполнением любого научного проекта в области анализа данных является поиск подходящего набора данных. Одним из преимуществ взрывного роста социальных медиа сервисов является доступность больших, бесплатных, открытых наборов данных, часто ассоциированных с графовой/сетевой структурой и метаданными. Эти данные позволят протестировать ваши алгоритмы под действительно большой нагрузкой. В помощь исследователям, Грант Маршалл сделал обзор нескольких актуальных источников медиа данных.
 

Не все социальные данные одинаковы и зачастую требования к данным будут определяться вашим исследованием. Например, связи в социальной сети могут быть направленными, как отношения "подписчик/на кого подписываются" в Твиттере, так и ненаправленными как отношение друзья в Фейсбуке. Другим примером являются специальные ограничения сервиса, такие как ограничение в 140 символов в твите. Исследования по тональности предложений в таком контексте затруднены, но могут быть решены с помощью специальных средств. При проведении анализа об этом необходимо помнить.

Вот два хороших источника для поиска социальных данных:

Stanford Large Network Dataset Collection (SNAP) превосходный ресурс на котором собраны наборы данных различных сетей, в том числе разных размеров. Примеры наборов данных:

  • Социальные сети - онлайн социальные сети, ребра представляют отношения между людьми
  • Коммуникационные сети - сети пересылки электронной почты, ребра обозначают коммуникации
  • Сети цитат - узлы это научные статьи, ребра это цитирование статьи
  • Сети сотрудничества - узлы это ученые, ребра это совместная работа (соавторство)
  • веб-графы - узлы это веб-страницы, ребра это гиперссылки
  • и др.

Social Computing Data Repository - так же очень хороший ресурс с информацией из социальных интернет сервисов, таких как YouTube, Livejournal, Last.fm, Foursquare, Flickr, Digg и др.

Для наборов данных специального вида можно порекомендовать следующие ресурсы

  • 100 миллионов фотографий сервиса Flickr от исследовательской лаборатории Yahoo. Множество фотографий в этом наборе содержат геолокационные метки, что позволяет проводить исследования на стыке анализа изображений и геолокации.
  • Для исследования топологий сетей подойдут наборы данных Social Computing Research @ MPI-SWS. В наличии наборы данных из Flickr, LiveJournal, Orkut, YouTube, Facebook, топологии Twitter и спам-сети Twitter.
  • Yelp Dataset Challenge это соревнование по инновационному использованию социальных данных. Набор данных включает в себя сведения о социальном графе, сведения о бизнесе и оценке бизнеса людьми. Прямо сейчас идет четвертый тур в исследования этого набора данных. Дедлайн подачи работы 31 декабря 2014 года.
  • Wikipedia Data Dump - набор текстов и связей между ними из википедии. Доступны тексты википедии на разных языках.

Конечно, это далеко не полный список доступных наборов данных. Возможно, вы найдете что-то подходящее в каталоге правительственных данных или специализированных поисковых системах.

 

 

© Суперкомпьютерный центр ЮУрГУ, 2010-2011.
Разработка сайта: отдел поддержки и обучения пользователей СКЦ ЮУрГУ