Логотип ЛСМ ЮУрГУ
Южно-Уральский государственный университет
Национальный исследовательский университет
ЛАБОРАТОРИЯ СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ ЮУрГУ
Русский язык
О НАС
Наши партнеры
Отделы и сотрудники
История
Новости
Информация в СМИ
Эмблема ЛСМ
Экскурсии
Контакты
ВЫЧИСЛИТЕЛЬНЫЕ РЕСУРСЫ
Суперкомпьютер «Торнадо ЮУрГУ»
Суперкомпьютер «СКИФ-Аврора ЮУрГУ»
Комплекс «GPU»
Кластер «СКИФ Урал»
ПОЛЬЗОВАТЕЛЯМ
Правила
Регистрация
Прикладное ПО
Системное ПО
Техническая поддержка
Обучение
Инструкции
СИСТЕМА ПВК
Программное обеспечение
Правила
Инструкции
КОММЕРЧЕСКИМ КЛИЕНТАМ
НАУЧНАЯ РАБОТА
Цели ЛСМ
Проекты
Публикации
Зарегистрированные программы
Городской научный семинар по теории некорректных задач
     
Google

www по сайту

Свежие наборы данных для социальных медиа

Важным шагом перед выполнением любого научного проекта в области анализа данных является поиск подходящего набора данных. Одним из преимуществ взрывного роста социальных медиа сервисов является доступность больших, бесплатных, открытых наборов данных, часто ассоциированных с графовой/сетевой структурой и метаданными. Эти данные позволят протестировать ваши алгоритмы под действительно большой нагрузкой. В помощь исследователям, Грант Маршалл сделал обзор нескольких актуальных источников медиа данных.
 

Не все социальные данные одинаковы и зачастую требования к данным будут определяться вашим исследованием. Например, связи в социальной сети могут быть направленными, как отношения "подписчик/на кого подписываются" в Твиттере, так и ненаправленными как отношение друзья в Фейсбуке. Другим примером являются специальные ограничения сервиса, такие как ограничение в 140 символов в твите. Исследования по тональности предложений в таком контексте затруднены, но могут быть решены с помощью специальных средств. При проведении анализа об этом необходимо помнить.

Вот два хороших источника для поиска социальных данных:

Stanford Large Network Dataset Collection (SNAP) превосходный ресурс на котором собраны наборы данных различных сетей, в том числе разных размеров. Примеры наборов данных:

  • Социальные сети - онлайн социальные сети, ребра представляют отношения между людьми
  • Коммуникационные сети - сети пересылки электронной почты, ребра обозначают коммуникации
  • Сети цитат - узлы это научные статьи, ребра это цитирование статьи
  • Сети сотрудничества - узлы это ученые, ребра это совместная работа (соавторство)
  • веб-графы - узлы это веб-страницы, ребра это гиперссылки
  • и др.

Social Computing Data Repository - так же очень хороший ресурс с информацией из социальных интернет сервисов, таких как YouTube, Livejournal, Last.fm, Foursquare, Flickr, Digg и др.

Для наборов данных специального вида можно порекомендовать следующие ресурсы

  • 100 миллионов фотографий сервиса Flickr от исследовательской лаборатории Yahoo. Множество фотографий в этом наборе содержат геолокационные метки, что позволяет проводить исследования на стыке анализа изображений и геолокации.
  • Для исследования топологий сетей подойдут наборы данных Social Computing Research @ MPI-SWS. В наличии наборы данных из Flickr, LiveJournal, Orkut, YouTube, Facebook, топологии Twitter и спам-сети Twitter.
  • Yelp Dataset Challenge это соревнование по инновационному использованию социальных данных. Набор данных включает в себя сведения о социальном графе, сведения о бизнесе и оценке бизнеса людьми. Прямо сейчас идет четвертый тур в исследования этого набора данных. Дедлайн подачи работы 31 декабря 2014 года.
  • Wikipedia Data Dump - набор текстов и связей между ними из википедии. Доступны тексты википедии на разных языках.

Конечно, это далеко не полный список доступных наборов данных. Возможно, вы найдете что-то подходящее в каталоге правительственных данных или специализированных поисковых системах.

 

 

25.08.2014