Главная / Новости / Свежие наборы данных для социальных медиа

Свежие наборы данных для социальных медиа

25.08.2014

Важным шагом перед выполнением любого научного проекта в области анализа данных является поиск подходящего набора данных. Одним из преимуществ взрывного роста социальных медиа сервисов является доступность больших, бесплатных, открытых наборов данных, часто ассоциированных с графовой/сетевой структурой и метаданными. Эти данные позволят протестировать ваши алгоритмы под действительно большой нагрузкой. В помощь исследователям, Грант Маршалл сделал обзор нескольких актуальных источников медиа данных.

Не все социальные данные одинаковы и зачастую требования к данным будут определяться вашим исследованием. Например, связи в социальной сети могут быть направленными, как отношения «подписчик/на кого подписываются» в Твиттере, так и ненаправленными как отношение друзья в Фейсбуке. Другим примером являются специальные ограничения сервиса, такие как ограничение в 140 символов в твите. Исследования по тональности предложений в таком контексте затруднены, но могут быть решены с помощью специальных средств. При проведении анализа об этом необходимо помнить.

Вот два хороших источника для поиска социальных данных:

Stanford Large Network Dataset Collection (SNAP) превосходный ресурс на котором собраны наборы данных различных сетей, в том числе разных размеров. Примеры наборов данных:

Социальные сети — онлайн социальные сети, ребра представляют отношения между людьми
Коммуникационные сети — сети пересылки электронной почты, ребра обозначают коммуникации
Сети цитат — узлы это научные статьи, ребра это цитирование статьи
Сети сотрудничества — узлы это ученые, ребра это совместная работа (соавторство)
веб-графы — узлы это веб-страницы, ребра это гиперссылки
и др.

Social Computing Data Repository — так же очень хороший ресурс с информацией из социальных интернет сервисов, таких как YouTube, Livejournal, Last.fm, Foursquare, Flickr, Digg и др.

Для наборов данных специального вида можно порекомендовать следующие ресурсы

100 миллионов фотографий сервиса Flickr от исследовательской лаборатории Yahoo. Множество фотографий в этом наборе содержат геолокационные метки, что позволяет проводить исследования на стыке анализа изображений и геолокации.
Для исследования топологий сетей подойдут наборы данных Social Computing Research @ MPI-SWS. В наличии наборы данных из Flickr, LiveJournal, Orkut, YouTube, Facebook, топологии Twitter и спам-сети Twitter.
Yelp Dataset Challenge это соревнование по инновационному использованию социальных данных. Набор данных включает в себя сведения о социальном графе, сведения о бизнесе и оценке бизнеса людьми. Прямо сейчас идет четвертый тур в исследования этого набора данных. Дедлайн подачи работы 31 декабря 2014 года.
Wikipedia Data Dump — набор текстов и связей между ними из википедии. Доступны тексты википедии на разных языках.

Конечно, это далеко не полный список доступных наборов данных. Возможно, вы найдете что-то подходящее в каталоге правительственных данных или специализированных поисковых системах.

Контакты

Федеральное государственное автономное образовательное учреждение высшего образования «Южно-Уральский государственный университет (национальный исследовательский университет)» (ФГАОУ ВО «ЮУрГУ (НИУ)»)

Научно-образовательный центр «Искусственный интеллект и квантовые технологии» (НОЦ «ИИКТ»)

Адрес: 454080, Россия, г. Челябинск, пр. им. В.И. Ленина, 87а, ауд. 108/3Г
Телефон: +7 (351) 267-90-06 (многоканальный)
E-Mail: supercomputer@susu.ru

НОЦ ИИКТ предоставляет высокоуровневые программные сервисы для инженерного проектирования и анализа, используемые в учебном процессе и научных исследованиях.

Свежие наборы данных для социальных медиа

25.08.2014

Контакты

Полезные ссылки