Свежие наборы данных для социальных медиа
Важным шагом перед выполнением любого научного проекта в области анализа данных является поиск подходящего набора данных. Одним из преимуществ взрывного роста социальных медиа сервисов является доступность больших, бесплатных, открытых наборов данных, часто ассоциированных с графовой/сетевой структурой и метаданными. Эти данные позволят протестировать ваши алгоритмы под действительно большой нагрузкой. В помощь исследователям, Грант Маршалл сделал обзор нескольких актуальных источников медиа данных.
Не все социальные данные одинаковы и зачастую требования к данным будут определяться вашим исследованием. Например, связи в социальной сети могут быть направленными, как отношения "подписчик/на кого подписываются" в Твиттере, так и ненаправленными как отношение друзья в Фейсбуке. Другим примером являются специальные ограничения сервиса, такие как ограничение в 140 символов в твите. Исследования по тональности предложений в таком контексте затруднены, но могут быть решены с помощью специальных средств. При проведении анализа об этом необходимо помнить.
Вот два хороших источника для поиска социальных данных:
Stanford Large Network Dataset Collection (SNAP) превосходный ресурс на котором собраны наборы данных различных сетей, в том числе разных размеров. Примеры наборов данных:
-
Социальные сети - онлайн социальные сети, ребра представляют отношения между людьми
-
Коммуникационные сети - сети пересылки электронной почты, ребра обозначают коммуникации
-
Сети цитат - узлы это научные статьи, ребра это цитирование статьи
-
Сети сотрудничества - узлы это ученые, ребра это совместная работа (соавторство)
-
веб-графы - узлы это веб-страницы, ребра это гиперссылки
-
и др.
Social Computing Data Repository - так же очень хороший ресурс с информацией из социальных интернет сервисов, таких как YouTube, Livejournal, Last.fm, Foursquare, Flickr, Digg и др.
Для наборов данных специального вида можно порекомендовать следующие ресурсы
-
100 миллионов фотографий сервиса Flickr от исследовательской лаборатории Yahoo. Множество фотографий в этом наборе содержат геолокационные метки, что позволяет проводить исследования на стыке анализа изображений и геолокации.
-
Для исследования топологий сетей подойдут наборы данных Social Computing Research @ MPI-SWS. В наличии наборы данных из Flickr, LiveJournal, Orkut, YouTube, Facebook, топологии Twitter и спам-сети Twitter.
-
Yelp Dataset Challenge это соревнование по инновационному использованию социальных данных. Набор данных включает в себя сведения о социальном графе, сведения о бизнесе и оценке бизнеса людьми. Прямо сейчас идет четвертый тур в исследования этого набора данных. Дедлайн подачи работы 31 декабря 2014 года.
-
Wikipedia Data Dump - набор текстов и связей между ними из википедии. Доступны тексты википедии на разных языках.
Конечно, это далеко не полный список доступных наборов данных. Возможно, вы найдете что-то подходящее в каталоге правительственных данных или специализированных поисковых системах.
25.08.2014
|