Важным шагом перед выполнением любого научного проекта в области анализа данных является поиск подходящего набора данных. Одним из преимуществ взрывного роста социальных медиа сервисов является доступность больших, бесплатных, открытых наборов данных, часто ассоциированных с графовой/сетевой структурой и метаданными. Эти данные позволят протестировать ваши алгоритмы под действительно большой нагрузкой. В помощь исследователям, Грант Маршалл сделал обзор нескольких актуальных источников медиа данных.
Не все социальные данные одинаковы и зачастую требования к данным будут определяться вашим исследованием. Например, связи в социальной сети могут быть направленными, как отношения «подписчик/на кого подписываются» в Твиттере, так и ненаправленными как отношение друзья в Фейсбуке. Другим примером являются специальные ограничения сервиса, такие как ограничение в 140 символов в твите. Исследования по тональности предложений в таком контексте затруднены, но могут быть решены с помощью специальных средств. При проведении анализа об этом необходимо помнить.
Вот два хороших источника для поиска социальных данных:
Stanford Large Network Dataset Collection (SNAP) превосходный ресурс на котором собраны наборы данных различных сетей, в том числе разных размеров. Примеры наборов данных:
Social Computing Data Repository — так же очень хороший ресурс с информацией из социальных интернет сервисов, таких как YouTube, Livejournal, Last.fm, Foursquare, Flickr, Digg и др.
Для наборов данных специального вида можно порекомендовать следующие ресурсы
Конечно, это далеко не полный список доступных наборов данных. Возможно, вы найдете что-то подходящее в каталоге правительственных данных или специализированных поисковых системах.
Научно-образовательный центр «Искусственный интеллект и квантовые технологии» (НОЦ «ИИКТ»)
НОЦ ИИКТ предоставляет высокоуровневые программные сервисы для инженерного проектирования и анализа, используемые в учебном процессе и научных исследованиях.
© Сайт НОЦ ИИКТ, 2008-2025