Сервис OpenML предназначен для предоставления открытого доступа к данным, программному коду и результатам экспериментов в задачах машинного обучения, в результате чего ученые смогут проводить исследования более эффективно. Данный сервис предназначен для формирования научного сообщества по решению задач машинного обучения.
Основные численные показатели сервиса OpenML (на 24 августа)
236 Data Sets. Наборы данных для машинного обучения. Например, база данных грибов, спам писем, изображений букв для задач распознавания и др. Каждый набор данных снабжен кратким описание свойств, таких как точность по умолчанию, количество классов, количество переменных и др.
1340 Tasks. Задачи создаются исследователями для соответствующих наборов данных. Задачи делятся на 4 типа по ожидаемому результату: классификация с учителем, кривая обучаемости, классификация потоков данных с учителем и регрессионный анализ с учителем. Задачи доступны другим пользователям для решения.
527 Flows. Решения задач, представленные в виде реализаций алгоритмов, описания порядка выполнения или последовательности команд возможно с применением плагинов. Ученые могут, как загружать файлы с исходным кодом, так и указывать файлы по ссылке, если они выложены на GitHub или аналогичных сервисах. На странице решения приводится сравнение применения данного решения ко всем задачам указанного типа.
25648 Runs. Запуски это все попытки решения некоторой задачи с помощью загруженного решения. Например в запуске 24980 вызывается решение weka.Bagging_SMO_PolyKernel(1) над задачей 36. Задача 36 это классификация с учителем набора данных segment. Там же указаны результаты выполнения решения, такие как площадь ограниченная кривой, матрица распределения ошибок, точность предсказания и др. Исследователи могут легко сравнить результаты разных запусков для одних и тех же заданий.
Система OpenML имеет плагины для интеграции с Weka, MOA, KNIME, RapidMiner, а так же открытый API для языков Java и R. Поддержка языка Python находится в процессе разработки.
OpenML или Kaggle?
Важным достоинством открытых платформ является то, что чем больше у них пользователей, тем быстрее они развиваются. Количество пользователей OpenML растет, а значит растет и количество задач и возможностей системы. Важно, что пользователи сами могут создавать задания и делать алгоритмы для решения чужих заданий. Все полученные результаты сохраняются и систематизируются для легкого доступа, повторного использования и обсуждения.
Сервис OpenML имеет общие черты с сервисом Kaggle. И там и там пользователи скачивают наборы данных и применяют к ним свои алгоритмы обучения. Важным отличием является то, что сервис OpenML ориентирован на совместной работе, а не на соревновании между пользователями, как это реализовано в Kaggle. Таким образом, OpenML будет работать до тех пор пока на нем будут решаться задачи.
В будущем планируется добавить поддержку наборов данных графов, документов, изображений, аудио и видео записей, реализовать новые типы задач и многое другое.
Больше о сервисе OpenML можно прочитать в статье OpenML: networked science in machine learning
Научно-образовательный центр «Искусственный интеллект и квантовые технологии» (НОЦ «ИИКТ»)
НОЦ ИИКТ предоставляет высокоуровневые программные сервисы для инженерного проектирования и анализа, используемые в учебном процессе и научных исследованиях.
© Сайт НОЦ ИИКТ, 2008-2025