Инструменты для анализа данных: что выбрать? Блог Шаромовой Юлии / 23.06.2015 Считается, что инструменты анализа данных справедливо нужно относить к дорогостоящим программным продуктам. И с этим трудно поспорить. В связи с этим большинство программных продуктов в этой области используется коммерческими компаниями, готовыми выделить средства на проведение анализа данных. Однако в последнее время появилось некоторое количество свободно распространяемого программного обеспечения, способное предоставлять большие возможности в плане анализа данных, ничуть не уступая при этом специализированным программам по своему функционалу и, что немаловажно, предоставляя возможности пользоваться такими продуктами в образовательных целях.Рассмотрим 3 наиболее известных сегодня свободно распространяемых программных продукта: KNIME, Rapid Miner и R (язык статистической обработки данных).1. Rapid Miner - среда для обработки данных. Включает в себя множество инструментов для анализа данных, имеет очень привлекательный интерфейс и превосходные средства визуализации данных. Однако, стоит отметить некоторые минусы этого инструментария:- нет опыта использования Rapid Miner в образовании;- чтобы начать пользоваться программой, нужно обязательны быть зарегистрированным на официальном сайте, получить триальную лицензию последней версии программы сроком на 2 недели. Однако, обычно тактика предоставления лицензии здесь такова: каждая предыдущая версия является свободной;- ограничения по памяти - 1 ГБ.Конечно, было бы очень неплохо, если такой мощный инструмент анализа данных предоставлял все возможности для использования его в некоммерческой деятельности, ведь в действительности программа очень стоящая, используемые алгоритмы анализа данных позволяют без единой строчки кода обработать данные и выдать результат в нужном, наглядном формате представления данных.2. Язык статистической обработки R.Чтобы воспользоваться языком R при анализе данных, важно:- установить СПО RStudio, интерпретатор R (см. на официальном сайте); - что самое главное-разобраться с синтаксисом и логикой языка R. Пример для подсчета среднего балла выпускника вуза на языке R.Надо сказать, что задача, в общем-то, не такая тривиальная, но при решении задач масштабных в области анализа данных этот инструмент анализа данных несколько уступает тому же Rapid Miner, где не нужно писать ни строчки кода, чтобы понять и проанализировать в дальнейшем результат анализа.RStudio содержит также хорошие средства визуализации, которые позволяют наглядно увидеть зависимости, существующие между данными. Данное решение требует некоторых затрат, связанных с изучением тонкостей языка R, в то время как другие среды анализа данных могут предоставить по сути те же возможности засчет создания моделей вместо написания программного кода.3. KNIME - среда для анализа данных, представляющая наибольший интерес в плане использования в сфере образования. Суть проведения анализа данных заключается в следующем: аналитик использует разнообразные методы анализа, которые представлены программой в виде "узлов", исходя из задачи, которую необходимо решить, путем перетаскивания на рабочую область этих элементов-"узлов" последовательно, формируя в конечном счете поток данных. Набор методов анализа, предлагаемых программой, очень широк: определение стандартных статистических величин, корреляционный анализ, кластеризация, классификация, нейронные сети, ассоциативные правила и т.д. То есть по сути, KNIME позволяет реализовать все методы Data Mining. Помимо прочего, программа позволяет наладить связь с базой данных посредством JDBC и ODBC, что является очевидным преимуществом, ведь считывание данных из базы данных позволит своевременно обрабатывать поступающие данные, а также избежать возможности неучтенных данных или их потери. KNIME имеет и инструментарий в плане визуализации данных, который представлен различными таблицами, графиками и диаграммами. Хотя многие отмечают, что по сравнению с другими продуктами KNIME несколько уступает по этому критерию.Еще одна возможность KNIME - это создание метаузлов на рабочей области в числе потоков. Метаузел может содержать в себе несколько узлов, также размещенных по потоковому принципу. Итогом работы метаузла может быть один или несколько выходов в зависимости от вида метаузла. Обычно метаузлы требуются, чтобы продемонстрировать сложную логику протекания операций, в ходе чего исходные данные на входе метаузла многократно подвергаются какой-либо обработке. Внутреннее устройство метаузла с предыдущей модели:Применимость этого программного продукта в образовательном учреждении отмечают многие. В частности, имеется некоторый опыт применения KNIME российскими вузами: использование программы позволило обрабатывать данные, собираемые в ходе опросов студентами (например, изучение каналов поступления информации о вузе, выявление причин поступления на то или иное направление, необходимость проведения аттестаций в каждом семестре обучения, связь между результатами сессий и степенью активности студентов в течение семестра). Программа требует минимум затрат на установку (по сути, установка не требуется, необходим лишь запуск, который повлечет создание рабочей области на выбранном диске), поэтому работа с KNIME не требует каких-либо особых знаний - интерфейс, хотя и англоязычный, но тем не менее достаточен для понимания.KNIME, как и подобает СПО, имеет открытый исходный код, а это значит, что программа может быть доработана с учетом некоторых требований. Здесь важно отметить, что программа написана на языке Java, а среда разработки KNIME - Eclipse. В этом плане студенты образовательных учреждений могут в очередной раз поупражняться, чтобы подучить такой язык программирования, как Java.Стоит отметить, что хотя СПО несколько уступают лидерам рынка (таким как SPSS, например), однако представляется, что возможностей СПО достаточно, чтобы проводить интеллектуальный анализ данных. Причем лидеры рынка обычно включают различные аналитические дополнения Data Mining к основному продукту, тогда как СПО - это самостоятельный продукт, нацеленный именно на Data Mining. Хочется надеяться, что подобные инструменты смогут в перспективе стать действительно стоящими решениями в области анализа данных, так или иначе связанных с образовательной деятельностью, и станут хорошим средством к достижению одной цели - повышению качества образования. Data Mining KNIME R RapidMiner образование