Использование анализа данных в образовательной сфере Блог Шаромовой Юлии / 28.05.2015 Использование анализа данных с целью управления качеством образования - задача нетривиальная, но при этом - весьма занятная и важная для изучения. К примеру, сравнительно недавно в сфере анализа данных появилось такое направление, как Data Mining ("добыча данных"), вслед за которым - так называемое Educational Data Mining.EducationalDataMining (EDM) – это анализ данных в образовательной сфере. На сегодня популярность и распространенность EDM в отечественных вузах еще не слишком широка, что обусловлено рядом факторов, в частности, недостатком информации, слабым представлением о возможностях EDM и общей неразвитостью информационной инфраструктуры вузов.Такое положение дел нельзя считать приемлемым, так как применение EDM может стать важным инструментом управления качеством образования, позволяя не только получать более полную картину существующей действительности, но и обнаруживать неочевидные, но практически значимые закономерности. В общем-то, в этом и заключается вся суть применения EDM в образовании - обнаружить важные закономерности в сырых данных. Для этого для начала нужно выявить все источники данных, которые могут быть использованы для анализа, и обеспечить сбор данных из этих источников. К сожалению, на сегодня эта задача очень далека от решения, а во многих случаях даже не поставлена. Проведем некоторый эксперимент. Обратимся к данным, собираемым в процессе промежуточной аттестации студентов в течение семестра, сведениям о посещаемости и результатам сессии (данные собирались за 1 год обучения у студентов-первокурсников). Очевидно, что проведение текущей аттестации должно дать возможность спрогнозировать результаты предстоящей сессии, что полезно как самому студенту, так и сотрудникам вуза. Выставим некоторые статистические оценки:1. Аттестации (2): оценка "0" - не аттестован, "1" - аттестован. В итоге рассчитывалось среднее значение по каждому студенту.2. Сессия: ставились оценки от 3 до 5 в случае сдачи экзамена по дисциплине и "0" - если студент не сдал экзамен или не явился на него по какой-либо причине. В итоге рассчитывалось среднее значение по каждому студенту.3. Посещаемость: рассчитывалось общее число проведенных занятий, затем число пропущенных занятий всего каждым студентом, после чего высчитывалась доля посещений каждым студентом.В итоге мы получили 4 набора данных: средние по двум аттестациям и сессии, доля посещаемости.После проведенных расчетов можно попытаться определить степень связи между наборами данных. Для этого воспользуемся специальным инструментом для Data Mining.Вообще существует достаточно большое количество инструментов, однако, большинство из них распространяется на платной основе, требует от пользователя достаточно высокой квалификации и т.д. Соответственно, внедрение этого инструментария в практику сопряжено со значительными расходами. Тем не менее, в последнее время появилось некоторое количество свободно распространяемых сред анализа данных, которые, к тому же, предоставляют достаточно простой графический интерфейс, позволяющий работать более широкому кругу пользователей.Одной из таких сред является KNIME, бесплатный программный продукт, не требующий инсталляции. Он предлагает множество способов для анализа данных. Единственным минусом использования KNIME является некоторый языковой барьер: программа полностью англоязычная, а вдобавок ко всему отсутствие документации на русском языке усложняет работу аналитика - бывает трудно конвертировать с языка на язык достаточно нетривиальную информацию. Для решения задачи выявления наличия или отсутствия закономерностей в наборах данных, полученных нами в ходе анализа, необходимо составить схему, используя возможности KNIME. На рис. 1 и рис. 2 представлены соответственно схема метаузла, позволяющая произвести предварительные расчеты, и схема, демонстрирующая корреляционный анализ данных.Рисунок 1 - Схема метаузлаРисунок 2 - Схема корреляционного анализа данныхОбъект "MetaNode" содержит в себе целый ряд процессов, результатом протекания которых является 1 информационный выход, показанный на схеме. Объект "FileReader" позволяет импортировать исходные данные из файла (в нашем случае они находились в текстовых файлах), "Transpose" нужен для транспонирования начальных данных, поскольку последующий объект "Statistics" вычисляет статистические величины по столбцам начальных, представленных в виде таблицы, данных, поэтому предварительно необходимо было поменять строки и столбцы местами. Объект "ColumnAppender" позволяет объединить две таблицы в одну. Данная операция была произведена дважды. В итоге получаем единую таблицу с необходимыми вычислениями. Результатом работы метаузла является 1 поток с вычисленными данными: средними значениями по аттестациям и сессии, а также величиной посещаемости каждым студентом.Объект "LinearCorrelation" непосредственно осуществляет корреляцию, причем в настройках можно выбрать, какие статистические характеристики исключить из корреляционного анализа, а какие, напротив, включить. Объект "InteractiveTable" необходим для визуализации данных, хотя объект "LinearCorrelation" и сам достаточно неплохо выполняет эту функцию (Рис. 3). Объект строит матрицу в виде сетки, узлы которой раскрашены красным или синим цветом (в зависимости от прямого или обратного характера связи) с разной интенсивностью цвета: цвет ярче при более высокой степени связи, и наоборот. Перечеркнутая ячейка матрицы означает, что корреляция отсутствует.Рисунок 3 - Корреляционная матрица ("LinearCorrelation")На Рис. 4 представлена таблица, являющаяся результатом анализа данных, - корреляционная матрица.Рисунок 4 - Корреляционная матрица ("InteractiveTable")Согласно полученным данных, можно сделать вывод о том, что достаточно высока корреляция между посещаемостью занятий и результатами сессии. Соответствующие связи между остальными наборами данных имеются, но в меньшей степени (вообще, корреляция высока, если коэффициент корреляции от 0.69 и выше, средняя от 0.5 и выше, а если ниже 0.3 - то низкая). Очевидно, что соответствующая зависимость между аттестациями, сессией и посещаемостью прямая, так как величина корреляционного коэффициента проявилась с положительным знаком. В целом, корреляцию можно оценивать как среднюю, поскольку коэффициенты корреляции в основном изменяются от 0.5 до 0.69, за исключением корреляций «Посещение-Аттестация2» и «Посещение-Сессия». На первый взгляд, данное исследование подтверждает и так известные факты. Однако, одно дело представлять положение дел на интуитивном уровне, когда «и так ясно», что результаты аттестации и посещаемость связаны с успешностью сдачи сессии. И другое дело, когда имеется количественное выражение этой зависимости. Ведь если обнаруживается, что результаты аттестации не позволяют предсказать результаты сессии, то возможно, не стоит вообще проводить аттестацию и тратить на нее ресурсы.Разумеется, проведенные расчеты – это лишь эксперимент, позволяющий оценить возможность применения технологий EDM и потенциальный эффект от них. Для того, чтобы извлекать действительную пользу, необходимо создать инфраструктуру сбора данных и выполнять анализ, подобный приведенному в статье, на регулярной основе, используя результаты анализа в текущей деятельности. Мы предполагаем развить эту тему в перспективе.Графическое сопровождение: Слайд-шоу анализ данные использование