Галактике три года! Популярность как тренд biarmicus's blog / 12.04.2013 В связи со славным юбилеем Галактики (а ей 13 апреля исполняется три года!) захотелось мне произвести небольшую ревизию написанного. За три года меня накопилось уже около полутораста публикаций в блогах. Естественно, что-то было более удачным, что-то менее - и захотелось мне поискать каких-то более убедительных критериев. Вдохновленный Мастер-классом Людмилы Рождественской, я решил окинуть сделанное математическим взглядом (хотя сам я ни разу не математик, поэтому любые советы и замечания коллег-профессионалов восприму с благодарностью). Если звезды зажигают - значит, это кому-нибудь нужно. Если мы чего-то пишем, значит, это кто-то читает... Но так ли это? Вот эту гипотезу я и решил проверить. К счастью, на Галактике ведется статистика просмотров публикаций. Вот с этим параметром мы и попробуем поработать.Начнем с создания набора данных - или, по-заграничному говоря, "датасета". Вооружимся таблицей Google и занесем в нее три столбца - то, когда была опубликована запись, то, как она называлась и сколько раз она была прочитана. Получится что-то вот такое:Посмотрев на эти суровые ряды цифр, я сразу захотел как-то представить их графически. Делается это элементарно. Вставляем в лист точечный график. Уже получается что-то наглядное. Есть посты, которые просмотрели лишь несколько человек, ;( а есть те, у которых почти четыре тысячи просмотров. Точки разбросаны, но кажется, что какая-то картина, все-таки, просматривается. Масса точек вытянута и наклонена вправо. Но как проверить математически, есть ли в этом наборе точек какие-то закономерности? К счастью, не мы первые, кто решает похожую задачу. О таких задачах в конце XIX века всерьез задумался сэр Френсис Гальтон, который разработал для нее оригинальный математический метод регрессии, смысл которого состоит в том, что в нашем скоплении точек мы можем рассчитать направление, в котором это скопление движется - иными словами, выделить в наборе данных тенденцию. Это поможет и в том, чтобы предсказать то, в каком направлении наши данные будут двигаться в будущем и объяснить то, почему они такие, какие они есть. Уравнение любой прямой линии на координатной плоскости, как нам хорошо известно, может быть формулой y = ax+b. В расчет регрессии заложена идея проведения в скоплении точек такой линии, расстояние до которой ото всех этих точек будет минимальным. Поскольку точки могут находиться как над линией, так и под ней, то в уравнении регрессии используются не абсолютные разницы между координатами X и Y, а их квадраты.Сегодня расчет регрессии "зашит" во все процессоры электронных таблиц. В таблицах Google этим занимается функция forecast. Вставим в нашу таблицу еще один столбец, который заполним значениями, "предсказанными" на основе уравнения регрессии. C помощью функции forecast и режима автозаполнения сформируем и этот ряд данных.Использовав данные из этого столбца, мы можем представить на нашем графике линию тренда, представленную красными точками. Мы точно видим, что эта линия наклонная. А это значит, что количество просмотров публикаций со временем возрастает - даже если мы ничего для этого не делаем!График позволяет сделать важное наблюдение. Даже если у двух разных публикаций одно и то же количество просмотров, это не значит, что они привлекли одинаковый интерес. Например, публикация, получившая 406 просмотров в 2011 году "не дотянула" до линии тренда (соответствующая точка на линии составила 811), а публикация, получившая те же 406 просмотров в 2013 году, "перевыполнила план" (343). Попробуем теперь найти для каждой публикации степень, в которой она удалена от линии тренда - для этого вычтем из количества просмотров для каждой публикации "ожидаемое" значение на линии тренда. Назовем этот параметр "популярность". Получившиеся значения расположим на графике. Как мы видим, все публикации выстроились в ряд - от оправдавшей ожидания в наименьшей степени (ее прочитали на 1016 человек меньше, чем ожидалось) до самой популярной (ею заинтересовалось на 2247 человек "больше нормы”". Теперь нам предстоит самое важное. Мы разделим получившееся распределение на диапазоны в соответствии с формулой нормального распределения, посчитав для этого серединное значение (оно составило -92) и стандартное отклонение (499). Таких диапазонов получится шесть. Выстроим из них еще один график - и у нас получится картина распределения публикаций в зависимости от степени их популярности. Наиболее востребованными оказались пост про QR коды, введение в скрайбинг и история про датскую школу Эрестад, где нет стен между классами. Теперь, вооружившись этим знанием, можно идти к новым вершинам!С днем Рождения, Галактика! 3 года галактика тренд