- PVSM.RU - https://www.pvsm.ru -
Полгода назад я писал про то, как мы участвовали в конкурсе по открытым данным [1] с проектом "Московские школы [2]". Потом было исследование московских результатов ЕГЭ [3], московских кружков и секций [4]. Недавно удалось собрать все результаты в одном месте и аккуратно оформить:
Я хотел бы подробно рассказать про процесс сбора и обработки школьных данных. Оказывается, что для каждой школы в Москве публикуется достаточно много информации: результаты ЕГЭ, ГИА и олимпиад, профили учителей, бухгалтерская отчётность и списки кружков.
Департамент Образования Москвы каждый год составляет рейтинг школ. Доступны срезы за 2015 [5], 2014 [6] и 2013 [7] годы. Можно посмотреть не только на каком месте находится школа сейчас, но и на динамику. Если лень разбираться в разных версиях названий школ, например «Специализированный учебно-научный центр (факультет) — школа-интернат имени А.Н.Колмогорова» и «СУНЦ МГУ», можно взять сводную таблицу из репозитория obr.msk.ru [8].
Нужно учитывать две вещи:
И вообще, школа — очень сложная вещь: десятки учителей, сотни учеников, корпуса, кружки и секции. Как это можно свести к одной цифре? В топе рейтинга, действительно, хорошие школы. При этом низкая позиция ещё не означает, что школа плохая.
В Москве почти все школьные сайты хостятся на одной платформе. Это очень удобно. Список школ со ссылками есть на obr.msk.ru [10]. На сайтах школ есть много полезного:
Пару месяц назад разработчики платформы, на которой работают все школьные сайты, запустили справочник data.mskobr.ru [11]. На первый взгляд ничего особенного, но если присмотреться можно найти вещи, которых нигде больше нет:
В начале 2016 года на Портале открытых данных Правительства Москвы появилось три датасета: результаты ГИА [12], результаты ЕГЭ [13] и победители олимпиад [14].
Вообще результаты ЕГЭ для отдельных школ публикуются очень редко. Обычно это большой секрет. По Москве данные представлены в супер-агрегированном виде, для каждой школы известно только три числа: «сколько одиннадцатиклассников сдавало ЕГЭ», «сколько набрали >150 баллов по результатам трёх экзаменов», «сколько набрали >220 баллов». Сначала кажется, что данных слишком мало и ничего не выйдет, но это не так. С помощью серии вычитаний и сложений для каждой школы получаем три числа: «сколько одиннадцатиклассников набрали <150 баллов», «сколько от 150 до 220», «сколько >220». На эти три точки натягивает бета-распределение и рисуем графики. Получается достаточно информативно:
Нужно понимать две вещи:
Табличка по олимпиадам на Портале открытых данных странная. Например, у Второй школы куча призёров и победителей по математике в старших классах, на портале указано всего 6 человек. Но есть прекрасный сайт — Единая Система Регистрации на олимпиады школьников [15]. Особенно мне нравится их капча:
Там можно найти пофамильные списки победителей и призёров с указанием этапов олимпиад:
Ещё один прекрасный сайт — bus.gov.ru [16]. Для 90% школ там можно найти актуальную бухгалтерскую отчётность. Небольшой хак: не надо пытаться искать школу по названию, это бесполезно:
Сразу вбивайте ИНН, его можно найти на data.mskobr.ru [17]:
Затем делаем несколько неочевидных кликов:
И вуаля, можно посмотреть, какую долю доходов школа получает «от оказания платных услуг (работ)», сколько тратит в расчёта на одного ученика. Иногда можно даже посмотреть зарплату директора:
Чтобы собрать профили московских школьников и выпускников, можно воспользоваться поиском. Проблема в том, что АПИ позволяет получить только первые 1000 результатов, а нужных профилей примерно 1000 000. Поэтому нужно сделать не один запрос, а много: «лицей 1535 мальчики 15 лет», «лицей 1535 девочки 15 лет», «лицей 1535 мальчики 16 лет» и так далее.
Удобно, что прямо в результатах поиска пишется вуз пользователя. Таким образом можно прикинуть, куда поступаю ученики школы. Для этого даже не нужно прокачивать профили. Правда, нужно быть аккуратным с МГУ и некоторыми другими вузами на букву «А». 90% пользователей ВК указывают именно их. Иногда уже в 5 классе.
Также очень удобно собирать отзывы о школах. Создаёшь голосование, id всех проголосовавших известны, кто в какой школе учится известно:
Потом можно выводить статистику по школам:
Самые основные показатели из упомянутых источников собраны на obr.msk.ru [2]. Если вдруг кому-то надо, код открыт github.com/alexanderkuk/moscow-school2 [18].
Автор: alexkuku
Источник [19]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/moskva/120691
Ссылки в тексте:
[1] мы участвовали в конкурсе по открытым данным: https://habrahabr.ru/post/268839/
[2] Московские школы: http://obr.msk.ru/
[3] исследование московских результатов ЕГЭ: https://habrahabr.ru/post/270675/
[4] московских кружков и секций: https://habrahabr.ru/post/271923/
[5] 2015: http://dogm.mos.ru/rating/
[6] 2014: http://dogm.mos.ru/rating/r2013_2014.php
[7] 2013: http://dogm.mos.ru/rating/28.07.2014.php
[8] сводную таблицу из репозитория obr.msk.ru: https://github.com/alexanderkuk/moscow-school2/raw/master/data/check/ratings.xlsx
[9] описании: http://dogm.mos.ru/rating/the-development-of-rating.php
[10] Список школ со ссылками есть на obr.msk.ru: http://obr.msk.ru/list.html
[11] data.mskobr.ru: http://data.mskobr.ru/
[12] результаты ГИА: http://data.mos.ru/opendata/7719028495-rezultaty-gia
[13] результаты ЕГЭ: http://data.mos.ru/opendata/7719028495-rezultaty-ege-dogm
[14] победители олимпиад: http://data.mos.ru/opendata/7719028495-pobediteli-olimpiad
[15] Единая Система Регистрации на олимпиады школьников: http://reg.olimpiada.ru/
[16] bus.gov.ru: http://bus.gov.ru/
[17] data.mskobr.ru: http://data.mskobr.ru
[18] github.com/alexanderkuk/moscow-school2: https://github.com/alexanderkuk/moscow-school2
[19] Источник: https://habrahabr.ru/post/283564/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best
Нажмите здесь для печати.