Как я парсил Google Play

в 19:40, , рубрики: android, Google Play, Сетевые технологии, метки:

Никогда не задумывались, сколько всего приложений написано под андройд?
Системе всего несколько лет, но я никогда и не пытался представить порядок. Пользователей несколько десятков миллионов, а приложений? Десять тысяч? Пятьдесят? Сто?

Зачем?

Итак, для своих нужд мне потребовалось сграбить кучу информации о приложениях. Мне хотелось узнать, как часто в среднем приложения обновляются, какой у них размер и прочее.
Интерес чисто научный, просто прикольно поиметь какую то информацию у себя, и на ее основе построить статистику. Время выдалось свободное.

Как?

Все просто, скачиваем страницу. Находим необходимую нам информацию, а также ссылки на другие приложения.
Информацию сохраняем, новые ссылки добавляем в список заданий.

Можно ли следить за процессом?

Вот динамика процесса, обновляется каждые 30 секунд.
(nginx не настроен, возможно ляжет под хабраэффектом)
image
Расшифровка:
зеленое — количество заданий в очереди
белое — сохраненные приложения
синее — количество найденых за раунд приложений
фиолетовое — кпд процесса. т.е сколько заданий мы получаем при просмотре одной страницы.

Результаты

На данный момент точное число приложений не известно, но судя по тенденции, оно не более 100 тысяч.
Средний размер приложений при выборке из 14.000 = 3.644M
Самое большое приложение: 1.8G (Спасибо Utter_step, на момент написания, до него не дошел парсер)
Самое маленькое приложение: 1.002kb
Число отношение (больше 2 метров/меньше 2 метров): 0.510715428
В среднем приложения последний раз обновлялись: 292 дня назад
Живые приложения(с обновлением < 30 дней): 12 дней назад
За последние четыре дня обновили: 98, 107, 133, 95 приложений. За сентябрь: 2085.
В среднем, в день обновляют: 13 приложений.

P.S Кстати все началось вот отсюда, я не долго выбирал, но автор молодец. Не реклама, я не знаком с автором!

Автор: Offenso


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js