Рубрика «хабр»

Что может пойти не так с Data Science? Сбор данных - 1


Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.

Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.

И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:

Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.

А главное, обсудим, что делать, чтобы этого не допустить.

По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.

Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».

И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:

  1. Двух сабреддитов Reddit
  2. Двух разделов Хабра
  3. Двух групп Одноклассников

Читать полностью »

Хабр в студию! Кровь, слезы и победы на этой чертовой удаленке. Выпуск 1: Фриланс vs корпорация - 1

Привет! Пока за окном на солнце греются котики, проносится лето, сходит на нет (или нет?) коронавирус, мы всей контент-студией четвертый месяц работаем удаленно. Все шутки отшучены, все стадии стресса пройдены, а работа со слезами и кровью адаптирована под распределенный режим. 

Мы понимаем, что такая ситуация у всех, поэтому решили взглянуть на проблемы удаленки с разных сторон и показать, что с трудностями сталкиваются и фрилансеры, и большие компании — и все более-менее успешно их преодолевают. Для этого мы решили выслушать участников хабрасообщества и вместе с нашим партнером по интернет-трансляции SBTG.RU организовали серию видеокастов, которая стартует завтра. 

Читать полностью »

image

Вчера, 2 июня, baragol разговаривал с Эдуардом Лысенко и его коллегами в прямом эфире на ютуб-канале Хабра. Иван задавал острые вопросы от сообщества Хабра, а сотрудники ДИТа пытались на них отвечать. Как и ожидалось, некоторые вопросы остались без ответа, а на некоторые не хватило времени, поэтому в конце эфира участники договорились о новой встрече, которую ДИТ анонсирует на этой неделе в своем блоге на Хабре. Во втором раунде примут участие активисты российского IT-сообщества, в том числе Владислав Здольников, ведущий канал «IT и СОРМ».

После трансляции deniskin в своём телеграм-канале описал неприятный опыт общения с сотрудницей ДИТ и резюмировал:

Будем ли мы дальше проявлять активность и помогать госорганам налаживать общение с гиками? Нет, сегодняшнего опыта достаточно. Мы готовы предоставить площадку и инструменты, но общение пусть налаживают интернет-активисты. Для нас эта история не только не профильная, но ещё и с осадком.

Для qyix7z, catBasilio и других адептов текстовых версий — расшифровка полуторачасового эфира.Читать полностью »

26 мая — День рождения Хабра. А ещё вышла наша 1000-ая публикация, которой могло бы не быть, если бы Хабр не был тем, который он есть. В этой статье мы расскажем о нашем пути и о наших выводах, которые удалось сделать за 4 года ведения блога. Но это ниже, под катом. А здесь мы хотим написать несколько слов о тебе.

Хабр, для миллионов читателей ты стал учебником и шпаргалкой, средством самореализации и лучшим способом прокрастинации. Мы открываем тебя в рабочее время, пролистываем с утра и на ночь. Мы бьёмся за инвайты, чтобы получить возможность писать комментарии и транслировать своё мнение. Тебя читают те, для кого в твой первый день рождения прошёл выпускной в детском саду. Мы замираем, обновляя рейтинг новой статьи и злимся, когда он не двигается. Мы ругаем тебя и возвращаемся вновь. Хабр, ты лучшее из того, что случалось с техноблогами Европы (а может и мира). Хабр — ты космос! 

1000 и 1 пост: с Днём рождения, Хабр ❤ - 1


Мы стащили эту картинку у самого Хабра. Потому что Хабр — торт :)
Читать полностью »

Самое интересное из англоязычных медиа, оставшееся без внимания технологических изданий.

«Прошли мимо»​: темы, которые забыли обсудить на русскоязычных площадках о стартапах и технологиях - 1Читать полностью »

Обсудили как Мозилла переформатирует себя, чтобы выжить в мире больших мальчиков и девочек — Хрома, Сафари и Edge. Поразмышляли, почему все ударились делать ремейки, и поностальгировали о былых крутых играх. Наши разработчики рассказали, зачем изучать старинные исходники.

Опровержение. В выпуске Далер сказал, что поисковик Дакдакгоу использует технологии Яндекса. На самом деле это не так. Яндекс — партнер и отдает часть данных, чтобы результаты поиска были полезнее: help.duckduckgo.com/results/sources.

Читать полностью »

Лампово поговорили о закрытии MWC из-за коронавируса, поудивлялись истории подростка, которого позвали работать программистом, поразмышляли, классно ли работать в опенспейсках и какого черта T-Mobile запатентовала розовый цвет.

Читать полностью »

Вчера бывший главный редактор TJournal, Никита Лихачёв, запостил в своём телеграм-канале пару длинных аудиосообщений, почти подкаст, где рассказывает, что он думает о реестре ОРИ, письмах в крупные интернет-сервисы из ФСБ и место Хабра во всей этой истории. Знаю, на Хабре больше любят читать, чем слушать, поэтому взял на себя труд расшифровать запись. Мне этим мысли показались интересными. Под катом чтиво на 5-7 минут.Читать полностью »

Изданию «Медуза» стало известно, что Центр оперативно-технических мероприятий ФСБ в августе 2019 года разослал письма в адрес более десяти российских компаний, которые входят в реестр организаторов распространения информации Роскомнадзора. От них потребовали «организовать круглосуточный удаленный доступ Центра [ФСБ] к информационной системе организации», а также «обеспечить в возможно короткий срок техническую готовность к предоставлению в Центр информации, необходимой для декодирования электронных сообщений пользователей интернет-сервисов».

Письма от ФСБ были разосланы в том числе ООО «ТМ Сервисы» и ООО «Хабр».
Читать полностью »

Повосхищались Яндексом (в который раз) и их вендоматом с бесплатными гаджетами для сотрудников. Поговорили о том, как программистам общаться с непрограммистами и при чем здесь менеджер. А еще разобрали по косточкам историю с чешскими программистами, которую СМИ перевернули с ног на голову.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js