Рубрика «reddit»

Что может пойти не так с Data Science? Сбор данных - 1


Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.

Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.

И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:

Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.

А главное, обсудим, что делать, чтобы этого не допустить.

По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.

Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».

И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:

  1. Двух сабреддитов Reddit
  2. Двух разделов Хабра
  3. Двух групп Одноклассников

Читать полностью »

imageФото: elit-web.ru

Компания Reddit представила Transparency Report 2019. В нем говорится, что за прошедший год администраторы площадки удалили более 53 млн пользовательских публикаций. 99,6% из них либо были спамом, либо попыткой накрутить рейтинг. Кроме того, на 500% выросло число материалов, нарушающих авторские права. Читать полностью »

Привет! Представляю вашему вниманию перевод статьи "PHP in decline: The rise and fall of a programming language" автора Сара Шлотхауэр (Sarah Schlothauer).

Когда-то PHP был одним из самых популярных языков программирования, однако на сегодняшний день он продолжает терять свою былую популярность. Это особенно заметно при его сравнении с Python, а также рядом других языков программирования. Индекс TIOBE за сентябрь 2019 года ясно указывает на то, что PHP вполне может вылететь из десятки наиболее востребованных языков программирования.

Пора ли заказывать по умершему панихиду? Или наш "феникс" еще будет летать?

PHP уверенно следует по траектории падения своего индекса TIOBE, заданной еще пять лет назад. В частности, показатели индекса TIOBE за сентябрь 2019 года говорят о том, что за последние 12 месяцев этот язык программирования опустился в списке на две позиции — с 7 на 9 место.

Ниже приведен скриншот индекса TIOBE Index за сентябрь 2019 (источник):

Читать полностью »

На прошлой неделе было объявлено о том, что отныне все новые сервисы Reddit запускаются в production на инфраструктуре, основанной на Kubernetes-кластерах. Эта значимая веха на пути миграции на K8s одного из популярнейших онлайн-ресурсов, и вот как к ней пришли…

Истории успеха Kubernetes в production. Часть 10: Reddit - 1Читать полностью »

Капитализация Reddit достигла $3 млрд после привлечения $300 млн инвестиций - 1

Соцсеть Reddit в ходе очередного инвестиционного раунда привлекла $300 млн. Оценка капитализации компании достигла $3 млрд. Среди инвесторов компании венчурные фонды Sequoia, Fidelity, Tacit, а также рэп-исполнитель Снуп Дог – они участвовали в новом раунде совместно с компанией Tencent, вложившей в соцсеть $150 млн.Читать полностью »

Перевод поста пользователя Reddit

За последний год я провёл более 50 телефонных собеседований, и наблюдал, как люди делали одни и те же ошибки снова и снова. В интернете можно найти много советов по поводу навыков, полезных для прохождения интервью, но я не видел текстов, где бы описывались стратегии, помогающие людям преуспеть. Я думаю, что у большей части наших кандидатов, дошедших до интервью, есть необходимые навыки, однако они просто нервничают и не применяют эти навыки эффективно. Чтобы был ясен контекст, наша фирма – это стартап на 100 человек, а до второго раунда интервью доходят порядка 50% людей.
Читать полностью »

Reddit.com – это американская социальная сеть, которая может стать отличным источником трафика из США. Для того чтобы понять, каким образом это можно осуществить, стоит разобраться в особенностях платформы.

Продвижение на Reddit. Как получить трафик? - 1

Читать полностью »

Эволюция мобильной архитектуры Reddit - 1

Это первая из статей, где мы рассказываем об архитектуре приложения Reddit под iOS. Здесь речь идёт о функциональности, которая работает ближе к UI. В частности, о переходе к архитектуре Model-View-Presenter (MVP). Преимущества такого рефакторинга:

  • Улучшение гибкости кода, его ясности и поддерживаемости для поддержки будущего роста и ускорения итераций.
  • Повышение производительности прокрутки в 1,58 раза.
  • Стимуляция модульного тестирования. Количество тестов увеличилось с нескольких штук до более 200.

Читать полностью »

Security Week 29. Взлом Reddit, кошелька для криптовалюты и роутеров MikroTik - 1Не было на прошлой неделе новостей о инфобезопасности, достойных детального описания в дайджесте. Это не значит, что ничего не происходило — такая ситуация, кажется, и вовсе невозможна. Кого только не взломали. Что же, в качестве компенсации за предыдущий опус про теоретическую сетевую Spectre-подобную атаку сегодня речь пойдет о двух реальных атаках и одном цирке с конями при участии Джона Макафи.

Reddit взломали просто. То есть нет, не так. Reddit как довольно специфическое сообщество, и притом весьма популярное, наверняка подвергается абсолютно всем возможным типам кибератак и на самом деле довольно неплохо защищен. Этот вывод можно сделать как из абсолютно честного рассказа о недавней успешной атаке, так и из того факта, что в прошлом таких рассказов, кажется, не было. Атака была сложной, но описать причину успешного взлома легко: обошли двухфакторную аутентификацию.
Читать полностью »

Один из крупнейших социальных хабов интернета, Reddit, в среду заявил о проникновении в свою сеть киберпреступников.

Злоумышленнику удалось получить доступ к различным данным: базе с email-адресами и паролями пользователей, зарегистрированных с 2005 по 2007 год, электронные письма пользователей, исходные коды, внутренние файлы и «все данные Reddit с 2007 года». Сообщается, что инцидент имел место между 14 и 18 июля 2018 года, и проникновение обнаружили 19 июля. Злоумышленники скомпрометировали нераскрываемое число сотрудников Reddit и проникли в «несколько систем», получив доступ к данным.

image
Иллюстрация от theguardian.com

Представители Reddit официально признали факт взлома и изложили суть произошедшего в своем блоге:

«19 июня нам стало известно, что хакер скомпрометировал несколько учетных записей Reddit с доступом к облаку и исходному коду, перехватив коды проверки двухфакторной аутентификации, которые пришли по SMS».
«Мы сотрудничаем с правоохранительными органами, делаем необходимое для устранения последствий текущей ситуации, а также постараемся сделать все, чтобы избежать подобных инцидентов в будущем. Пострадало лишь небольшое количество пользователей, которых мы уже успели уведомить».

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js