Рубрика «анализ данных»

Миграция данных в кровавом энтерпрайзе: что анализировать, чтобы не завалить проект - 1

Типичный проект системной интеграции для нас выглядит так: у заказчика вагон систем для учета клиентов, задача — собрать клиентские карточки в единую базу. И не только собрать, а еще очистить от дублей и мусора. Чтобы на выходе получились чистые, структурированные, полные карточки клиентов.

Для начинающих поясню, что миграция идет по такой схеме: источники → преобразование данных (отвечает ETL или шина) → приемник.

На одном проекте мы потеряли три месяца просто потому, что сторонняя команда интеграторов не изучала данные в системах-источниках. Самое обидное, что этого можно было избежать.
Читать полностью »

В рамках реализации большой задачи по Sentiment Analysis (анализ отзывов) я решил уделить некоторое время дополнительному изучению её отдельного элемента — использованию VotingClassifier из модуля sklearn.ensemble как инструмента для построения ансамбля моделей классификации и повышению итогового качества предсказаний. Почему это важно и какие есть нюансы?
Читать полностью »

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:

  • как быстро найти абзац текста среди сотен миллионов статей;
  • во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
  • как формируется отчет, который почти никто не смотрит, а стоило бы;
  • как проиндексировать не все, но достаточно.

Так устроен поиск заимствований в Антиплагиате - 1
Читать полностью »

В четверг 4 октября я побывал на конференции DataVizDay в Минске в качестве спикера. Поделюсь самыми интересными идеями и впечатлением от Миснка.

Ключевые идеи:

  1. 80% ваших усилий будет до BI и визуализации, потому что данные бывают или плохие или очень плохие и в основном вы будете тратить время на подготовку и сбор данных.
    2.Тем не менее визуализация создает ценность вашего дата продукта. Без визуализации получается просто куча цифр.
  2. К сожалению очень часто визуализация плохая, используют плохие подходы, типы графиков и гистограмм, перегружают представления деталями. В итоге часто мы видим Kill by powerpoint и обилие данные не добавляет прозрачности в аналитике.
  3. Эксель продолжает занимать значительную роль в процессах. И часто компании не готовы перейти на что-то продвинутое. Но даже на экселе можно построить много чего интересного, потому что хорошая аналитика скорее начинается с чистоты и подготовки данных, а не с красивых дашбордов.Читать полностью »

Сегодня мы представляем вашему вниманию материалы о проектах выпускников и специалистов Университета ИТМО. Темы подборки — Computer Science, городская инфраструктура и карьера в ИТ.

Дайджест Университета ИТМО: новые исследования, опыт выпускников и международные проекты - 1Читать полностью »

1. Введение

Этот текст — небольшое обобщение моего опыта подачи заявок на Computer Science PhD с уклоном в machine learning в Северной Америке. Я постарался собрать в этом гайде свои просчеты (учиться лучше на чужих ошибках) и более-менее универсальные вещи, полезные всем. Но все равно нужно понимать, что это довольно индивидуальный опыт, поэтому ваша личная стратегия может отличаться. Например, в случае выбора вузов/научных руководителей или в написании statement of purpose. Ну или вы находитесь в других стартовых условиях по сравнению со мной (оценки, статьи, рекомендации).

Имейте в виду, что основная часть гайда писалась до получения результатов, потому что мне хотелось избежать «ошибки выживших» (survivorship bias) и проанализировать свой опыт безотносительно того, поступил я или нет. В конце руководства есть мои результаты: я поступил в 2 из 11 вузов, в которые подавался. На мой взгляд, все равно стоит избегать ошибок, которые я здесь буду описывать. Ну и нужно понимать, что в процессе подачи на ML PhD очень много шума, поэтому можно сделать все хорошо и пролететь и наверное даже наоборот.

imageЧитать полностью »

Банки все внимательнее следят за репутацией клиентов: расследование Business Insider - 1

Изображение: Unsplash

Издание Business Insider рассказало историю одного из клиентов американского банка JPMorgan Chase. Несмотря на идеальную кредитную историю банк внезапно решил разорвать с ним отношения и закрыл все его счета.

Опрошенные журналистами эксперты заявили о том, что причиной такого решения могла стать репутация клиента — его имя мелькало в негативных новостях, когда компания, где он работал, была обвинена в нарушениях регулирующими органиами. Мы представляем вашему вниманию основные факты этой истории.Читать полностью »

Наступил новый учебный год. Студенты получили расписание занятий и стали задумываться о пьянках-гулянках-девушках-гитарах будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как же обмануть «Антиплагиат». В нашем случае практически все способы обмана так или иначе связаны с искажениями текста. Мы уже научили «Антиплагиат» обнаруживать текст, «искаженный » с помощью перевода с английского на русский ( мы уже писали об этом в первой статье нашего корпоративного блога). Сегодня речь пойдет о том, как обнаруживать самый эффективный, хотя и трудоемкий способ искажения текста – парафраз.

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз - 1

Читать полностью »

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.

Выявление содержательных профилей в VK - 1


Читать полностью »

Вы когда-нибудь анализировали вакансии?

Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Месяц назад? Год назад?

Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются?

В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Поехали!

MongoDB и исследование рынка ИТ-вакансий - 1

Источник
Читать полностью »