Настоящая статья является продолжением предыдущей публикации «Инструменты DataScience как альтернатива классической интеграции». Основная цель — заострить внимание как разработчиков, так и руководителей среднего звена, на широком спектре возможностей, которые предоставляют современные инструменты из сферы Data Science за рамками классических задач статистических вычислений и модной нынче темы машинного обучения. В частности, возможности экосистемы R по состоянию на август 2016 года и применение этих возможностей на примере двух задач: одной из прикладной науки, другой – из среднего бизнеса.
Читать полностью »
Рубрика «data mining» - 60
Экосистема R как инструмент для автоматизации бизнес-задач
2016-09-06 в 14:03, admin, рубрики: big data, data mining, data science, RИнструменты Data Science как альтернатива классической интеграции
2016-09-05 в 15:04, admin, рубрики: big data, data mining, data science, RВ настоящий момент уже можно считать, что страсти по Big Data и Data Science немного утихли, а ожидание чуда, как обычно, было сильно скорректировано реальностью физического мира. Самое время заняться конструктивной деятельностью. Поиск тем на Хабре по различным ключевым словам выдал крайне скудный набор статей, поэтому я решил поделиться тем опытом, который был накоплен в части практического применения инструментов и подходов Data Science для решения повседневных задач в компании.
Читать полностью »
Обсуждение инструментов аналитики для работы с большими данными в Питере 14 сентября
2016-09-05 в 8:38, admin, рубрики: analytics, big data, data mining, wrike, wriketechclub, Анализ и проектирование систем, Блог компании Wrike
14 сентября в 19:00 мы встретимся в офисе компании Wrike, чтобы обсудить инструменты аналитики и работу с большими данными. Главное внимание мы уделим успешным практикам и инструментам, разберем конкретные кейсы, поговорим о построении системы аналитики в компании, попробуем дать конкретные советы и рекомендации. Эксперты с удовольствием ответят на ваши вопросы.
Читать полностью »
Визуализация фото-портфолио. Часть 1: Нестандартное применение deep learning
2016-09-03 в 13:23, admin, рубрики: data mining, data science, deep learning, dimensionality reduction, inceptionV3, keras, sklearn, t-sne, truncatedSVD, визуализация данных, машинное обучение
Визуализация портфолио (на данном рисунке, чем краснее область, тем больше фото в этой области, имеющих нулевое количество скачиваний)
Коротко о задаче: есть фото-портфолио с большим количеством фото, хотим узнать список популярных и не популярных тем.
Читать полностью »
В тени случайного леса
2016-08-28 в 12:19, admin, рубрики: data mining, Gradient Boosting, random forest, машинное обучение, Разработка веб-сайтов, стастистика, метки: стастистика1. Вступление
Это небольшой рассказ о практических вопросах использования машинного обучения для масштабных статистических исследований различных данных в Интернет. Также будет затронута тема применения базовых методов математической статистики для анализа данных.
Алгоритм Левенберга — Марквардта для нелинейного метода наименьших квадратов и его реализация на Python
2016-08-26 в 16:16, admin, рубрики: curve-fitting, data mining, Алгоритмы, математика, машинное обучение, метод наименьших квадратов, методы оптимизации
Нахождение экстремума (минимума или максимума) целевой функции является важной задачей в математике и её приложениях (в частности, в машинном обучении есть задача curve-fitting). Наверняка каждый слышал о методе наискорейшего спуска (МНС) и методе Ньютона (МН). К сожалению, эти методы имеют ряд существенных недостатков, в частности — метод наискорейшего спуска может очень долго сходиться в конце оптимизации, а метод Ньютона требует вычисления вторых производных, для чего требуется очень много вычислений.
Для устранения недостатков, как это часто бывает, нужно глубже погрузиться в предметную область и добавить ограничения на входные данные. В частности: МНС и МН имеют дело с произвольными функциями. В статистике и машинном обучении часто приходится иметь дело с методом наименьших квадратов(МНК). Этот метод минимизирует сумму квадрата ошибок, т.е. целевая функция представляется в виде:
Алгоритм Левенберга — Марквардта используется для решения нелинейного метода наименьших квадратов. Статья содержит:
- объяснение алгоритма
- объяснение методов: наискорейшего спуска, Ньтона, Гаусса-Ньютона
- приведена реализация на Python с исходниками на github
- сравнение методов
Что такое большие данные, часть 2
2016-08-26 в 8:12, admin, рубрики: altavista, amazon, Amazon Web Services, big data, data mining, Facebook, Google, pagerank, Yahoo, Большие данные, информация, история
В первой части этой серии статей вы узнали о данных и о том, как можно использовать компьютеры чтобы добывать смысловое значение из крупных блоков таких данных. Вы даже видели что-то похожее на большие данные у Amazon.com середины девяностых, когда компания запустила технологию для наблюдения и записи в реальном времени всего, что многотысячная аудитория клиентов одновременно делала на их сайте. Довольно впечатляюще, но назвать это большими данными можно с натяжкой, пухлые данные — больше подойдёт. Организации вроде Агентства национальной безопасности США (NSA) и Центра правительственной связи Великобритании (GCHQ) уже собирали большие данные в то время в рамках шпионских операций, записывая цифровые сообщения, хотя у них и не было простого способа расшифровать их и найти в них смысл. Библиотеки правительственных записей были переполнены наборами бессвязных данных.
То, что сделал Amazon.com, было проще. Уровень удовлетворённости их клиентов мог быть легко определен, даже если он охватывал все десятки тысяч продуктов и миллионы потребителей. Действий, которые клиент может совершить в магазине, реальный он или виртуальный, не так уж много. Клиент может посмотреть что в доступе, запросить дополнительную информацию, сравнить продукты, положить что-то в корзину, купить или уйти. Всё это было в пределах возможностей реляционных баз данных, где отношения между всеми видами действий возможно задать заранее. И они должны быть заданы заранее, с чем у реляционных баз данных проблема — они не так легко расширяемы.
Заранее знать структуру такой базы данных — как составить список всех потенциальных друзей вашего неродившегося ребенка… на всю жизнь. В нём должны быть перечислены все неродившиеся друзья, потому что как только список будет составлен, любое добавление новой позиции потребует серьезного хирургического вмешательства.Читать полностью »
«Мои друзья потеряли меня из виду на 3 месяца» или как люди учатся у нас big data
2016-08-24 в 13:11, admin, рубрики: big data, data mining, data science, Блог компании New Professions Lab, машинное обучениеВсем привет! 5 октября в New Professions Lab стартует пятый набор программы «Специалист по большим данным», которую на данный момент закончило более 200 человек. Мы уже рассказывали на Хабре (здесь и здесь), чему конкретно мы учим, с какими знаниями и навыками выходят наши выпускники, и совсем скоро напишем, что нового будет в пятой программе. А сегодня хотим поделиться рассказами и отзывами тех, кто уже прошел обучение и на себе испытал все тяготы и невзгоды.



