Рубрика «big data» - 79

Книга «Основы Data Science и Big Data. Python и наука о данных»

2017-02-20 в 16:20, admin, рубрики: big data, python, Блог компании Издательский дом «Питер», книги, Профессиональная литература

Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.
Читать полностью »

R в enterprise задачах. Хитрости и трюки

2017-02-17 в 9:51, admin, рубрики: big data, data mining, data science, R

Несмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.

И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.

Читать полностью »

Superjob Data Science Meetup

2017-02-16 в 9:00, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, Программирование, разработка, Сбербанк-Технологии, события, события IT профессионалов

Superjob приглашает на Data Science Meetup. Встречаемся 2 марта в нашем офисе на Малой Дмитровке.

Темы и спикеры:

«Применение алгоритмов поиска нечетких дубликатов в поиске вакансий»

Дмитрий Кожокарь, старший разработчик Superjob, расскажет об опыте создания эффективного алгоритма по поиску нечетких дубликатов среди большого количества полуструктурированных текстовых записей. В докладе рассматривается использование функции из семейства locality-sensitive hashing с дополнительными оптимизациями для выявления схожих вакансий и последующего объединения их в кластеры.
Читать полностью »

Что изменит суд «ВКонтакте» с финансистами

2017-02-15 в 17:48, admin, рубрики: big data, банки, Вконтакте, Доверие к соцсетям, кейсы, колонка, Нам пишут, советы, соцсети, суд, метки: big data, банки, Вконтакте, Доверие к соцсетям, кейсы, колонка, Нам пишут, советы, соцсети, суд

В прошлом в Интернете мы стали видеть рекламу товаров и услуг, к которым недавно проявили интерес. В будущем реклама сама научится предугадывать наши желания и спрос. Базой для таких разработок являются анализируемые компьютерным алгоритмом гигантские объемы информации — так называемые big data. Чем больше объём информации и база данных, тем точнее и детальнее будет результат анализа.

Социальные сети хранят огромное количество информации о нас, как публичной,Читать полностью »

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

2017-02-15 в 9:55, admin, рубрики: big data, Hadoop, java, open source, spark, xargs, Блог компании Badoo, Программирование

enter image description here

Привет! Меня зовут Александр Крашенинников, я руковожу DataTeam в Badoo. Сегодня я поделюсь с вами простой и элегантной утилитой для распределённого выполнения команд в стиле xargs, а заодно расскажу историю её возникновения.

Наш отдел BI работает с объёмами данных, для обработки которых требуются ресурсы более чем одной машины. В наших процессах ETL (Extract Transform Load) в ход идут привычные миру Big Data распределённые системы Hadoop и Spark в связке с OLAP-базой Exasol. Использование этих инструментов позволяет нам горизонтально масштабироваться как по дисковому пространству, так и по CPU/ RAM.

Безусловно, в наших процессах ETL существуют не только тяжеловесные задачи на кластере, но и машинерия попроще. Широкий пласт задач решается одиночными PHP/ Python-скриптами без привлечения гигабайтов оперативной памяти и дюжины жёстких дисков. Но в один прекрасный день нам потребовалось адаптировать одну CPU-bound задачу для выполнения в 250 параллельных инстансов. Настала пора маленькому Python-скрипту покинуть пределы родного хоста и устремиться в большой кластер!

Читать полностью »

Вебинар: Введение в Singularity

2017-02-14 в 11:04, admin, рубрики: big data, BigData, data mining, data science, deep learning, FlyElephant, gpu, HPC, machine learning, mpi, singularity, xeon phi, Блог компании FlyElephant, вебинар, высокая производительность, машинное обучение

Вебинар: Введение в Singularity - 1

Команда FlyElephant приглашает всех на вебинар "Введение в Singularity", который проведет
Gregory Kurtzer (HPC Systems Architect и Technical Lead в Lawrence Berkeley National Laboratory).
Вебинар будет проходить завтра, 15 февраля, в 19:00 (EET) / 9:00 am (PST). Язык — английский.
Читать полностью »

Google погрозил миллионам Android-приложений, ворам персональной информации

2017-02-13 в 13:52, admin, рубрики: big data, Google, Google Play, безопасность, мобильные приложения, персональные данные, статистика, Текучка, метки: big data, Google, Google Play, безопасность, мобильные приложения, персональные данные, статистика, Текучка

Google предупредила разработчиков приложений для Android, что программы, которые скрывают политику конфиденциальности возможно будут стёрты из магазина Google Play после 15 мая 2017. Как пишет The Next Web, в магазине недовольны, что владельцы приложений не сообщают, с какой целью они запрашивают разрешение на доступ к персональной информации и не объясняют,Читать полностью »

Остроумие и отвага: как мы много раз ошибались, создавая iFunny

2017-02-09 в 14:43, admin, рубрики: AWS, big data, highload, mongodb, php, базы данных, Блог компании FunCorp, высокая производительность, мобильные приложения, Программирование, разработка мобильных приложений

Это — не статья, это — фейлбук. То, что вы прочтете под катом, — выжимка наших нелепых техно-промахов за все 5 лет работы над флагманским продуктом — iFunny. Возможно, наша фейловая история поможет вам избежать ошибок, а возможно, вызовет смех. Что тоже хорошо. Смешить людей — призвание FunCorp уже 13 лет.

Остроумие и отвага: как мы много раз ошибались, создавая iFunny - 1

Читать полностью »

Черновик книги Эндрю Ына «Жажда машинного обучения», главы 1-7

2017-02-08 в 15:35, admin, рубрики: big data, data mining, машинное обучение, стратегии для инженеров, Эндрю Ын, метки: Эндрю Ын

В декабре прошлого года в переписке американских коллег по data science прокатилась волна обсуждения долгожданного черновика новой книги гуру машинного обучения Эндрю Ына (Andrew Ng) «Жажда машинного обучения: стратегии для инженеров в эпоху глубинного обучения». Долгожданного, потому что книга была анонсирована ещё летом 2016 года, и вот, наконец, появилось несколько глав.

Представляю вниманию Хабра-сообщества перевод первых семи глав из доступных в настоящий момент четырнадцати. Замечу, что это не финальный вариант книги, а черновик. В нем есть ряд неточностей. Эндрю Ын предлагает писать свои комментарии и замечания сюда. Начинает автор с вещей, которые кажутся очевидными. Дальше ожидаются более сложные концепции.
Читать полностью »

Техносфере Mail.Ru — три года

2017-02-08 в 11:45, admin, рубрики: big data, data mining, mail.ru, Блог компании Mail.Ru Group, машинное обучение, разработка, Техносфера, учебные материалы

Сегодня исполнилось три года с момента запуска одного из наших образовательных проектов — Техносферы Mail.Ru, появившийся совместно с факультетом ВМК МГУ им. Ломоносова. Программа Техносферы рассчитана на подготовку специалистов в сфере больших данных. Изначально она была рассчитана на один год и состояла из шести дисциплин. Однако спустя год мы пересмотрели программу и сделали её двухгодичной. В течение четырёх семестров студенты изучают 12 дисциплин, выполняя большой объём практических работ. Заодно был разработан подготовительный курс «Алгоритмы и структуры данных».

В Техносферу принимают студентов 2—4-х курсов. Несмотря на то что схема вступительных экзаменов во все наши образовательные проекты одинакова (студенты сдают онлайн-тест и проходят очное собеседование), в Техносфере мы больше ориентируемся на базовые знания по высшей математике. Помимо чтения лекций мы создали лабораторию, где студенты работают с реальными задачами, с которыми мы сталкиваемся в Mail.Ru Group. Например, пытаются улучшить аналитические алгоритмы, создать определённые эвристики. То есть делают всё то же самое, что они делали бы во время обычной стажировки в компании. С осени 2015 года в лаборатории начали проводить и научные исследования. Например, изучаются возможности применения нейронных сетей для решения тех или иных бизнес-задач.

И в честь дня рождения мы выкладываем список учебных материалов, которые рекомендованы к изучению нашим студентам на протяжении всего двухлетнего курса.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 79

Книга «Основы Data Science и Big Data. Python и наука о данных»

R в enterprise задачах. Хитрости и трюки

Superjob Data Science Meetup

Что изменит суд «ВКонтакте» с финансистами

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

Вебинар: Введение в Singularity

Google погрозил миллионам Android-приложений, ворам персональной информации

Остроумие и отвага: как мы много раз ошибались, создавая iFunny

Черновик книги Эндрю Ына «Жажда машинного обучения», главы 1-7

Техносфере Mail.Ru — три года

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 79

Новости

Актуальные темы

Архив