Рубрика «big data» - 130

Директор по маркетингу сервисов Яндекса Андрей Себрант, рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.

Термин большие данные/Bid Data у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.
Читать полностью »

Директор по маркетингу сервисов Яндекса Андрей Себрант, рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.

Bid Data как понятие у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.
Читать полностью »

Если помните, Рей Курцвейл обещал приход сингулярности уже в 30 годах этого века. Похоже, что первые предвестники уже появляются: два бывших наших соотечественника, Алексей Лисица и Борис Конев, работающие в Ливерпульском университете, запустили на расчет задачу несоответствия Эрдеша. Задача считается неразрешенной, и программа, запущенная исследователями с задачей справилась. Но! Проблема в том, что доказательства решения сами по себе занимают 13 Гб (еще раз, текстовый лог-файл, по сути и являющийся доказательством, занимает 13 Гб) и с трудом поддается верификации. Отсюда напрашивается простой вопрос – можем ли мы доверять решению компьютера, если не в состоянии проверить его выкладки?

Можем ли мы доверять решению компьютера, если не можем его проверить?
Читать полностью »

Прочитав статью Базы данных в онлайн играх и особенно комменты к ней, я в очередной расстроился от мысли, что многие разработчики меняют БД в своём проекте, пытаясь этой сменой решить свои проблемы, не исчерпав, однако, всех возможностей, предоставляемой заменяемой БД. Я принимаю участие в работе над проектом, БД которого характеризуется:

  • Количеством транзакций порядка 5'000 — 10'000 в секунду
  • Объемом примерно в 100ГБ (который бодро растёт)
  • Примерно равным количеством операций на чтение/запись
  • Преимущественно мелкими транзакциями

В силу, как говорится, исторических причин, вся база представляет из себя, гхм, одну базу, пока без шардинга, который мог бы решить ряд проблем. Тем острее стоит вопрос о поиске решений, заключённых именно в особенностях PostgreSQL. Решений, которые можно реализовать малой кровью.

Я опишу некоторые проблемы, с которыми мы сталкиваемся, и применённые решения. Если кто-то сочтёт это полезным — ради Бога. Если кто-то поправит — я буду только рад обнаружить уязвимость в используемых подходах и увеличить эффективность работы БД. Описанное может быть применено без вмешательства в логику приложения, исключительно путём модификации схемы БД.
Читать полностью »

Все средства массовой информации последнее врем живут и дышат только Олимпиадой. Дабы не нарушать этот тренд и не упускать возможность “поспекулировать" на этом событии, позволю себе немного порассуждать на тему взаимного проникновения технологий в спорт и спорта в технологии.
image
По некоторым данным олимпиада в Сочи стала большим событием не только для спортсменов и болельщиков, но и для российского IT сообщества, т.к. явила собой пример использования последних веяний IT индустрии для спортивных мероприятий.
Читать полностью »

Многие слышали о высокоуровневом поисковом сервере ElasticSearch, но не все знают. что многие используют его не совсем по прямому назначению. Речь идет о реалтайм-аналитике различных структурированных и не очень данных.

Эта статья также назрела ввиду того, что многие крупные интернет-проекты рунета в 2014 году получили письма счастья от Google Analytics с предложением заплатить $150 000 за возможность использовать их продукт. Я лично считаю, что ничего плохого в том, чтобы оплатить труд программистов и администраторов нет. Но при этом это довольно серьезные инвестиции, и, может, вложения в собственную инфраструктуру и специалистов, даст большую гибкость в дальнейшем.

Аналитика в ElasticSearch основана на полнотекстовом поиске и фасетах. Фасеты в поиске — это некая агрегация по определенному признаку. Вы часто сталкивались с фасетами-фильтрами в интернет-магазинах: в левой или правой колонке есть уточняющие галочки. Ниже пример тестового фасетного поиска у нас на главной странице http://indexisto.com/.

ElasticSearch 1.0 — новые возможности аналитики

Буквально неделю назад вышла стабильная версия поискового сервера ElasticSearch 1.0, в которой разработчики настолько серьезно поработали над фасетами, что даже назвали их Aggregation.

Так как тема еще не освещалась на Хабре, я хочу рассказать, что из себя представляют аггрегации в ElasticSearch, какие возможности открываются и есть ли жизнь без Hadoop.
Читать полностью »

Образовательный проект GeeksLab продолжает работу над мероприятиями и сегодня мы расскажем о конференциях, которые пройдут в марте в Одессе, а также поговорим о предстоящих ивентах и хакатонах.

Программа конференции «Al&BigData Lab» и «Just Sell IT! Эффективные IT продажи»5 марта – Al&BigData Lab.
Конференция «AI&BigData Lab» будет посвящена одной из самых популярных и обсуждаемых IT-тем – большим данным и искусственному интеллекту.
Основная цель проведения – это обмен опытом среди разработчиков по теме, которой сейчас интересуются многие, объединения сообщества для более эффективного развития проектов, а также создание и продвижение решений big data и искусственный интеллект в Украине. Мы планируем также заложить основы создания в одесском регионе AI-клаба (как это сделано в Киеве и Харькове) для поддержки и развития данного направления в регионе.

Программа конференции «Al&BigData Lab» и «Just Sell IT! Эффективные IT продажи»12 марта – Just Sell IT! Эффективные IT-продажи.
Ни для кого не секрет, что секрет как успешного стартапа, так и прибыльной аутсорсинговой компании не только в техническом выполнении проекта, а и в искусстве переговоров, эффективном email маркетинге, умении найти подход и заинтересовать своим продуктом иили сервисом как отечественного, так и зарубежного заказчика. Будет два потока — для стартапов и для компаний, с устоявшейся системой продаж (много внимания уделим аутсорсингу).

Читать полностью »

Имея головной офис в США, наша команда заинтересовалась новостями международного аэропорта Ньюарка. Ньюарка, расположенный в черте городов Ньюарк и Элизабет (Нью-Джерси) аэропорт, находится в 24 километрах к юго-западу от нью-йоркского района Мидтаун. Ньарка – второй по величине аэропорт после аэропорта Хьюстон Интерконтинентал авиакомпании Continental Airlines.

И сегодня посетители терминала B в международном аэропорте Ньюарк Либерти могут заметить яркое, чистое освещение, интерьер аэропорта недавно дополнен 171 светодиодной лампой. Но посетители, вероятнее всего, не будет понимать, что эти светильники являются основой системы, которая за ними наблюдает.

image Читать полностью »

Привет! Я принесла картинок про российский рынок IT. Разных. Много. Осторожно, трафик.

image

Разница между использованием частного и публичного облака чаще всего заключается в том, что публичное дешевле и проще в обслуживании, а частное – «под боком» (что часто важно по юридическим причинам). Например, банковские приложения критичного уровня будут почти наверняка размещены в частном, а тестовые среды могут разворачиваться и в публичном. Читать полностью »

Каждый день человечество генерирует огромные объемы информации в виде потоков сообщений в социальных сетях, наблюдений метеорологов, астрономов, геологов, а также просто статей и новостных заметок. Получаемые данные нуждаются не только в умелом хранении, но и в правильном анализе. Приходится искать новые способы представления данных, порой весьма различающихся по структуре.

JetPoint. Big Data

Новые направления развития обработки как структурированных, так и неструктурированных данных порождают новые технологии. В последнее время мы чаще встречаем решения на основе Hadoop или баз данных NoSQL. Происходит бурный рост проектов, занимающихся исследованием такой информации. Этот феномен, включающий в себя методы и технологии, с 2008 года получил наименование Big Data. Давайте попробуем разобраться: что же на самом деле скрывается за этим понятием?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js