Ассоциация больших данных обратилась к правительству с просьбой «облегчить доступ бизнеса к государственным информационным системам, информационным ресурсам и реестрам». В Ассоциацию входят, кроме прочих, «Яндекс», Mail.Ru Group, Сбербанк, Тинькофф-банк, МТС, Читать полностью »
Рубрика «big data» - 12
Бизнес готов заплатить государству за доступ к большим данным россиян
2020-10-21 в 12:54, admin, рубрики: big data, Госвеб, госуслуги, Текучка, метки: big data, Госвеб, госуслуги, ТекучкаМагия Ensemble Learning
2020-10-17 в 9:49, admin, рубрики: big data, data engineering, data science, Ensemble Learning, kaggle, machine learning, Portfolio Diversification, Блог компании OTUS. Онлайн-образованиеПривет! Приглашаем Data Engineer'ов и специалистов по Machine Learning на бесплатный Demo-урок «Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций». А также мы публикуем статью Luca Monno — Head of Financial Analytics at CDP SpA.
Одним из наиболее полезных и простых методов машинного обучения является Ensemble Learning. Ensemble Learning – это метод, лежащий в основе XGBoost, Бэггинга, Случайного Леса и многих других алгоритмов.
На Towards Data Science есть много классных статей, но я выбрал две истории (первая и Читать полностью »
Написать книгу: стоит ли игра свеч?.. От автора книги «Высоконагруженные приложения»
2020-10-10 в 11:35, admin, рубрики: big data, data-intensive, архитектура, Блог компании Издательский дом «Питер», книги, обучение, Программирование, Профессиональная литература, роялти, хранилища данныхПривет!
Сложно переоценить успех книги "Designing Data-Intensive Applications" которая вышла в русском переводе и неизменно допечатывается у нас под названием "Высоконагруженные приложения"

Не так давно автор разместил в своем блоге честный и подробный пост о том, как ему далась работа над этой книгой, сколько она позволила заработать, и чем кроме денег измеряется польза авторского труда. Публикация обязательна к прочтению для всех, кто хоть раз задумывался стать литературной суперзвездой нашим автором, но до сих пор не определился, а стоит ли браться за столь амбициозный проект.
Читаем с удовольствием!
Читать полностью »
Переезжаем на ClickHouse: 3 года спустя
2020-09-29 в 14:37, admin, рубрики: big data, clickhouse, highload, sql, Администрирование баз данных, базы данных, Блог компании Конференции Олега Бунина (Онтико), высоконагруженные проекты, системное администрирование, СУБДТри года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле.
Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле.
Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse.
Парсинг сайта Умного Голосования и новый API на сайте ЦИК
2020-09-20 в 17:19, admin, рубрики: api, big data, data mining, html, http, json, python, выборы, голосование, интерфейсы, навальный, открытые данные, парсинг, сбор данных, ЦИК РФ
13 сентября 2020 года в России прошёл единый день голосования. В некоторых регионах оппозицией была применена стратегия «Умного Голосования», заключающаяся в том, что оппозиционно настроенные избиратели голосуют за единого кандидата, имеющего наивысшие шансы победить представителя от властей.
Процесс отбора кандидатов для «Умного Голосования» уже второй год вызывает дискуссии на тему своей прозрачности. Кроме того, лично меня смущают сложности с подведением итогов стратегии, с которыми могут столкнуться независимые аналитики. Организаторы УмГ не публикуют подробные итоги стратегии, а лишь диаграммы, демонстрирующие сколько оппозиционных кандидатов прошло в региональный парламент.
На сайте «Умного Голосования» нельзя получить список поддержанных кандидатов, указав, например, город и округ. Если кто-то захочет собрать данные по региону, ему предстоит монотонная работа по подбору адресов для каждого округа.
Ни в коем случае не упрекаю разработчиков сайта УмГ, он имеет весь требуемый функционал для реализации стратегии голосования. Но в связи с тем, что в 2019 году никто не занимался сбором и публикацией подробных данных по итогам УмГ (вне московских выборов), на этих выборах я решил взять инициативу в свои руки.
В итоге получилась вот такая сводная таблица. В данной статье я расскажу, как был получен приведённый набор данных, как собиралась информация с сайтов Умного Голосования и нового веб-сервиса ЦИК.

Как Data Science продает вам рекламу? Интервью с инженером Unity
2020-09-20 в 9:36, admin, рубрики: big data, data engineering, IT в финляндии, ruvds_прямые эфиры, unity, Блог компании RUVDS.com, Карьера в IT-индустрии, монетизация, монетизация игрНеделю назад в наших соцсетях выступал Никита Александров — Data Scientist в Unity Ads, где он улучшает алгоритмы конверсии. Никита сейчас живет в Финляндии, и кроме прочего он рассказал об IT-жизни в стране.
Делимся с вами расшифровкой и записью интервью
Меня зовут Никита Александров, я вырос в Татарстане и там же окончил школу, занимался олимпиадами по математике. После этого поступил на факультет компьютерных наук ВШЭ и там закончил бакалавриат. В начале 4 курса съездил на учебу по обмену, провел семестр в Финляндии. Мне там понравилось, я поступил в магистратуру университета Аалто, хотя не закончил ее полностью – я закончил все курсы и начал писать диплом, но ушел работать в Unity, не получив степень. Сейчас я работаю в Unity data scientist-ом, отдел называется Operate Solutions (раньше он назывался Monetization); непосредственно моя команда занимается доставкой рекламы. То есть, внутриигровое рекламы – той, которая выдается, когда вы играете в мобильную игру и нужно заработать дополнительную жизнь, например. Я работаю над улучшением конверсии рекламы – то есть, делаю так, чтобы игрок с большей вероятностью прошел по рекламе.
Читать полностью »
Data Fest 2020 — полностью в Online уже завтра
2020-09-18 в 11:00, admin, рубрики: AI, big data, computer vision, data science, ml, ods, quantum computing, Блог компании Open Data Science, искусственный интеллект, конференции, машинное обучение, фестивальData Fest пройдет в этом году в онлайн формате 19 и 20 сентября 2020. Фестиваль организован сообществом Open Data Science и как обычно соберет исследователей, инженеров и разработчиков в области анализа данных, искусственного интеллекта и машинного обучения.
Регистрация. Ну а дальше к деталям.
Мы опубликовали современные STT модели сравнимые по качеству с Google
2020-09-17 в 16:48, admin, рубрики: big data, speech-to-text, STT, звук, машинное обучение, Развитие стартапа
Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:
- Английский;
- Немецкий;
- Испанский;
Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.
Заметки Дата Сайентиста: с чего начать и нужно ли оно?
2020-09-17 в 10:31, admin, рубрики: big data, data engineering, data mining, data science, ruvds_статьи, Блог компании RUVDS.com, Карьера в IT-индустрии
TL;DR это пост для вопросов/ответов про Data Science и о том, как войти в профессию и развиваться в ней. В статьей я разберу основные принципы и FAQ и готов отвечать на ваши конкретные вопросы — пишите в комментариях (или в личке), я постараюсь на все ответить в течение нескольких дней.
С появлением цикла заметок «дата сатаниста» пришло немало сообщений и комментариев с вопросами о том, как начать и куда копать и сегодня мы разберем основные скиллы и вопросы возникшие после публикаций.
Все указанное тут не претендует ни какую истину в последней инстанции и является субъективным мнением автора. Мы разберем основные вещи, которые кажутся самыми важными в процессе.Читать полностью »
Можно ли воссоздать полную нейросеть мыши из тонких послойных разрезов мозга?
2020-09-17 в 7:17, admin, рубрики: big data, Биотехнологии, Блог компании SberDevices, Блог компании Сбербанк, искусственный интеллект, мозг, нейронные сети, нейросеть
Источник фото
Карликовая многозубка, самое маленькое млекопитающее по массе. Внутри маленький целостный сложный мозг, который уже принципиально можно картировать
Короткий ответ — можно, но не полную и не очень точную. То есть мы ещё не можем скопировать её сознание, но приблизились к этому как никогда. Проживите ещё лет двадцать — и, возможно, ваш мозг тоже получится забэкапить.
Чтобы приблизиться к оцифровке сознания и такому экзотическому виду бессмертия, стоит сначала разобраться с живыми нейронными сетями. Их реверс-инжиниринг показывает нам, как вообще может быть устроен процесс мышления (вычислений) в хорошо оптимизированных системах.
60 лет назад, 13 сентября 1960 года, учёные собрали первый симпозиум из биологов и инженеров, чтобы они могли разобраться, в чём же разница между сложной машиной и организмом. И есть ли она вообще. Науку назвали бионикой, а целью обозначили применение методов биологических систем к прикладной инженерии и новым технологиям. Биосистемы рассматривались как высокоэффективные прототипы новой техники.
Военный нейроанатом Джек Стил стал одним из людей, заметно повлиявших на дальнейший прогресс в области технологий, в том числе в области ИИ, где развитие получили такие направления, как нейроморфная инженерия и биоинспирированные вычисления. Стил был медиком, разбирался в психиатрии, увлекался архитектурой, умел управлять самолётом и сам чинил свою технику, то есть был вполне неплохим прикладным инженером. Научная работа Стила стала прообразом сценария фильма «Киборг». Так что с некоторой натяжкой можно назвать его прадедушкой Терминатора. А где Терминатор, там и Скайнет, как известно.
Этот пост написан на основе материалов будущей книги нашего коллеги Сергея Маркова «Охота на электроовец: большая книга искусственного интеллекта».
Читать полностью »

