Рубрика «big data» - 10

Мы опубликовали современные STT модели сравнимые по качеству с Google

2020-09-17 в 16:48, admin, рубрики: big data, speech-to-text, STT, звук, машинное обучение, Развитие стартапа

Мы опубликовали современные STT модели сравнимые по качеству с Google - 1

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

Английский;
Немецкий;
Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

	PyTorch	ONNX	TensorFlow	Качество
Английский (en_v1)	✓	✓	✓	ссылка
Немецкий (de_v1)	✓	✓	✓	ссылка
Испанский (es_v1)	✓	✓	✓	ссылка

Читать полностью »

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

2020-09-17 в 10:31, admin, рубрики: big data, data engineering, data mining, data science, ruvds_статьи, Блог компании RUVDS.com, Карьера в IT-индустрии

TL;DR это пост для вопросов/ответов про Data Science и о том, как войти в профессию и развиваться в ней. В статьей я разберу основные принципы и FAQ и готов отвечать на ваши конкретные вопросы — пишите в комментариях (или в личке), я постараюсь на все ответить в течение нескольких дней.

С появлением цикла заметок «дата сатаниста» пришло немало сообщений и комментариев с вопросами о том, как начать и куда копать и сегодня мы разберем основные скиллы и вопросы возникшие после публикаций.

Все указанное тут не претендует ни какую истину в последней инстанции и является субъективным мнением автора. Мы разберем основные вещи, которые кажутся самыми важными в процессе.Читать полностью »

Можно ли воссоздать полную нейросеть мыши из тонких послойных разрезов мозга?

2020-09-17 в 7:17, admin, рубрики: big data, Биотехнологии, Блог компании SberDevices, Блог компании Сбербанк, искусственный интеллект, мозг, нейронные сети, нейросеть

Источник фото
Карликовая многозубка, самое маленькое млекопитающее по массе. Внутри маленький целостный сложный мозг, который уже принципиально можно картировать

Короткий ответ — можно, но не полную и не очень точную. То есть мы ещё не можем скопировать её сознание, но приблизились к этому как никогда. Проживите ещё лет двадцать — и, возможно, ваш мозг тоже получится забэкапить.

Чтобы приблизиться к оцифровке сознания и такому экзотическому виду бессмертия, стоит сначала разобраться с живыми нейронными сетями. Их реверс-инжиниринг показывает нам, как вообще может быть устроен процесс мышления (вычислений) в хорошо оптимизированных системах.

60 лет назад, 13 сентября 1960 года, учёные собрали первый симпозиум из биологов и инженеров, чтобы они могли разобраться, в чём же разница между сложной машиной и организмом. И есть ли она вообще. Науку назвали бионикой, а целью обозначили применение методов биологических систем к прикладной инженерии и новым технологиям. Биосистемы рассматривались как высокоэффективные прототипы новой техники.

Военный нейроанатом Джек Стил стал одним из людей, заметно повлиявших на дальнейший прогресс в области технологий, в том числе в области ИИ, где развитие получили такие направления, как нейроморфная инженерия и биоинспирированные вычисления. Стил был медиком, разбирался в психиатрии, увлекался архитектурой, умел управлять самолётом и сам чинил свою технику, то есть был вполне неплохим прикладным инженером. Научная работа Стила стала прообразом сценария фильма «Киборг». Так что с некоторой натяжкой можно назвать его прадедушкой Терминатора. А где Терминатор, там и Скайнет, как известно.

Этот пост написан на основе материалов будущей книги нашего коллеги Сергея Маркова «Охота на электроовец: большая книга искусственного интеллекта».
Читать полностью »

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

2020-09-10 в 0:33, admin, рубрики: api, big data, black lives matter, data mining, data science, open source, pandas, python, rest, открытые данные, полиция, США

Продолжаем наше исследование, посвященное ситуации в США со стрельбой полицейских и уровнем преступности среди представителей белой и черной (афроамериканской) рас. Напомню, что в первой части я рассказал о предпосылках исследования, его целях и принятых оговорках / допущениях; а во второй части была демонстрация анализа взаимосвязи между расовой принадлежностью, преступностью и гибелью от рук служб правопорядка.

Напомню также и промежуточные выводы, сделанные на основе статистических наблюдений (за период с 2000 по 2018 год):

Читать полностью »

Leatherman для разработчика в Big Data

2020-09-06 в 18:26, admin, рубрики: big data, spark scala bigdata hadoop

Экосистема Big Data, а для определенности — Hadoop, достаточно большая, и включает в себя множество продуктов. Какие-то применяются чаще, какие-то реже. Но один из них в нашей команде мы выбрали для себя в качестве универсального инструмента «на все случаи жизни» — на нем пишутся как одноразовые скрипты, так и постоянно работающие приложения (в первую очередь — отчеты).

Этот инструмент — Spark Shell. Обычно такую штуку называют швейцарский нож, но лично я предпочитаю мультитулы Leatherman.
Читать полностью »

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

2020-09-04 в 10:39, admin, рубрики: big data, data engineering, data mining, python, ruvds_статьи, Блог компании RUVDS.com

Мы снова в эфире и продолжаем цикл заметок Дата Сайентиста и сегодня представляю мой абсолютно субъективный чек-лист по выбору модели машинного обучения.

Это топ-10 свойств задачи и просто пунктов (без порядка в них), с точки зрения которых я начинаю выбор модели и вообще моделирование задачи по анализу данных.

Совсем не обязательно, что у вас он будет таким же — здесь все субъективно, но делюсь опытом из жизни.
Читать полностью »

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 2

2020-09-04 в 5:18, admin, рубрики: api, big data, black lives matter, data mining, data science, open source, pandas, python, rest, открытые данные, полиция, США

В первой части статьи я описал предпосылки для исследования, его цели, допущения, исходные данные и инструменты. Сейчас можно без дальнейших разглагольствований сказать гагаринское...

Поехали!

Импортируем библиотеки и определяем путь к директории со всеми файлами:

import pandas as pd, numpy as np

# путь к папке с исходными файлами
ROOT_FOLDER = r'c:_PROG_Projectsus_crimes'

Гибель от рук закона

Читать полностью »

Белорусский AI сервис опередил Google и Microsoft AI в распознавании автомобилей

2020-08-30 в 17:54, admin, рубрики: api, artificial intelligence, big data, Google, microsoft, искусственный интеллект, нейронные сети, Софт

Когда дело касается распознавания объектов, первые клики будут в сторону Google или Microsoft. Что если они сразятся между собой в распознавании автомобилей? Мы провели исследование, добавив в список игроков белорусский сервис SpotVision Car Detection. Кто победит?
Читать полностью »

Уроки волшебства для кота, дейтинг для беременных и астрология

2020-08-25 в 8:02, admin, рубрики: big data, CleverDATA, data mining, Блог компании ГК ЛАНИТ, Ланит, машинное обучение

Data Scientists узнают, что интересует людей и на что они тратят деньги

В ходе исследований различных аудиторий Data Scientists наблюдают как закономерные, так и удивительные факты, которые ярко характеризуют социум вокруг нас. В этой статье я расскажу о тех курьёзах и необычных случаях, которые заметила при выполнении задач, связанных с аудиторным анализом, исследованием интересов пользователей Интернета и покупательского поведения различных социальных групп.

Какие социологические особенности удалось выяснить благодаря применению моделей машинного обучения? Что мы знаем о покупателях?

Уроки волшебства для кота, дейтинг для беременных и астрология - 1

Источник
Читать полностью »

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

2020-08-22 в 10:47, admin, рубрики: big data, data engineering, data mining, python, ruvds_статьи, Блог компании RUVDS.com

Рассказываю из личного опыта, что где и когда пригодилось. Обзорно и тезисно, чтобы понятно было, что и куда можно копать дальше — но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.

Почему важно знать и уметь обращаться с языками запросов? По своей сути в Data Science есть несколько важнейших этапов работы и самый первый и важнейший (без него уж точно ничего работать не будет!) — это получение или извлечение данных. Чаще всего данные в каком-то виде где-то сидят и их нужно оттуда «достать».

Языки запросов как раз и позволяют эти самые данные извлечь! И сегодня я расскажу, о тех языках запросов, которые мне пригодились и расскажу-покажу, где и как именно — зачем оно нужно для изучения.

Всего будет три основных блока типов запросов к данным, которые мы разберем в данной статье:

«Стандартные» языки запросов — то, что обычно понимают, когда говорят о языке запросов, как, например, реляционная алгебра или SQL.
Скриптовые языки запросов: например, питоновские штучки pandas, numpy или shell scripting.
Языки запросов к графам знаний и графовым базам данных.

Все написанное здесь — это просто персональный опыт, что пригодилось, с описанием ситуаций и «зачем оно было нужно» — каждый может примерить, насколько подобные ситуации могут встретиться вам и попробовать подготовиться к ним заранее, разобравшись с этими языками до того, как придется их в (срочном порядке) применять на проекте или вообще попасть на проект, где они нужны.Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 10

Мы опубликовали современные STT модели сравнимые по качеству с Google

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

Можно ли воссоздать полную нейросеть мыши из тонких послойных разрезов мозга?

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

Leatherman для разработчика в Big Data

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 2

Поехали!

Гибель от рук закона

Белорусский AI сервис опередил Google и Microsoft AI в распознавании автомобилей

Уроки волшебства для кота, дейтинг для беременных и астрология

Data Scientists узнают, что интересует людей и на что они тратят деньги

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 10

Поехали!

Гибель от рук закона

Data Scientists узнают, что интересует людей и на что они тратят деньги

Новости

Актуальные темы

Архив