Рубрика «датасеты»

Как я завайбкодил проект и победил с ним в двух конференциях

2026-07-19 в 7:40, admin, рубрики: вайб-кодинг, вайбкодинг, датасеты, история, история создания, колледж, конференции, нейросети, Программирование, университет

Сразу бы хотел сказать, что это моя первая статья на Хабре, я пока не крутой программист и есть к чему стремиться. Но я бы хотел поделиться этим опытом «вайбкодера». Нейросети, конечно, полезный инструмент, но это всего лишь инструмент, а не полноценная замена специалиста.

С чего всё началось (3 декабря 2025 года)

Свою первую конференцию я ждал больше месяца, её постоянно переносили.

Читать полностью »

Большинство исследований в компьютерной томографии нельзя воспроизвести

2026-06-05 в 15:45, admin, рубрики: ICASSP-2024, smart tomo engine, Алгоритмы, датасеты, КЛКТ, компьютерная томография, научные статьи

Мы не собирались писать эту статью. Мы всего лишь хотели воспроизвести результаты открытого бенчмарка ICASSP-2024 Читать полностью »

Умный подоконник: как ESP32 спас мой домашний огород (и что я узнал про «невидимые» пины)

2026-04-19 в 19:30, admin, рубрики: автополив, агроферма, выращивание, выращивание растений, датасеты, искусственный интеллект, клубника и земляника, умная ферма, умный дом, умный подоконник

История о том, как микроконтроллер за 500 рублей помог вырастить клубнику ранней весной, и почему важно знать «анатомию» чипа

Пролог: Когда руки тянутся к земле, а за окномь уже вроде и весна, но все еще случается минус 10

Живу в обычной квартире. Места мало, света ещё меньше. Но хочется своего — без пестицидов, свеженького. Решил организовать домашнюю ферму на подоконнике: клубника, базилик, салат, щавель, лук.

Читать полностью »

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

2025-10-08 в 9:08, admin, рубрики: ML-репозитории, где искать датасет, датасеты, Компьютерное зрение, машинное обучение, наборы данных, обработка естественного языка, обучение моделей, подборка датасетов для ML, распознавание речи

Читать полностью »

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

2025-05-28 в 9:00, admin, рубрики: large scale machine learning, Yambda, датасеты, рекомендательные системы, яндекс

Читать полностью »

Как использовать датасеты при разработке ИИ, не нарушая законодательство

2025-04-11 в 17:29, admin, рубрики: AI, датасеты

С развитием технологий искусственного интеллекта (ИИ) датасеты стали одним из ключевых элементов для создания и обучения ИИ и сервисов на их основе. Их использование связано не только с техническими вопросами, но и с целым ворохом юридических аспектов.

Всем привет, меня зовут Алексей Насанбаев. В статье я расскажу, что такое датасет с точки зрения права, какие риски обычно возникают при работе с ними, а также поделюсь опытом использования open source датасетов.

Читать полностью »

Картель влиятельных датасетов в обучении ИИ

2025-03-25 в 9:01, admin, рубрики: llm, OpenAI, ruvds_статьи, sota, YouTube, датасеты, ИИ, наборы данных, обучение ИИ, переобучение, языковая модель

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть.

Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений.

По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.Читать полностью »

«Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

2025-02-26 в 8:29, admin, рубрики: google places api, быстрое питание, географические объекты, датасеты, фастфуд

Введение

Во французском сабреддите я наткнулся на пост с интересной гипотезой:

Чем ближе точка к вокзалу, тем хуже там кебаб.

Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе.

Читать полностью »

GAN и диффузионные модели: как научить нейросеть рисовать

2025-01-05 в 11:16, admin, рубрики: AI-арт, GAN, pytorch, stable diffusion, генеративные сети, датасеты, диффузионные модели, искусственный интеллект, машинное обучение, синтетические данные

Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)

GAN: Генератор vs. Дискриминатор

Читать полностью »

Новогодний датасет 2019: открытый тональный словарь русского языка

2019-12-26 в 15:30, admin, рубрики: linguistics, natural language processing, датасеты, лингвистика, машинное обучение, открытые данные

Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.

Новогодний датасет 2019: открытый тональный словарь русского языка - 1
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «датасеты»

Как я завайбкодил проект и победил с ним в двух конференциях

С чего всё началось (3 декабря 2025 года)

Большинство исследований в компьютерной томографии нельзя воспроизвести

Умный подоконник: как ESP32 спас мой домашний огород (и что я узнал про «невидимые» пины)

Пролог: Когда руки тянутся к земле, а за окномь уже вроде и весна, но все еще случается минус 10

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Как использовать датасеты при разработке ИИ, не нарушая законодательство

Картель влиятельных датасетов в обучении ИИ

«Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

Введение

GAN и диффузионные модели: как научить нейросеть рисовать

GAN: Генератор vs. Дискриминатор

Читать полностью »

Новогодний датасет 2019: открытый тональный словарь русского языка