Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

в 11:06, , рубрики: авторское право, антимонопольное право, базы данных, веб-скрапинг, интеллектуальная собственность, парсинг, персональные данные, скрапинг, судебная практика

Компании используют парсинг каждый день: мониторинг цен, сбор контактов, агрегация объявлений. При этом большинство не задумывается о правовых рисках, ссылаясь на то, что «интернет открытый». В статье разбираю, что говорит закон и чем закончились реальные споры.

Парсинг (скрапинг) — автоматизированный сбор данных с сайтов. Технически всё выглядит просто: задаёшь условия, программа проходится по сайту, сортирует данные, выдаёт отчёт. Однако юридически могут возникать определенные риски.

Когда парсер проходится по сайту, он потенциально затрагивает сразу несколько правовых режимов:

  • авторские права на материалы (фото, видео, тексты)

  • смежные права на сайт как базу данных

  • пользовательское соглашение

  • закон о персональных данных

  • антимонопольное законодательство

Разберу каждый на основе реальных дел.

Авторские права

Если собираете только фактические данные, допустим, цены, артикулы, технические характеристики — юридически проблем нет, так как всё вышеперечисленное не является объектами авторских прав.

Другая история с фотографиями, видео и оригинальными текстами. Их парсинг — это воспроизведение чужого произведения, и тут уже есть нюансы.

Когда агрегация не нарушение? В деле А40-48686/2021 агрегатор «Селдон Новости» автоматически собирал статьи из открытых источников вместе с фотографиями. Суд первой инстанции признал нарушение прав фотографа. Апелляция решение отменила: фото публиковалось со ссылкой на источник, в объёме, оправданном целью цитирования. Кассация поддержала. Логика суда примерно заключалась в том, что агрегатор направлял читателя к оригиналу, а не заменял его.

В американском деле Associated Press против Meltwater ситуация выглядела похоже: новостной агрегатор показывал выдержки статей со ссылками на оригиналы, но суд признал нарушение. Причина: Meltwater автоматически брал лид каждой статьи — первый абзац, который AP называла «сердцем материала». Пользователи получали нужное из выдержки и на сайт AP не переходили — показатель кликов составил 1,4%. Суд расценил это не как цитирование, а как коммерческую замену оригинала: Meltwater продавал подписку корпоративным клиентам и фактически конкурировал с теми, кто платил AP лицензионный сбор за то же самое.

Вывод: ссылка на источник — необходимое, но не достаточное условие. Определяющий вопрос: заменяет ли ваш сервис оригинал или только направляет к нему? Если пользователь получает из агрегата всё, что ему нужно, и не переходит на сайт правообладателя — это уже не цитирование.

Смежные права на базу данных

По российскому закону сайт может быть признан базой данных, если на его создание были вложены существенные ресурсы. Закон предполагает это для сайтов с не менее 10 000 информационных элементов (ст. 1334 ГК РФ).

Нарушением является не любое извлечение, а перенос всего содержания или существенной части. Есть и второй запрет: неоднократное извлечение даже несущественных частей, если это противоречит нормальному использованию базы и ущемляет интересы её изготовителя (п. 3 ст. 1335.1 ГК РФ).

Самый долгий и резонансный российский спор на эту тему — дело ВКонтакте против Double Data (А40-18827/2017). Компания Double Data собирала данные пользователей ВКонтакте для оценки кредитоспособности заёмщиков и продавала этот сервис третьим лицам. ВКонтакте заявил нарушение смежных прав на базу данных.

Дело прошло два полных круга через все инстанции за пять лет. Суды раз за разом расходились во мнениях: первые инстанции вставали на сторону Double Data, апелляции — на сторону ВКонтакте. В 2022 году на стадии кассации в Суде по интеллектуальным правам стороны заключили мировое соглашение: Double Data обязалась прекратить нарушения, обе стороны договорились действовать добросовестно.

Вывод: российские суды так и не выработали единой позиции по скрапингу баз данных соцсетей. Однако две проигранные апелляции вынудили Double Data пойти на мировую — это сигнал о том, что систематический коммерческий скрапинг суды склонны считать нарушением, даже если данные формально публичны.

Пользовательское соглашение

Почти каждый сайт запрещает автоматизированный сбор данных в правилах использования. Значит ли это, что любой парсинг автоматически незаконен? Нет.

Несоблюдение пользовательского соглашения не является само по себе основанием для признания парсинга незаконным, если не доказана недобросовестная конкуренция и парсинг не приводил к сбоям в работе сайта.

Дело HeadHunter против «Стафори» (сервис «Робот Вера»). HeadHunter обратился в Мосгорсуд с требованием защитить права на базу данных резюме. Суд отказал: истец не доказал, что ответчик обращался к закрытой платной части базы, и не объяснил, каким образом использование открытой части противоречит её нормальному использованию (Апелляционное определение Мосгорсуда от 04.09.2018 по делу № 33–34020/2018).

Параллельно ФАС рассматривала жалобу «Стафори» на действия HeadHunter и признала: блокировка автоматизированного сбора данных создала препятствия для доступа на рынок, то есть ограничила конкуренцию. Нарушение антимонопольного законодательства — несмотря на прямой запрет парсинга в пользовательском соглашении.

Американские суды в последние годы последовательно приходят к тому же выводу. В деле LinkedIn против hiQ Labs суд запретил платформе технически блокировать сбор общедоступных данных, указав на риск информационных монополий. В деле Meta против Bright Data (2024) Meta подала иск за скрапинг своих платформ и проиграла: суд указал, что сбор публично доступных данных, не закрытых авторизацией, не нарушает закон о компьютерном мошенничестве (CFAA). Суд разграничил два случая: данные за логином — под защитой, данные в открытом доступе — нет.

Вывод: запрет парсинга в пользовательском соглашении — не истина в последней инстанции. Если владелец сайта использует его как инструмент устранения конкурентов с рынка, это само по себе может стать нарушением антимонопольного законодательства. Ключевое разграничение, которое прослеживается и в российской, и в американской практике: открытые данные защищены слабее, данные за логином — значительно сильнее.

Антимонопольный риск

Парсинг данных конкурента может быть квалифицирован как недобросовестная конкуренция, но только при определённых условиях. Показательный пример — дело Авито против Auto.ru.

Авито заявило, что Auto.ru за 10 месяцев скопировал более 300 тысяч объявлений, включая фотографии с логотипом Авито. Администраторы Auto.ru обзванивали пользователей Авито, чтобы уточнить скрытую информацию и полностью перенести объявления на свою площадку.

ФАС нарушений не нашла. Суд поддержал:

  • контактирование с пользователями другого классифайда — обычная деловая практика

  • публикация на одной площадке не мешает разместить объявление на другой

  • информация об автомобилях принадлежит продавцам, а не Авито

  • Авито не доказало, что действия Auto.ru направлены на получение необоснованных конкурентных преимуществ

Американский аналог Craigslist против Instamotor закончился иначе: суд встал на сторону Craigslist, поскольку ответчик был прямым конкурентом и паразитировал на чужой базе данных, не создавая собственной ценности.

Вывод: в России доказать недобросовестную конкуренцию через парсинг сложно: нужно показать, что действия конкурента направлены именно на вытеснение с рынка, а не на расширение сервиса для пользователей. В США суды в аналогичных ситуациях настроены жёстче.

Персональные данные

При парсинге соцсетей возникает отдельный вопрос: являются ли публичные профили пользователей общедоступными источниками персональных данных и можно ли их собирать без согласия?

Российская практика и Роскомнадзор отвечают: нет. Арбитражный суд Москвы прямо указал, что «информация о субъекте, содержащаяся в социальных сетях, не может быть отнесена к персональным данным, сделанным субъектом общедоступными, поскольку социальные сети не являются источником общедоступных персональных данных».

В США позиция противоположная. В уже упомянутом деле LinkedIn против hiQ Labs суд признал публичные профили общедоступными данными и на этом основании в том числе запретил LinkedIn технически препятствовать их сбору.

Вывод: если вы парсите профили российских пользователей в соцсетях — это зона повышенного риска вне зависимости от того, публичны эти данные или нет. Роскомнадзор и суды не считают факт открытости профиля согласием на обработку данных.

Итог: когда парсинг законен?

Закон не запрещает парсинг открытых данных, если соблюдаются следующие условия:

  1. Нет нарушения авторских прав на материалы сайта и смежных прав на базу данных.

  2. Сбор осуществляется без обхода технических средств защиты.

  3. Парсинг не нарушает работу сайта — иначе возникает основание для иска об убытках.

  4. Персональные данные используются в соответствии с целями их предоставления.

  5. Действия не ограничивают конкуренцию.

Практически это означает:

  • Собирайте фактические данные (цены, артикулы), а не охраняемый контент (фото, видео).

  • Не копируйте существенную часть базы данных целиком.

  • Соблюдайте инструкции robots.txt.

  • Ограничивайте скорость парсинга — перегрузка серверов может стать основанием для иска.

  • Не копируйте данные конкурента для размещения на конкурирующей площадке.

  • Не включайте в свои пользовательские соглашения тотальный запрет на парсинг — это может быть квалифицировано как ограничение конкуренции.


Автор — Азалия Гарипова, юрист по IP/IT‑праву. Если у вас вопросы по правовому статусу парсинга в вашем бизнесе — пишите в личные сообщения.

Автор: aveazazello

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js