- PVSM.RU - https://www.pvsm.ru -

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

Один из работников Internet Archive разработал программу для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive. Калев Литару (Kalev Leetaru) использовал существующий модуль распознавания текста: тот сначала определяет границы иллюстраций, чтобы отбросить иллюстрации перед OCR. Но зачем материалу пропадать?

Все извлечённые иллюстрации были выровнены, кадрированы, очищены и закачаны на фотохостинг Flickr с сопровождающим текстом из книги. Таким образом, возможен полнотекстовый поиск по архиву иллюстраций Internet Archive Book Images [1], которые находятся в общественном достоянии.

Всего на Flickr закачают 14 млн картинок [2] (на данный момент закачано 2,6 млн).

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

Галерея картинок из старых книг — очень увлекательное дело. Здесь можно найти и пейзажи, и иллюстрации по кулинарному делу, и ноты, и картинки из медицинских справочников, и старые карты. Каталог иллюстраций приглашает к своеобразному «путешествию во времени»: введите какой-нибудь термин (телефон, самолёт) — и увидите, как эта вещь выглядела раньше.

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

Многие картинки — это какие-то странные непонятные объекты из прошлого. Без описания и не поймёшь, что это такое.

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

Наверняка редакторы Википедии найдут подходящий иллюстративный материал, чтобы пополнить многие исторические статьи.

Для каждой иллюстрации указано название книги, год её издания и страница, на которой встретилась иллюстрация. Есть ссылка, чтобы прочитать книгу в онлайне (все они опубликованы на сайте Internet Archive). В рамках этого проекта оцифровано уже 600 млн страниц.

Любой желающий может делать с этими изображениями что угодно, включая использование в некоммерческих или коммерческих целях, повторную публикацию, редактирование и т.д.

Автор: alizar

Источник [3]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/obrabotka-izobrazhenij/68611

Ссылки в тексте:

[1] Internet Archive Book Images: https://www.flickr.com/photos/internetarchivebookimages/

[2] 14 млн картинок: https://blog.archive.org/2014/08/29/millions-of-historic-images-posted-to-flickr/

[3] Источник: http://habrahabr.ru/post/235031/