- PVSM.RU - https://www.pvsm.ru -

«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг

Любите ли вы книги так, как люблю их я…
Детство и юность, проведенная в маленьком городе, где в районной библиотеке из энциклопедий был лишь «Большой энциклопедический словарь» приучила к бережному, практически благоговейному отношению к любой технической книге. Я понимаю, почему люди пережившие блокаду все время держали дома запас продуктов. Первое время, получив доступ к более или менее скоростному интернету все время хотелось скачивать новые книги и сохранять их на жестком диске, сохранять, сохранять :). Потом появился twirpx [1] и я понял, что книги, как и знания, должны участвовать в постоянном круговороте, иначе они мертвы. Стоило один раз отсканировать монографию своего научного руководителя и услышать десятки отзывов скачавших, как лавину уже было не остановить. Я заметил, что сегодня поделившись редкой книгой, завтра я увижу две, а то и три не менее редких, которыми поделились другие.
image

В годы студенчества из-за довольно узкой специализации, библиотека была практически вторым домом. Но библиотека библиотеке, как водится, рознь и при прочих равных гораздо удобнее читать (а также распознавать и сразу копировать в курсовую) странички, пусть и цифровые, но сидя дома. Поэтому сначала был планшетный сканер Mystek BearPaw2400, тонкий, с питанием от USB, но ужасно медленный. С уменьшением стоимость цифровых камер (и ростом разрешения) его заменил отличный быстрый фотоаппарат Canon PowerShot A720IS (имхо, один из лучших в линейке PowerShot-ов). Именно с его помощью я прочувствовал всю мощь оптической стабилизации :). Вопрос со скоростью сканирования был решен, но в угоду спешке пострадало качество. Чтобы не ходить по пятьдесят раз и не перефотографировать испорченные/пересвеченные/недосвеченные и т.п. страницы было решено решать возникшие проблемы программно.
Опыт, наработанный в результате изысканий (и десятков отсканированных книг) вылился в целые серии статей, посвященных особенностям обработки сырого книжного материала и доводки его до состояния «неплохой djvu копии». В том числе причиной написания были вопросы друзей и знакомых «а как это djvu сделать вообще, мне вот дали хорошую книгу на пару дней». Ниже привожу, на всякий случай ссылки:

  • Цифровое «книгопечатание». Книга за 5 минут. Часть 1 [2], часть 2 [3]
  • Цифровое «книгопечатание» Пошаговое руководство по оцифровке книг. Часть 1 [4], часть 2 [5], часть 3 [6]
  • Цифровое «книгопечатание». Фотоаппарат вместо сканера Статья [7]

Увлечение сканирование пришлось на то время, когда только начинал наполнятся twirpx [8] и нормально работал avaxhome [9]. Отсканировав около полусотни книг, постепенно начали выкристализоваться алгоритмы, которые бы позволяли получать материал удобный для чтения на 10" планшете (не говоря уже про монитор компьютера) достаточно высокого качества и при этом экономить время, которое затрачивается на обработку одной книги.
Честно скажу, мне несколько раз очень хотелось сделать настоящий книжный сканер, вроде описанного на Хабре (Книжный сканер своими руками [10]), или еще лучше такой как cделал крутой немецкий дедок (видео ч.1 [11], ч.2 [12], ч.3 [13]). Но мысли о самоделках посещают тогда, когда есть уйма свободного времени для размышлений (и материал, и инструмент и т.д., и т.п.). Чаще же всего этого под рукой нет, а книга нужна. И нужна срочно, да еще и в приемлемом качестве.
Поэтому уже довольно давно я пользуюсь несложным программно-аппаратным комплексом, который позволяет мне создавать довольно качественные копии книг за короткое время. К примеру на обработку одной 300 страничной книги (начиная от фотографирования и заканчивания кодированием в djvu) уходит примерно час, с использованием ПК на базе AMD Athlon II X4 640/16 Gb RAM/4 Tb SATA 3.0 HDD.
«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 2

То же самое, но снятое под другим углом :)

«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 3

В джентельменский набор железа мобильного цифрового книгопечатника входят следующие позиции:
1)Смартфон Nokia PureView 808
2)Подвижный штатив-струбцина
3)Крепление для смартфона
4)Bluetooth пульт управления Coco CC-PC101 [14]
Смартфон от Nokia выбран за свою надежность и максимальный размер матрицы. Ну и люблю я его очень :) (и на Хабре ему пели дифирамбы [15]). Из недостатков можно отметить то, что в отличие от Android-смартфонов мне пришлось довольно долго искать подходящий пульт, который бы заработал с моим телефоном. В итоге я остановился на Coco CC-PC101 [16]. Притом этот пульт работает только с программой CameraPro (cтандартное приложение его не подхватывает). При использовании Android подойдет любой копеечный пульт с Aliexpress.
«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 4

Работает принцип 'книга поменьше-штатив пониже'

«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 5
«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 6

Подвижная штанга, с помощью которой можно регулировать высоту смартфона над книгой — обычная селфи-палка палка-себяшка, но с наличием в нижней части стандартной резьбы 1/4" для прикручивания к струбцине/любой другой стойке. На aliexpress много вариантов, мне по цене/параметрам понравился "монопод для GoPro Hero 5 4 3 [17]"
«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 7
Крепление для смартфона тоже первое попавшееся [18] с резьбами 1/4", не самое дешевое (в отличие от проволочных вариантов), но мне понравилось своей формой. И пока никаких проблем с ним нет.
Штатив-струбцина — советского производства УТМ ЛСНХ. Чистый дюралюминий, настоящая радость для инженера, ну и просто очень надежный инструмент с множеством регулировок.
image
Смартфон у меня достаточно тяжелый, + вес телескопической штанги, поэтому пластиковым китайским струбцинкам я не доверяю. Но они имеют место быть.
Сам процесс фотографирования особой сложностью не отличается. Книга располагается так, чтобы попадать в фокус камеры и с помощью пульта происходит фокусировка/съемка. Перевернули страниц — «фокусировка/съемка». При этом располагать книгу я стараюсь так, чтобы были видны все края (это нужно для выравнивания изгиба страниц в программе ScanTailor). Несколько хвалебных слов о ней. Раньше мне приходилось использовать либо довольно капризную (часто вылетала с ошибкой) и платную программу BookRestorer, либо «косноязычную» ScanKromsator (хотя более чем уверен, что у нее найдутся свои фанаты :) ). Но слава богу появилась ScanTailor и жизнь таких вот как я «книгопечатников» сильно упростилась. Вот что говорит Википедия [19] по этому поводу:

Scan Tailor (англ. scan — сканировать, tailor — портной) — компьютерная программа для обработки изображений, полученных при помощи сканера. Является кроссплатформенной программой и работает под управлением операционых систем Microsoft Windows, Linux и Mac OS X. Высокий уровень программы был отмечен по итогам первого конкурса «Лучший свободный проект России» в 2009 году, проводимым журналом Linux Format

Основной плюс программы — это автоматическая обрезка, чистка и распрямление строк. Притом распрямление работает по тому же принципу, что и у японского «робота для сканирования книг» о котором писали на Хабре (Японский сканер оцифровывает книгу в 250 страниц за минуту [20]). Позволю себе выдержку из этой статьи:

Открытая книга фотографируется с использованием лазеров (они формируют сетку на поверхности). При этом фотографирование производится сразу с нескольких ракурсов, после чего происходит автоматическое объединение всех трех кадров. Разработчики утверждают, что их способ позволяет избежать искажений, обычно проявляющихся при стандартном сканировании.

.
Тот же принцип используется и в ScanTailor, только расположение разметочной сетки на странице регулируется самим пользователем. Я выравниваю сетку по краям страниц (для этого при съемке они должны быть видны).
«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 9

Пример страницы без распрямления строк

«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 10

Пример страницы с использованием распрямления строк

«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг - 11

После окончания работы программы в папке out будут готовые страницы. Их загружаем в любой конвертер DJVU (выбирать можно на сайте [21]). Я использую DEE — Document Express Editor v6.0.1 Build 1320 LE (for NT) (Light Edition for NT) за маленький размер и шуструю работу. В принципе, после DEE книжку можно закидывать на любимую читалку/смартфон и использовать по назначению. Если время и силы позволяют — можно добавить OCR-слой и оглавление. Эти процедуры подробно описаны в моих статья, на которые я ссылался в начале статьи.
Надеюсь мой опыт будет полезен всем тем, кто фотографирует книги на телефон и читает их потом с картинок в галерее :)
p.s. На Хабре была статья (Оцифровка всемирного книжного наследия с помощью смартфонов [22]). Там где:

Литару провёл несколько тестов и выяснил, что таким образом один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу. Сам он в 2004 году для дипломной работы вручную оцифровал тридцать тысяч страниц материалов из более чем семисот документов, используя обычную цифровую камеру и дешёвую настольную лампу. Большую часть этой работы Литару выполнил в течение пятнадцати часов в один из выходных дней.

Так это, дорогой Калев Литару, если читаешь Хабр — напиши мне, может чего посоветую :))

Автор: steanlab

Источник [23]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/obrabotka-izobrazhenij/294611

Ссылки в тексте:

[1] twirpx: http://www.twirpx.com

[2] Часть 1: http://old.kv.by/index2009453002.htm&print

[3] часть 2: http://old.kv.by/index2009463002.htm&print

[4] Часть 1: https://www.kv.by/archive/index2008343001.htm

[5] часть 2: https://www.kv.by/archive/index2008363001.htm

[6] часть 3: https://www.kv.by/archive/index2008383001.htm

[7] Статья: https://www.kv.by/print/archive/index2009093001.htm

[8] twirpx: https://www.twirpx.com/

[9] avaxhome: https://avxhm.is/

[10] Книжный сканер своими руками: https://habr.com/post/389035/

[11] ч.1: https://www.youtube.com/watch?v=ns3jGFbJvXI

[12] ч.2: https://www.youtube.com/watch?v=s97wZ5mzLSc

[13] ч.3: https://www.youtube.com/watch?v=ufiWeIKkxmc

[14] Coco CC-PC101: https://www.secarica.ro/index.php/en/technical/nokia-bt-remote-control

[15] пели дифирамбы: https://habr.com/post/178807

[16] Coco CC-PC101: https://ru.aliexpress.com/item/4-in-1-Bluetooth-Remote-Control-for-Apple-iPhone-6-Plus-for-iPad-Air-2-for/32271130076.html

[17] монопод для GoPro Hero 5 4 3: https://ru.aliexpress.com/item/GoPro-Hero-Accesspries-Go-Pro-Hero/32831340119.html?spm=a2g0v.10010108.1000016.1.36ce2c51FxOd56

[18] первое попавшееся: https://ru.aliexpress.com/item/Universal-Mobile-Phone-Holder-mount-Clip-Bracket-Holder-tripod-Monopod-Stand-for-iPhone-For-Samsung-For/32593322316.html?spm=a2g0s.9042311.0.0.274233ednDzx17

[19] Википедия: https://ru.wikipedia.org/wiki/Scan_Tailor

[20] Японский сканер оцифровывает книгу в 250 страниц за минуту: https://habr.com/post/159791/

[21] сайте: http://www.djvu-soft.narod.ru/soft/

[22] Оцифровка всемирного книжного наследия с помощью смартфонов: https://habr.com/post/386581

[23] Источник: https://habr.com/post/425113/?utm_campaign=425113