Рубрика «распознавание» - 5

Предыдущая статья о распознавании текста в изображениях в сервисе Evernote была посвящена в основном вопросам функциональности — что это такое, как работает и что дает платформе Evernote в целом. На этот раз мы поговорим о технической стороне вопроса.

Аппаратное обеспечение

Распознавание текста в изображениях Evernote значительно загружает вычислительный кластер, поэтому производительность и эффективность играют главную роль при оценке оборудования. После испытания нескольких различных платформ мы остановились на iX1204-563UB от iX Systems. По сути это Supermicro X8DTU на шасси 815TQ-563UB. Каждая из 37 систем распознавания в кластере состоит из следующего железа:

  • CPU: два Intel Xeon CPU L5630 @ 2,13 МГц (расчетная рассеиваемая мощность — 40 ватт)
  • Материнская плата: Supermicro X8DTU
  • Системный блок: Supermicro 815TQ-563UB
  • Блок питания: 560 ватт (имеет рейтинг эффективности 80Plus Gold)
  • Хранилище данных: 5,25-дюймовый жесткий диск с пониженным энергопотреблением
  • RAM: 12 Гб PC3-8500 (1066 МГц)

Читать полностью »

Система индексации в Evernote разработана для расширения поисковых возможностей Evernote и обеспечения поиска по медиафайлам. Ее задача — исследовать содержимое этих файлов и сделать любую обнаруженную в них текстовую информацию доступной для поиска. В настоящее время она обрабатывает изображения и файлы PDF, а также «цифровые чернила» (digital ink), но в планах у нас есть поддержка индексирования и других типов медиафайлов. Полученный индекс выводится в виде документа XML или PDF и содержит распознанные слова, альтернативные варианты распознавания, а также координаты найденных слов в документе (для последующей подсветки).Читать полностью »

Пролог
На работу привезли в рамках акции новые программы для документооборота — корпоративные профессиональные версии. Они нам программы — мы им свое частное и публичное мнение. Ставить их, к слову, вместо не совсем лицензионных версий этих же программ от Adobe. Соответственно, задачи, которые возлагаются на программы — работать с PDF (конвертировать их по-всякому, и т.п.), сканировать документы и распознавать символы. Меня посадили с этим ПО разбираться — вдруг там все на китайском, и вообще.Действие первое, второе и третье
Привык к тому, что PDF — это как область с наименьшей энтропией, только для документов. С ним самим кромеЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js