Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Россия-2 _ Работа в Linux - Прочее _ Crow Translate

Автор: ИВК 11.6.2021, 18:24

Попробовал программу Crow Translate, о которой говорилось http://forum.russ2.com/index.php?showtopic=4270&view=findpost&p=54812. Переводчик, конечно, серьёзный. А насчёт распознавания текста вроде не очень.

Автор: Koi.v2 11.6.2021, 21:18

Распознавание зависит от leptonica и tesseract. leptonica выделяет анализирует и передает результат tesseract тот уже выбирает текст.
Tesseract это движок распознавания текста он состоит из языковой базы, обучающего модуля и самого движка. Я упаковал языковые базы ru\en потому что все что есть заняло бы больше 300 мб. Модули обучения работают в режиме разработки так что тоже не стал паковать тем более они для каждого языка свои. Кроме исходников на их git есть уже собранные языковые файлы если потребуется больше языков можно просто скачать файл и пихнуть его в каталог usr/share/tesseract/tessdata
https://github.com/tesseract-ocr/tessdata_best

Из наблюдений tesseract лучше работает когда включена только 1 база OCR. Например если включить одновременно ru+en для анализа английского текста, то иногда он путает английские буквы с русскими "tаblе".

Вот журнал pdf.

https://ibb.co/Ks52xcD https://ibb.co/ZSxh1kV https://ibb.co/6s7gX8J

Вполне сносно. wink.gif

Автор: ИВК 11.6.2021, 23:24

Вроде всё в порядке, русский текст тоже распознаёт. У меня, получается, русская база OCR вовсе не была включена; включил - заработало smile.gif

И даже пытается прочесть текст, написанный весьма заковыристо :


Цитата
. rae AUCH ЖИЗНИ

4 ЪИЗНЬ улыбнется тебе

smile.gif

Автор: Koi.v2 12.6.2021, 12:04

Попробовал улучшенные базы, верхнюю часть вменяемо не распознаёт. Видимо каллиграфия не конек этой программы. sorry.gif

Русская версия Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)