IPB

Здравствуйте, гость ( Вход | Регистрация )

> Распознавание текста
Поделиться
ИВК
сообщение 1.1.2013, 13:15
Сообщение #1


Профессионал
*******

Группа: Глоб. Модератор
Сообщений: 10176
Регистрация: 22.6.2009
Вставить ник
Цитата
Из: Онега
Пользователь №: 1352
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 30


Вот Robinzoid делится своим опытом :
Программа для распознавания текста
Программа для распознавания текста-2
Мне это, кстати, вскоре может пригодиться; много чего надо бы оцифровать, мешают недостаток времени и воспоминания о подобных опытах ещё в винде (КПД был как-то не очень wink.gif).
А вообще кто пробовал? Насколько эффективно, особенно если качество оригинала хромает?


--------------------
Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Открыть новую тему
Ответов
ИВК
сообщение 1.1.2013, 20:57
Сообщение #2


Профессионал
*******

Группа: Глоб. Модератор
Сообщений: 10176
Регистрация: 22.6.2009
Вставить ник
Цитата
Из: Онега
Пользователь №: 1352
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 30


Цитата(robinzoid @ 1.1.2013, 18:19) *
Вот просто щёлкнутая цифровиком страница книги.

Насколько я представляю себе логику работы таких программ, им гораздо удобнее иметь дело всё-таки со сканированным изображением, чем с фоткой.... хотя глубоко не вникал, так что утверждать не берусь.
А вообще качество распознавания более-менее на уровне FineReader'а?


--------------------
Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
squire
сообщение 2.1.2013, 11:58
Сообщение #3


Крупный специалист
*****

Группа: Активный Пользователь
Сообщений: 376
Регистрация: 25.8.2010
Вставить ник
Цитата
Пользователь №: 1910
Страна: Россия
Город: Екатеринбург
Пол: Муж.



Репутация: 1


Цитата(IVK @ 1.1.2013, 22:57) *
А вообще качество распознавания более-менее на уровне FineReader'а?

Отнюдь. Качество распознавания в программах YAGF и OCRFeeder с движками cuneiform и tesseract далеко отстает от FineReader'a.
Для опытов отсканирован и распознан паспорт на счетчик воды со сложным форматированием.
Сканирование производилось сканером Genius ColorPage Slim 1200 c разрешением 600 dpi. Распознавание проводилось в приложениях FineReader 8, YAGF 0.9.2 и OCRReeder 0.7.9 с движками cuneiform и tesseract из р6.
Результаты говорят сами за себя. Лучшим показал себя, естественно, FineReader. Минимум ошибок, распознана таблица.
Худшим оказался движок cuneiform в обеих свободных программах. Движок tesseract в OCRFeeder даже попытался соблюсти какое-то форматирование. Сохранение результатов распознавания из OCRFeeder'a производилось копированием и вставкой в Writer с последующим экспортом в формат PDF. Прямой экспорт в ODT дал несколько худшие результаты форматирования, а прямой экспорт в PDF вообще не удался.
В итоге для распознавания простого текста можно использовать и YAGF и OCRFeeder. Но я бы всё же рекомендовал движок tesseract.

Прикрепленные файлы
Прикрепленный файл  FineReader.pdf ( 59.31 килобайт ) Кол-во скачиваний: 6
Прикрепленный файл  Original.pdf ( 112.31 килобайт ) Кол-во скачиваний: 7
Прикрепленный файл  yagf_cuneiform.pdf ( 19.47 килобайт ) Кол-во скачиваний: 6
Прикрепленный файл  yagf_tesseract.pdf ( 18.91 килобайт ) Кол-во скачиваний: 4
Прикрепленный файл  ocrfeeder_cuneiform.pdf ( 24.93 килобайт ) Кол-во скачиваний: 6
Прикрепленный файл  ocrfeeder_tesseract.pdf ( 25.48 килобайт ) Кол-во скачиваний: 5
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
YYY
сообщение 10.1.2013, 1:51
Сообщение #4


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 1671
Регистрация: 12.10.2010
Вставить ник
Цитата
Пользователь №: 1950
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 8


Цитата(squire @ 2.1.2013, 11:58) *

cuneiform 1.1.0


Цитата
ПАСПОРТ СЧЕТЧИКИ ХОЛОДНОЙ И ГОРЯЧЕЙ ВОДЫ КРЫЛЬЧАТЫЕ СВ-15 (с антимагнитной защитой} 2011
М Е48. В02642 1.ОБЩИЕ СВЕДЕНИЯ для измерения объема холодной питьевой воды по СанПиН 2.1.4.1074-01 и сетевой воды, протекающей по трубопроводу при температуре от 5'С до 40-С и рабочем давлении в водопроводной сети не более 1,0 МПа(10 кгс.'С~1-'). 1.2. Счетчик горячей во ы крыльчатый СВ-15Г (далее для измерения объе, а горячей воды по СанПиН 2.1.4.1074-01, протекающей по трубопроводу при температуре от 5 'С до 90С и рабочем давлении в водопроводной сети не более 1,0 МПа (10 кгс/см2). Счетчик горячей водь является универсальным и может применяться для учета холодной воды. В случае использования горячеводного счетчика на холодной воде межповерочный интервал 6 лет. 1.3. Счетчик CB может дополнительно комплектоваться импульсным датчиком (магнитоуправляемым герметизированным контактом ~герконом)) с последовательным и шунтирующим (короткозамкнутым) сопротивлениями соответствующими схеме НАМУР (NAMUR) для дистанционной передачи низкочастотных импульсов с контролем обрыва линии, при этом в обозначении счетчика появляется буква «И». Цена импульса — 0.01 м-/имп. / (указать если иное). 1.4. Счетчики воды выпускают по ТУ 4213-001-15151288-2007. 1.5. Номер прибора в Государственном реестре средств измерений - 38760-08. 2.ОСНОВНЫЕ ТЕХНИЧЕСКИЕ ДАННЫЕ И ХАРАКТЕРИСТИКИ 2.1. Основные параметры счетчиков представлены в таблице 1. ТаблицB 1 Наименование параметра Значение параметра МОДЕЛЬ СВ-15Х СВ-15Г СВ-15ИХ СВ-15ИГ Диаметр словного прохода Ду. мм Расход воды Q, м-/час Минимальный Qmin Класс В (горизонтальная установка) Класс А ве тикальная становка 0,03 0,06 Переходный Qt Класс В Класс А 0,12 015 Номинальный Qn Максимальный Qmax Пределы допускаемой относительной погрешности, % 3,0 в иапазоне асхо ов от Qmin o Qt в иапазоне асхо ов от Qt î Qmax включительно Емкость счетного механизма, м ена еления мла шего аз я а м 99999,999 0 0001 Диапазон рабочих температур, 'С ля чета холо ной во ы от5 о40 от 5 о90 ля чета го ячей во ы Макс. рабочее давление воды не более, МПа Поте я авления и и Qmax не более МПа Порог ч вствительности 01 не более 0,5 Qmin Номинал. диаметр резьбового соединения на корпусе счетчика, дюйм номинальный иамет езьбового сое инения шт е ов юйм 3/4 1/2 Габаритные размеры (длина, высота, ширина) не более, мм * короткобазное исполнение 110, 82. 76 80 82 76*
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
squire
сообщение 10.1.2013, 22:24
Сообщение #5


Крупный специалист
*****

Группа: Активный Пользователь
Сообщений: 376
Регистрация: 25.8.2010
Вставить ник
Цитата
Пользователь №: 1910
Страна: Россия
Город: Екатеринбург
Пол: Муж.



Репутация: 1


Цитата
cuneiform 1.1.0

Откуда он?

Код
cuneiform     1.0-alt2                    2011-03-01 19:31:10 UTC     -- p6
cuneiform     1.0-alt2.1                  2012-06-19 16:17:48 UTC      -- sisyphus
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
YYY
сообщение 10.1.2013, 23:09
Сообщение #6


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 1671
Регистрация: 12.10.2010
Вставить ник
Цитата
Пользователь №: 1950
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 8


Цитата(squire @ 10.1.2013, 22:24) *
Откуда он?

из бубунты, я специально попробовал есть ли изменения - похоже что очень даже есть...

Кстати, зоть в альте ocrfeeder свежий. но уже есть еще свежее smile.gif

to IVK
В ocrfeeder есть проверка правописания - так что достаточно просто все ошибки исправить они подчеркиваются

to robinzoid
у ocrfeeder есть экспорт в ODF

Сообщение отредактировал YYY - 10.1.2013, 23:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
robinzoid
сообщение 21.1.2013, 14:28
Сообщение #7


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 2272
Регистрация: 14.9.2009
Вставить ник
Цитата
Из: Ленинград
Пользователь №: 1594
Страна: Россия
Город: Санкт-Петербург
Пол: Муж.



Репутация: 9


Цитата(YYY @ 10.1.2013, 23:09) *
to robinzoid
у ocrfeeder есть экспорт в ODF

Спасибо. Ё-моё, у него ж ещё и unpaper есть...
Живём!


--------------------
El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения

Сообщений в этой теме
- IVK   Распознавание текста   1.1.2013, 13:15
- - kostyalamer   Цитата(IVK @ 1.1.2013, 13:15) А вообще кт...   1.1.2013, 14:59
|- - robinzoid   К сожалению как у "файнридера" в офисных...   1.1.2013, 18:19
- - Skull   Цитата(IVK @ 1.1.2013, 12:15) Вот Robinzo...   1.1.2013, 18:56
|- - robinzoid   Цитата(Skull @ 1.1.2013, 18:56) Кто мешал...   1.1.2013, 19:55
|- - Skull   Цитата(robinzoid @ 1.1.2013, 18:55) Смысл...   1.1.2013, 23:52
- - IVK   Цитата(robinzoid @ 1.1.2013, 18:19) Вот п...   1.1.2013, 20:57
|- - and   Кстати я уже лет 6 не был в библиотеке, там разреш...   1.1.2013, 23:13
|- - squire   Цитата(IVK @ 1.1.2013, 22:57) А вообще ка...   2.1.2013, 11:58
|- - YYY   Цитата(squire @ 2.1.2013, 11:58) cuneifo...   10.1.2013, 1:51
|- - squire   Цитатаcuneiform 1.1.0 Откуда он? Кодcuneiform 1....   10.1.2013, 22:24
|- - YYY   Цитата(squire @ 10.1.2013, 22:24) Откуда ...   10.1.2013, 23:09
|- - robinzoid   Цитата(YYY @ 10.1.2013, 23:09) to robinzo...   21.1.2013, 14:28
- - IVK   Цитата(and @ 1.1.2013, 23:13) Кстати я уж...   1.1.2013, 23:18
- - IVK   Короче, если в Линуксе, то только простой текст с ...   10.1.2013, 10:06
|- - robinzoid   Цитата(IVK @ 10.1.2013, 10:06) Короче, ес...   10.1.2013, 22:56
- - IVK   Попробовал распознавать (в yagf + tesseract) текс...   20.1.2013, 19:44


Ответить в эту темуОткрыть новую тему
( Гостей: 1 )
Пользователей: 0

 



RSS Текстовая версия Сейчас: 9.11.2025, 1:56