IPB

Здравствуйте, гость ( Вход | Регистрация )

 
Ответить в эту темуОткрыть новую тему
> Распознавание текста
Поделиться
ИВК
сообщение 1.1.2013, 13:15
Сообщение #1


Профессионал
*******

Группа: Глоб. Модератор
Сообщений: 9988
Регистрация: 22.6.2009
Вставить ник
Цитата
Из: Онега
Пользователь №: 1352
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 30


Вот Robinzoid делится своим опытом :
Программа для распознавания текста
Программа для распознавания текста-2
Мне это, кстати, вскоре может пригодиться; много чего надо бы оцифровать, мешают недостаток времени и воспоминания о подобных опытах ещё в винде (КПД был как-то не очень wink.gif).
А вообще кто пробовал? Насколько эффективно, особенно если качество оригинала хромает?


--------------------
Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
kostyalamer
сообщение 1.1.2013, 14:59
Сообщение #2


Профессионал
*******

Группа: Пользователь
Сообщений: 4384
Регистрация: 17.9.2009
Вставить ник
Цитата
Пользователь №: 1617
Страна: Россия
Город: Санкт-Петербург
Пол: Муж.



Репутация: 20


Цитата(IVK @ 1.1.2013, 13:15) *
А вообще кто пробовал? Насколько эффективно, особенно если качество оригинала хромает?

1) Тезка молодец good.gif
2) К сожалению не пробовал.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
robinzoid
сообщение 1.1.2013, 18:19
Сообщение #3


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 2268
Регистрация: 14.9.2009
Вставить ник
Цитата
Из: Ленинград
Пользователь №: 1594
Страна: Россия
Город: Санкт-Петербург
Пол: Муж.



Репутация: 9


К сожалению как у "файнридера" в офисных форматах распознанное не сохраняется. Только в текстовом Но вставленное в текстовый редактор нормально редактируется.
Вот просто щёлкнутая цифровиком страница книги.



А вот снимок в распознавалках.





Если покрупнее, то http://img-fotki.yandex.ru/get/4117/390650...f8f8872_XXL.jpg http://img-fotki.yandex.ru/get/4116/390650...2ebc523_XXL.jpg

Сообщение отредактировал robinzoid - 1.1.2013, 18:20


--------------------
El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
Skull
сообщение 1.1.2013, 18:56
Сообщение #4


Крупный специалист
*****

Группа: Пользователь
Сообщений: 476
Регистрация: 30.11.2009
Вставить ник
Цитата
Пользователь №: 1722
Страна: Россия
Город: Климовск/Московской
Пол: Муж.



Репутация: 6


Цитата(IVK @ 1.1.2013, 12:15) *
Вот Robinzoid делится своим опытом :
Программа для распознавания текста
Программа для распознавания текста-2
Мне это, кстати, вскоре может пригодиться; много чего надо бы оцифровать, мешают недостаток времени и воспоминания о подобных опытах ещё в винде (КПД был как-то не очень wink.gif).
А вообще кто пробовал? Насколько эффективно, особенно если качество оригинала хромает?
Кто мешал в настройках YAGF выбрать тот же Cuneiform и распознать в нём? Результат был бы настолько же эффективным.
Кстати, рекомендую глянуть ещё ocrfeeder
И для tesseract словари поставить можно из пакета
Код
tesseract-langpack-ru - Russian language pack for tesseract
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
robinzoid
сообщение 1.1.2013, 19:55
Сообщение #5


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 2268
Регистрация: 14.9.2009
Вставить ник
Цитата
Из: Ленинград
Пользователь №: 1594
Страна: Россия
Город: Санкт-Петербург
Пол: Муж.



Репутация: 9


Цитата(Skull @ 1.1.2013, 18:56) *
Кто мешал в настройках YAGF выбрать тот же Cuneiform и распознать в нём? Результат был бы настолько же эффективным.

Смысл был бы, будь он эффективнее. А если "Результат был бы настолько же эффективным." так какая разница?


--------------------
El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
ИВК
сообщение 1.1.2013, 20:57
Сообщение #6


Профессионал
*******

Группа: Глоб. Модератор
Сообщений: 9988
Регистрация: 22.6.2009
Вставить ник
Цитата
Из: Онега
Пользователь №: 1352
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 30


Цитата(robinzoid @ 1.1.2013, 18:19) *
Вот просто щёлкнутая цифровиком страница книги.

Насколько я представляю себе логику работы таких программ, им гораздо удобнее иметь дело всё-таки со сканированным изображением, чем с фоткой.... хотя глубоко не вникал, так что утверждать не берусь.
А вообще качество распознавания более-менее на уровне FineReader'а?


--------------------
Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
and
сообщение 1.1.2013, 23:13
Сообщение #7


Мастер
******

Группа: Пользователь
Сообщений: 530
Регистрация: 22.8.2007
Вставить ник
Цитата
Пользователь №: 317
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 6


Кстати я уже лет 6 не был в библиотеке, там разрешают пользоваться фотоаппаратом?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
ИВК
сообщение 1.1.2013, 23:18
Сообщение #8


Профессионал
*******

Группа: Глоб. Модератор
Сообщений: 9988
Регистрация: 22.6.2009
Вставить ник
Цитата
Из: Онега
Пользователь №: 1352
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 30


Цитата(and @ 1.1.2013, 23:13) *
Кстати я уже лет 6 не был в библиотеке, там разрешают пользоваться фотоаппаратом?

Не знаю, но мне в нашей областной года 4 назад сделали копии книжных страниц на копире; наверное, при надобности могли и просто отсканировать.


--------------------
Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
Skull
сообщение 1.1.2013, 23:52
Сообщение #9


Крупный специалист
*****

Группа: Пользователь
Сообщений: 476
Регистрация: 30.11.2009
Вставить ник
Цитата
Пользователь №: 1722
Страна: Россия
Город: Климовск/Московской
Пол: Муж.



Репутация: 6


Цитата(robinzoid @ 1.1.2013, 18:55) *
Смысл был бы, будь он эффективнее. А если "Результат был бы настолько же эффективным." так какая разница?
YAGF и так эффективнее моего cuneiform-qt. Говорю, как мейнтейнер обоих пакетов. Просто для смешанного англо-русского текста с форматированием Cuneiform как движок лучше. Tesseract имеет больше словарей и перспективнее.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
squire
сообщение 2.1.2013, 11:58
Сообщение #10


Крупный специалист
*****

Группа: Активный Пользователь
Сообщений: 376
Регистрация: 25.8.2010
Вставить ник
Цитата
Пользователь №: 1910
Страна: Россия
Город: Екатеринбург
Пол: Муж.



Репутация: 1


Цитата(IVK @ 1.1.2013, 22:57) *
А вообще качество распознавания более-менее на уровне FineReader'а?

Отнюдь. Качество распознавания в программах YAGF и OCRFeeder с движками cuneiform и tesseract далеко отстает от FineReader'a.
Для опытов отсканирован и распознан паспорт на счетчик воды со сложным форматированием.
Сканирование производилось сканером Genius ColorPage Slim 1200 c разрешением 600 dpi. Распознавание проводилось в приложениях FineReader 8, YAGF 0.9.2 и OCRReeder 0.7.9 с движками cuneiform и tesseract из р6.
Результаты говорят сами за себя. Лучшим показал себя, естественно, FineReader. Минимум ошибок, распознана таблица.
Худшим оказался движок cuneiform в обеих свободных программах. Движок tesseract в OCRFeeder даже попытался соблюсти какое-то форматирование. Сохранение результатов распознавания из OCRFeeder'a производилось копированием и вставкой в Writer с последующим экспортом в формат PDF. Прямой экспорт в ODT дал несколько худшие результаты форматирования, а прямой экспорт в PDF вообще не удался.
В итоге для распознавания простого текста можно использовать и YAGF и OCRFeeder. Но я бы всё же рекомендовал движок tesseract.

Прикрепленные файлы
Прикрепленный файл  FineReader.pdf ( 59.31 килобайт ) Кол-во скачиваний: 6
Прикрепленный файл  Original.pdf ( 112.31 килобайт ) Кол-во скачиваний: 7
Прикрепленный файл  yagf_cuneiform.pdf ( 19.47 килобайт ) Кол-во скачиваний: 6
Прикрепленный файл  yagf_tesseract.pdf ( 18.91 килобайт ) Кол-во скачиваний: 4
Прикрепленный файл  ocrfeeder_cuneiform.pdf ( 24.93 килобайт ) Кол-во скачиваний: 6
Прикрепленный файл  ocrfeeder_tesseract.pdf ( 25.48 килобайт ) Кол-во скачиваний: 5
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
YYY
сообщение 10.1.2013, 1:51
Сообщение #11


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 1651
Регистрация: 12.10.2010
Вставить ник
Цитата
Пользователь №: 1950
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 8


Цитата(squire @ 2.1.2013, 11:58) *

cuneiform 1.1.0


Цитата
ПАСПОРТ СЧЕТЧИКИ ХОЛОДНОЙ И ГОРЯЧЕЙ ВОДЫ КРЫЛЬЧАТЫЕ СВ-15 (с антимагнитной защитой} 2011
М Е48. В02642 1.ОБЩИЕ СВЕДЕНИЯ для измерения объема холодной питьевой воды по СанПиН 2.1.4.1074-01 и сетевой воды, протекающей по трубопроводу при температуре от 5'С до 40-С и рабочем давлении в водопроводной сети не более 1,0 МПа(10 кгс.'С~1-'). 1.2. Счетчик горячей во ы крыльчатый СВ-15Г (далее для измерения объе, а горячей воды по СанПиН 2.1.4.1074-01, протекающей по трубопроводу при температуре от 5 'С до 90С и рабочем давлении в водопроводной сети не более 1,0 МПа (10 кгс/см2). Счетчик горячей водь является универсальным и может применяться для учета холодной воды. В случае использования горячеводного счетчика на холодной воде межповерочный интервал 6 лет. 1.3. Счетчик CB может дополнительно комплектоваться импульсным датчиком (магнитоуправляемым герметизированным контактом ~герконом)) с последовательным и шунтирующим (короткозамкнутым) сопротивлениями соответствующими схеме НАМУР (NAMUR) для дистанционной передачи низкочастотных импульсов с контролем обрыва линии, при этом в обозначении счетчика появляется буква «И». Цена импульса — 0.01 м-/имп. / (указать если иное). 1.4. Счетчики воды выпускают по ТУ 4213-001-15151288-2007. 1.5. Номер прибора в Государственном реестре средств измерений - 38760-08. 2.ОСНОВНЫЕ ТЕХНИЧЕСКИЕ ДАННЫЕ И ХАРАКТЕРИСТИКИ 2.1. Основные параметры счетчиков представлены в таблице 1. ТаблицB 1 Наименование параметра Значение параметра МОДЕЛЬ СВ-15Х СВ-15Г СВ-15ИХ СВ-15ИГ Диаметр словного прохода Ду. мм Расход воды Q, м-/час Минимальный Qmin Класс В (горизонтальная установка) Класс А ве тикальная становка 0,03 0,06 Переходный Qt Класс В Класс А 0,12 015 Номинальный Qn Максимальный Qmax Пределы допускаемой относительной погрешности, % 3,0 в иапазоне асхо ов от Qmin o Qt в иапазоне асхо ов от Qt î Qmax включительно Емкость счетного механизма, м ена еления мла шего аз я а м 99999,999 0 0001 Диапазон рабочих температур, 'С ля чета холо ной во ы от5 о40 от 5 о90 ля чета го ячей во ы Макс. рабочее давление воды не более, МПа Поте я авления и и Qmax не более МПа Порог ч вствительности 01 не более 0,5 Qmin Номинал. диаметр резьбового соединения на корпусе счетчика, дюйм номинальный иамет езьбового сое инения шт е ов юйм 3/4 1/2 Габаритные размеры (длина, высота, ширина) не более, мм * короткобазное исполнение 110, 82. 76 80 82 76*
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
ИВК
сообщение 10.1.2013, 10:06
Сообщение #12


Профессионал
*******

Группа: Глоб. Модератор
Сообщений: 9988
Регистрация: 22.6.2009
Вставить ник
Цитата
Из: Онега
Пользователь №: 1352
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 30


Короче, если в Линуксе, то только простой текст с хорошего оригинала; а иначе быстрее вручную перепечатать, чем пропускать через распознавалку и потом исправлять её ошибки wink.gif


--------------------
Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
squire
сообщение 10.1.2013, 22:24
Сообщение #13


Крупный специалист
*****

Группа: Активный Пользователь
Сообщений: 376
Регистрация: 25.8.2010
Вставить ник
Цитата
Пользователь №: 1910
Страна: Россия
Город: Екатеринбург
Пол: Муж.



Репутация: 1


Цитата
cuneiform 1.1.0

Откуда он?

Код
cuneiform     1.0-alt2                    2011-03-01 19:31:10 UTC     -- p6
cuneiform     1.0-alt2.1                  2012-06-19 16:17:48 UTC      -- sisyphus
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
robinzoid
сообщение 10.1.2013, 22:56
Сообщение #14


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 2268
Регистрация: 14.9.2009
Вставить ник
Цитата
Из: Ленинград
Пользователь №: 1594
Страна: Россия
Город: Санкт-Петербург
Пол: Муж.



Репутация: 9


Цитата(IVK @ 10.1.2013, 10:06) *
Короче, если в Линуксе, то только простой текст с хорошего оригинала; а иначе быстрее вручную перепечатать, чем пропускать через распознавалку и потом исправлять её ошибки wink.gif

Ну-у не-е-е, я, если врукопашную стучать начну, ошибок исправлять придётся куда больше. Кстати, как раз и снял страницу цифровиком, с искажениями, чтоб показать, что Линуксу по силам и хорошо деформированное.


--------------------
El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
YYY
сообщение 10.1.2013, 23:09
Сообщение #15


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 1651
Регистрация: 12.10.2010
Вставить ник
Цитата
Пользователь №: 1950
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 8


Цитата(squire @ 10.1.2013, 22:24) *
Откуда он?

из бубунты, я специально попробовал есть ли изменения - похоже что очень даже есть...

Кстати, зоть в альте ocrfeeder свежий. но уже есть еще свежее smile.gif

to IVK
В ocrfeeder есть проверка правописания - так что достаточно просто все ошибки исправить они подчеркиваются

to robinzoid
у ocrfeeder есть экспорт в ODF

Сообщение отредактировал YYY - 10.1.2013, 23:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
ИВК
сообщение 20.1.2013, 19:44
Сообщение #16


Профессионал
*******

Группа: Глоб. Модератор
Сообщений: 9988
Регистрация: 22.6.2009
Вставить ник
Цитата
Из: Онега
Пользователь №: 1352
Страна: Россия
Город: Не указан
Пол: Муж.



Репутация: 30


Попробовал распознавать (в yagf + tesseract) текст на изрядно пожелтевших вырезках из старых газет. В общем, если при сканировании поиграть с яркостью и особенно с контрастностью, то конечный результат приемлемый. Во всяком случае, исправить ошибки распознавания во много раз быстрее, чем распечатывать текст вручную smile.gif Это где-то через полчаса экспериментов стало понятно; а первые результаты были весьма ужасны и оптимизма не внушали wink.gif



--------------------
Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
robinzoid
сообщение 21.1.2013, 14:28
Сообщение #17


Профессионал
*******

Группа: Активный Пользователь
Сообщений: 2268
Регистрация: 14.9.2009
Вставить ник
Цитата
Из: Ленинград
Пользователь №: 1594
Страна: Россия
Город: Санкт-Петербург
Пол: Муж.



Репутация: 9


Цитата(YYY @ 10.1.2013, 23:09) *
to robinzoid
у ocrfeeder есть экспорт в ODF

Спасибо. Ё-моё, у него ж ещё и unpaper есть...
Живём!


--------------------
El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения

Ответить в эту темуОткрыть новую тему
( Гостей: 1 )
Пользователей: 0

 



RSS Текстовая версия Сейчас: 29.3.2024, 0:36