Распознавание текста |
Поделиться |
Здравствуйте, гость ( Вход | Регистрация )
Распознавание текста |
Поделиться |
1.1.2013, 13:15
Сообщение
#1
|
|
Профессионал Группа: Глоб. Модератор Сообщений: 10033 Регистрация: 22.6.2009 Вставить ник Цитата Из: Онега Пользователь №: 1352 Страна: Россия Город: Не указан Пол: Муж. Репутация: 30 |
Вот Robinzoid делится своим опытом :
Программа для распознавания текста Программа для распознавания текста-2 Мне это, кстати, вскоре может пригодиться; много чего надо бы оцифровать, мешают недостаток времени и воспоминания о подобных опытах ещё в винде (КПД был как-то не очень ). А вообще кто пробовал? Насколько эффективно, особенно если качество оригинала хромает? -------------------- Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
|
|
|
1.1.2013, 14:59
Сообщение
#2
|
|
Профессионал Группа: Пользователь Сообщений: 4384 Регистрация: 17.9.2009 Вставить ник Цитата Пользователь №: 1617 Страна: Россия Город: Санкт-Петербург Пол: Муж. Репутация: 20 |
|
|
|
1.1.2013, 18:19
Сообщение
#3
|
|
Профессионал Группа: Активный Пользователь Сообщений: 2268 Регистрация: 14.9.2009 Вставить ник Цитата Из: Ленинград Пользователь №: 1594 Страна: Россия Город: Санкт-Петербург Пол: Муж. Репутация: 9 |
К сожалению как у "файнридера" в офисных форматах распознанное не сохраняется. Только в текстовом Но вставленное в текстовый редактор нормально редактируется.
Вот просто щёлкнутая цифровиком страница книги. А вот снимок в распознавалках. Если покрупнее, то http://img-fotki.yandex.ru/get/4117/390650...f8f8872_XXL.jpg http://img-fotki.yandex.ru/get/4116/390650...2ebc523_XXL.jpg Сообщение отредактировал robinzoid - 1.1.2013, 18:20 -------------------- El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
|
|
|
1.1.2013, 18:56
Сообщение
#4
|
|
Крупный специалист Группа: Пользователь Сообщений: 476 Регистрация: 30.11.2009 Вставить ник Цитата Пользователь №: 1722 Страна: Россия Город: Климовск/Московской Пол: Муж. Репутация: 6 |
Вот Robinzoid делится своим опытом : Кто мешал в настройках YAGF выбрать тот же Cuneiform и распознать в нём? Результат был бы настолько же эффективным.Программа для распознавания текста Программа для распознавания текста-2 Мне это, кстати, вскоре может пригодиться; много чего надо бы оцифровать, мешают недостаток времени и воспоминания о подобных опытах ещё в винде (КПД был как-то не очень ). А вообще кто пробовал? Насколько эффективно, особенно если качество оригинала хромает? Кстати, рекомендую глянуть ещё ocrfeeder И для tesseract словари поставить можно из пакета Код tesseract-langpack-ru - Russian language pack for tesseract
|
|
|
1.1.2013, 19:55
Сообщение
#5
|
|
Профессионал Группа: Активный Пользователь Сообщений: 2268 Регистрация: 14.9.2009 Вставить ник Цитата Из: Ленинград Пользователь №: 1594 Страна: Россия Город: Санкт-Петербург Пол: Муж. Репутация: 9 |
Кто мешал в настройках YAGF выбрать тот же Cuneiform и распознать в нём? Результат был бы настолько же эффективным. Смысл был бы, будь он эффективнее. А если "Результат был бы настолько же эффективным." так какая разница? -------------------- El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
|
|
|
1.1.2013, 20:57
Сообщение
#6
|
|
Профессионал Группа: Глоб. Модератор Сообщений: 10033 Регистрация: 22.6.2009 Вставить ник Цитата Из: Онега Пользователь №: 1352 Страна: Россия Город: Не указан Пол: Муж. Репутация: 30 |
Вот просто щёлкнутая цифровиком страница книги. Насколько я представляю себе логику работы таких программ, им гораздо удобнее иметь дело всё-таки со сканированным изображением, чем с фоткой.... хотя глубоко не вникал, так что утверждать не берусь. А вообще качество распознавания более-менее на уровне FineReader'а? -------------------- Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
|
|
|
1.1.2013, 23:13
Сообщение
#7
|
|
Мастер Группа: Пользователь Сообщений: 530 Регистрация: 22.8.2007 Вставить ник Цитата Пользователь №: 317 Страна: Россия Город: Не указан Пол: Муж. Репутация: 6 |
Кстати я уже лет 6 не был в библиотеке, там разрешают пользоваться фотоаппаратом?
|
|
|
1.1.2013, 23:18
Сообщение
#8
|
|
Профессионал Группа: Глоб. Модератор Сообщений: 10033 Регистрация: 22.6.2009 Вставить ник Цитата Из: Онега Пользователь №: 1352 Страна: Россия Город: Не указан Пол: Муж. Репутация: 30 |
Кстати я уже лет 6 не был в библиотеке, там разрешают пользоваться фотоаппаратом? Не знаю, но мне в нашей областной года 4 назад сделали копии книжных страниц на копире; наверное, при надобности могли и просто отсканировать. -------------------- Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
|
|
|
1.1.2013, 23:52
Сообщение
#9
|
|
Крупный специалист Группа: Пользователь Сообщений: 476 Регистрация: 30.11.2009 Вставить ник Цитата Пользователь №: 1722 Страна: Россия Город: Климовск/Московской Пол: Муж. Репутация: 6 |
Смысл был бы, будь он эффективнее. А если "Результат был бы настолько же эффективным." так какая разница? YAGF и так эффективнее моего cuneiform-qt. Говорю, как мейнтейнер обоих пакетов. Просто для смешанного англо-русского текста с форматированием Cuneiform как движок лучше. Tesseract имеет больше словарей и перспективнее. |
|
|
2.1.2013, 11:58
Сообщение
#10
|
|
Крупный специалист Группа: Активный Пользователь Сообщений: 376 Регистрация: 25.8.2010 Вставить ник Цитата Пользователь №: 1910 Страна: Россия Город: Екатеринбург Пол: Муж. Репутация: 1 |
А вообще качество распознавания более-менее на уровне FineReader'а? Отнюдь. Качество распознавания в программах YAGF и OCRFeeder с движками cuneiform и tesseract далеко отстает от FineReader'a. Для опытов отсканирован и распознан паспорт на счетчик воды со сложным форматированием. Сканирование производилось сканером Genius ColorPage Slim 1200 c разрешением 600 dpi. Распознавание проводилось в приложениях FineReader 8, YAGF 0.9.2 и OCRReeder 0.7.9 с движками cuneiform и tesseract из р6. Результаты говорят сами за себя. Лучшим показал себя, естественно, FineReader. Минимум ошибок, распознана таблица. Худшим оказался движок cuneiform в обеих свободных программах. Движок tesseract в OCRFeeder даже попытался соблюсти какое-то форматирование. Сохранение результатов распознавания из OCRFeeder'a производилось копированием и вставкой в Writer с последующим экспортом в формат PDF. Прямой экспорт в ODT дал несколько худшие результаты форматирования, а прямой экспорт в PDF вообще не удался. В итоге для распознавания простого текста можно использовать и YAGF и OCRFeeder. Но я бы всё же рекомендовал движок tesseract.
Прикрепленные файлы
FineReader.pdf ( 59.31 килобайт )
Кол-во скачиваний: 6
Original.pdf ( 112.31 килобайт ) Кол-во скачиваний: 7 yagf_cuneiform.pdf ( 19.47 килобайт ) Кол-во скачиваний: 6 yagf_tesseract.pdf ( 18.91 килобайт ) Кол-во скачиваний: 4 ocrfeeder_cuneiform.pdf ( 24.93 килобайт ) Кол-во скачиваний: 6 ocrfeeder_tesseract.pdf ( 25.48 килобайт ) Кол-во скачиваний: 5 |
|
|
10.1.2013, 1:51
Сообщение
#11
|
|
Профессионал Группа: Активный Пользователь Сообщений: 1651 Регистрация: 12.10.2010 Вставить ник Цитата Пользователь №: 1950 Страна: Россия Город: Не указан Пол: Муж. Репутация: 8 |
cuneiform 1.1.0 Цитата ПАСПОРТ СЧЕТЧИКИ ХОЛОДНОЙ И ГОРЯЧЕЙ ВОДЫ КРЫЛЬЧАТЫЕ СВ-15 (с антимагнитной защитой} 2011
М Е48. В02642 1.ОБЩИЕ СВЕДЕНИЯ для измерения объема холодной питьевой воды по СанПиН 2.1.4.1074-01 и сетевой воды, протекающей по трубопроводу при температуре от 5'С до 40-С и рабочем давлении в водопроводной сети не более 1,0 МПа(10 кгс.'С~1-'). 1.2. Счетчик горячей во ы крыльчатый СВ-15Г (далее для измерения объе, а горячей воды по СанПиН 2.1.4.1074-01, протекающей по трубопроводу при температуре от 5 'С до 90С и рабочем давлении в водопроводной сети не более 1,0 МПа (10 кгс/см2). Счетчик горячей водь является универсальным и может применяться для учета холодной воды. В случае использования горячеводного счетчика на холодной воде межповерочный интервал 6 лет. 1.3. Счетчик CB может дополнительно комплектоваться импульсным датчиком (магнитоуправляемым герметизированным контактом ~герконом)) с последовательным и шунтирующим (короткозамкнутым) сопротивлениями соответствующими схеме НАМУР (NAMUR) для дистанционной передачи низкочастотных импульсов с контролем обрыва линии, при этом в обозначении счетчика появляется буква «И». Цена импульса — 0.01 м-/имп. / (указать если иное). 1.4. Счетчики воды выпускают по ТУ 4213-001-15151288-2007. 1.5. Номер прибора в Государственном реестре средств измерений - 38760-08. 2.ОСНОВНЫЕ ТЕХНИЧЕСКИЕ ДАННЫЕ И ХАРАКТЕРИСТИКИ 2.1. Основные параметры счетчиков представлены в таблице 1. ТаблицB 1 Наименование параметра Значение параметра МОДЕЛЬ СВ-15Х СВ-15Г СВ-15ИХ СВ-15ИГ Диаметр словного прохода Ду. мм Расход воды Q, м-/час Минимальный Qmin Класс В (горизонтальная установка) Класс А ве тикальная становка 0,03 0,06 Переходный Qt Класс В Класс А 0,12 015 Номинальный Qn Максимальный Qmax Пределы допускаемой относительной погрешности, % 3,0 в иапазоне асхо ов от Qmin o Qt в иапазоне асхо ов от Qt î Qmax включительно Емкость счетного механизма, м ена еления мла шего аз я а м 99999,999 0 0001 Диапазон рабочих температур, 'С ля чета холо ной во ы от5 о40 от 5 о90 ля чета го ячей во ы Макс. рабочее давление воды не более, МПа Поте я авления и и Qmax не более МПа Порог ч вствительности 01 не более 0,5 Qmin Номинал. диаметр резьбового соединения на корпусе счетчика, дюйм номинальный иамет езьбового сое инения шт е ов юйм 3/4 1/2 Габаритные размеры (длина, высота, ширина) не более, мм * короткобазное исполнение 110, 82. 76 80 82 76* |
|
|
10.1.2013, 10:06
Сообщение
#12
|
|
Профессионал Группа: Глоб. Модератор Сообщений: 10033 Регистрация: 22.6.2009 Вставить ник Цитата Из: Онега Пользователь №: 1352 Страна: Россия Город: Не указан Пол: Муж. Репутация: 30 |
Короче, если в Линуксе, то только простой текст с хорошего оригинала; а иначе быстрее вручную перепечатать, чем пропускать через распознавалку и потом исправлять её ошибки
-------------------- Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
|
|
|
10.1.2013, 22:24
Сообщение
#13
|
|
Крупный специалист Группа: Активный Пользователь Сообщений: 376 Регистрация: 25.8.2010 Вставить ник Цитата Пользователь №: 1910 Страна: Россия Город: Екатеринбург Пол: Муж. Репутация: 1 |
Цитата cuneiform 1.1.0 Откуда он? Код cuneiform 1.0-alt2 2011-03-01 19:31:10 UTC -- p6
cuneiform 1.0-alt2.1 2012-06-19 16:17:48 UTC -- sisyphus |
|
|
10.1.2013, 22:56
Сообщение
#14
|
|
Профессионал Группа: Активный Пользователь Сообщений: 2268 Регистрация: 14.9.2009 Вставить ник Цитата Из: Ленинград Пользователь №: 1594 Страна: Россия Город: Санкт-Петербург Пол: Муж. Репутация: 9 |
Короче, если в Линуксе, то только простой текст с хорошего оригинала; а иначе быстрее вручную перепечатать, чем пропускать через распознавалку и потом исправлять её ошибки Ну-у не-е-е, я, если врукопашную стучать начну, ошибок исправлять придётся куда больше. Кстати, как раз и снял страницу цифровиком, с искажениями, чтоб показать, что Линуксу по силам и хорошо деформированное. -------------------- El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
|
|
|
10.1.2013, 23:09
Сообщение
#15
|
|
Профессионал Группа: Активный Пользователь Сообщений: 1651 Регистрация: 12.10.2010 Вставить ник Цитата Пользователь №: 1950 Страна: Россия Город: Не указан Пол: Муж. Репутация: 8 |
Откуда он? из бубунты, я специально попробовал есть ли изменения - похоже что очень даже есть... Кстати, зоть в альте ocrfeeder свежий. но уже есть еще свежее to IVK В ocrfeeder есть проверка правописания - так что достаточно просто все ошибки исправить они подчеркиваются to robinzoid у ocrfeeder есть экспорт в ODF Сообщение отредактировал YYY - 10.1.2013, 23:14 |
|
|
20.1.2013, 19:44
Сообщение
#16
|
|
Профессионал Группа: Глоб. Модератор Сообщений: 10033 Регистрация: 22.6.2009 Вставить ник Цитата Из: Онега Пользователь №: 1352 Страна: Россия Город: Не указан Пол: Муж. Репутация: 30 |
Попробовал распознавать (в yagf + tesseract) текст на изрядно пожелтевших вырезках из старых газет. В общем, если при сканировании поиграть с яркостью и особенно с контрастностью, то конечный результат приемлемый. Во всяком случае, исправить ошибки распознавания во много раз быстрее, чем распечатывать текст вручную Это где-то через полчаса экспериментов стало понятно; а первые результаты были весьма ужасны и оптимизма не внушали
-------------------- Не пью, не курю, не смотрю телевизор, не пользуюсь Windows
|
|
|
21.1.2013, 14:28
Сообщение
#17
|
|
Профессионал Группа: Активный Пользователь Сообщений: 2268 Регистрация: 14.9.2009 Вставить ник Цитата Из: Ленинград Пользователь №: 1594 Страна: Россия Город: Санкт-Петербург Пол: Муж. Репутация: 9 |
to robinzoid у ocrfeeder есть экспорт в ODF Спасибо. Ё-моё, у него ж ещё и unpaper есть... Живём! -------------------- El pueblo unido jamás será vencido! Если чего, я на http://robinzoid.ru/
|
|
|
Текстовая версия | Сейчас: 24.4.2024, 1:35 | |