Как в файн ридер редактировать текст пдф
Перейти к содержимому

Как в файн ридер редактировать текст пдф

  • автор:

Текст в PDF: как редактировать в ABBYY Finereader

Современные компьютерные технологии предлагают массу возможностей для работы с контентом. В частности, существуют различные форматы данных, в том числе и текстовых. Это популярные txt, docx, xlsx и, конечно же, PDF. Последний чаще всего используется для разработки разных документов: от инструкций до договоров. Чтобы работать с этим форматом, нужно использовать специальное ПО, например, купить ABBYY Finereader. Программа позволяет просматривать, сканировать документы. Но можно ли их редактировать, чтобы внести какие-то правки или новые данные?

редактировать текст в PDF в ABBYY Finereader

Необходимость в специальной программе для PDF

Документы в данном формате нередко имеют защиту, которая не дает возможности вносить изменения стандартными инструментами. Более того, во многих случаях отсутствует даже возможность полностью скопировать контент, что затрудняет работу. Единственное, что доступно штатными устройствами, будь то браузер или Adobe Reader – это просмотр документа. Именно поэтому нужна специальная программа, представленная выше. Она предназначена для комплексной работы с документами данного формата. Если вы узнаете, как редактировать текст в PDF в ABBYY Finereader, то сможете подготовить файлы под себя или получить из них всю необходимую информацию. Также с ее помощью можно сканировать текст для последующего использования, если речь идет об отсканированных бумажных документах.

Как редактировать текст в PDF?

Чтобы внести правки в документ, вам необходимо сделать следующее:

  • откройте PDF-файл в программе;
  • найдите на панели инструментов кнопку «Редактировать» и нажмите ее, появится специальный блок для редактирования;
  • выделите курсором нужную строку и произведите изменения: удалите, добавьте или отредактируйте текст, вы можете менять шрифт, размер, начертание, цвет и другие параметры через активную панель;
  • еще раз нажмите кнопку «Редактировать», чтобы завершить процесс;
  • сохраните документ.

На этом редактирование PDF в ABBYY Finereader завершено. Убедитесь, что сохранили файл, чтобы все изменения вступили в силу.

Также текстовые данные можно добавлять в документ через специальный инструмент «Текст» (таким способом можно вносить изменения и в отсканированный документ). Для этого сделайте следующее:

  • откройте PDF-документ в программе;
  • нажмите кнопку «Текст» на панели инструментов;
  • выберите место, куда хотите добавить материал, и щелкните по нему;
  • введите текст в появившийся блок, доступны инструменты для редактирования: шрифт, размер, цвет, жирность, наклон и пр.;
  • щелкните вне блока для завершения процесса;
  • сохраните документ.

Редактирование отсканированных документов

Если PDF-файл не был создан в специальной программе, а представляет собой отсканированный бумажный документ, то вы также можете вносить изменения. Для этого повторите действия, описанные выше. При этом программа будет пытаться оптимизировать текст, если у него искажены буквы или выбрана неправильная ориентация. Учтите, что если документ низкого качества, то изменить текст после сканирования будет проблематично, поскольку будут видны неровности. Поэтому старайтесь использовать качественно отсканированные материалы.

Изменение текста в документе – не единственное, на что способен редактор ABBYY Finereader. Программа также может сканировать печатные материалы и конвертировать их в цифровые, проводить сравнение документов, создавать PDF-файлы с защитой, обрабатывать документы и многое другое. Все это делает данный программный продукт очень полезным и обязательным к приобретению.

Как в файн ридер редактировать текст пдф

Замечание. Устанавливаемые в диалоге Шрифты цвет фона блока и форматирование текста малыми прописными (отображение всех строчных букв в выделенном тексте как прописных букв уменьшенного размера) не отображаются в окне Текст. Вы увидите эти изменения при сохранении документа в формате приложений, поддерживающих указанные типы форматирования текста.

Изменение выравнивания текста

  1. Выделите текст, который необходимо выровнять.
  2. Выполните одну из следующих операций:
    • Нажмите на одну из кнопок , , , на панели Форматирование.
    • Щелкните правой кнопкой мыши в окне Текст и в локальном меню выберите пункт Шрифт. В открывшемся диалоге Шрифт в поле Выравнивание выберите нужный пункт.

Отмена и восстановление действий

Выполните одну из следующих операций:

Как мы научили ABBYY FineReader PDF редактировать целые абзацы

Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.

Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.

Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.

В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!

Форматом PDF пользуются по всему миру: его содержимое одинаково отображается на любых компьютерах, смартфонах и планшетах с разными операционными системами. Это удобно и помогает избежать неловких ситуаций. Например, когда вы написали текст в MS Word, отправили коллегам, а они открывают его LibreOffice’ом или Wordpad’ом, и все поехало и начинается веселье. PDF, конечно, в этом плане удобнее, но с текстом здесь все сложно. В 70% всех существующих PDF-документов текст есть, а в 30% — нет, так как это изображения.

Поговорим сначала о PDF, в которых текст есть. Чтобы редактировать PDF, надо понимать, как в нем записан текст. Открывали когда-нибудь PDF в блокноте? Если да, то вы видели такое:

Чтобы все это отображалось понятно для пользователя, нужно проделать большую работу.

Задача: понять PDF

Содержимое каждой страницы в PDF-файле хранится в виде потоков команд для отрисовки документа – это могут быть текст, изображения или векторная графика. Структуру файла определяют PDF-объекты, например, страница, картинка, комментарий (а абзацы, строчки текста и буквы – это всего лишь части объекта). Символ в PDF представляется глифом . То, как они записаны, определяется шрифтом . Каждый символ хранится отдельно: у него есть шрифт, код символа в шрифте и координаты его расположения на странице. То, где глифы расположены, определяется как раз потоком команд. Кроме того, буквы объединены в потоки текста (text run), но они не смысловые.

В PDF нет ни строк, ни абзацев, которые есть в документах текстовых форматов. Даже порядок текста не всегда определен. То есть вы видите текст, но на самом деле текста не существует. Это хаос из трудно понятных инструкций (как на изображении выше), которые нужно правильно отобразить в конкретных местах документа, с соответствующим форматированием.

«А как же текст?» – спросите вы.

Текст в PDF все же существует, и его даже получится редактировать. Для этого мы учим наши технологии понимать структуру текста, например, определять и выделять строки. Расскажем об этом подробнее.

Библиотеки PDF и как мы их поменяли

Чтобы сделать возможным редактирование целых абзацев, мы сильно поменяли нашу внутреннюю подсистему (библиотеку), которую мы называем PdfTools. Она занимается тем, что открывает PDF-файлы, парсит потоки команд (т.е. понимает, где расположен текст, где картинки, и воссоздает структуру документа) и помогает пользователям оперировать этими данными: прочитать, изменить, сохранить в PDF.

Подсистема PdfTools содержит все необходимые инструменты, чтобы прочитать содержимое и обернуть его в объекты (страница, картинка, комментарий), с которыми удобно работать программе. С этими объектами уже могут работать наши продукты, в частности ABBYY FineReader PDF и другие.

Как было раньше. В FineReader 14 мы умели редактировать текст только в рамках одной строчки. После редактирования необходимо было выполнить «рендеринг» — расставить глифы на свои новые места.

Вообще рендеринг — это визуализация. Но мы вкладываем в это слово иное понятие — расположение объектов в PDF на своих местах. Для PDF-специалистов это и есть визуализация, которую больше никто не видит. Когда мы говорим о визуализации в привычном понимании, то используем слово «растеризация».

Весь этот процесс располагался в подсистеме PdfTools. Она помогала нам собирать содержимое PDF в строчки и редактировать их. Например, надо поставить на 5-ое месте глиф «А». FineReader передавал подсистеме PdfTools, что на пятое место нужно поставить глиф «А» с заданным размером и шрифтом, а PdfTools вставляла «А» и перемещала на нужное место в строчке все глифы, которые следовали за буквой «А». Построчное редактирование довольно легкое: текст просто смещался вправо или, например, влево, если он записан на иврите или арабском языке. Это позволяло внести небольшие корректировки, например, исправить опечатку, но не давало возможность сделать более глобальные изменения в тексте PDF-документа.

Что решили изменить. Когда появилась задача многострочного редактирования, мы поняли, что в рамках одной библиотеки PdfTools это будет проблематично делать. Нам необходимо было научиться автоматически находить в тексте PDF более крупные фрагменты, например, «видеть» абзацы, понимать, где находятся их границы, какое форматирование должно быть у целого фрагмента текста и что происходит при переходе с одной строки на другую. Чтобы определить все эти параметры, мы решили привлечь для решения этой задачи и другие наши OCR-технологии — Document Analysis (DA) и Synthesis, которые умеют строить структуру документа.

Document Analysis и Synthesis

Чтобы определять в тексте блоки, ABBYY FineReader PDF использует технологию Document Analysis. Она позволяет найти абзацы, таблицы, картинки. Программа подсвечивает найденные блоки небольшими бледными рамками, чтобы пользователю удобнее было вносить правки:

Далее мы усовершенствовали другую подсистему нашей программы – Synthesis. Мы уже рассказывали на Хабре, зачем она нужна. Если вкратце, именно она определяет структуру и все характеристики распознанного текста: какие используются шрифты и размеры, какое начертание (bold, italic, underline), где заголовки, списки, отступы и многие другие параметры, которые можно настраивать в том же MS Word. Мы доработали Synthesis для того, чтобы при распознавании и воссоздании страницы очень точно восстанавливать исходные параметры текста.

Особенности подчеркнутого текста

В PDF нет такого атрибута текста как подчеркивание, привычного, например, пользователям MS Word. Подчеркивание в PDF – это векторная графика, никак не связанная с текстом. Без дополнительной доработки продукта при редактировании «подчеркнутого» текста символы бы перемещались привычным образом, а линии, обозначающие подчеркивания, оставались бы на месте. ABBYY FineReader PDF умеет определять и редактировать подчеркнутый текст привычным пользователю образом.

Редактирование таблиц в PDF

Изменилось и редактирование таблиц. Раньше программа «видела» таблицу, как отдельные строки, и редактировала ее так же. Теперь при работе с таблицами ABBYY FineReader PDF определяет содержимое каждой ячейки, умеет извлекать из них текст и работать с ним. Это удобно, когда надо исправить ошибку в цифре, поменять точку на запятую и при этом сохранить структуру таблицы, сделать это быстро и без конвертации PDF-документа в другие форматы.

Как отредактировать скан?

Возможность многострочного редактирования доступна и для сканов. Кстати, пользователю даже не надо задумываться, скан перед ним или нет. ABBYY FineReader PDF сам определит это и запустит нужные механизмы. Например, в дате договора — опечатка, или ФИО контрагента поменялось: оно стало длиннее и должно «перетечь» на следующую строчку.

В программе скан сначала распознается, а потом происходит подготовка к редактированию. Когда скан распознали, то текст получается не в нашем исходном документе, а в его виртуальном «двойнике». И именно в нем происходят все операции по редактированию.

Когда пользователь закончил редактировать документ, программа автоматически собирает все изменения со страницы и заменяет эти фрагменты в исходном документе. Наша задача — встроить текст обратно в PDF-документ, не повредив все то остальное, что уже есть в нем.

Редактирование скана позволяет не тратить время на конвертацию документа в другие форматы и обратно. Это удобно, когда нужно быстро внести забытую правку в дату или другой фрагмент текста.

Пример многострочного редактирования. Текст автоматически перераспределяется по строкам по мере добавления слов и предложений внутри абзаца.

Вместо заключения

Исправить опечатку в листовке, поменять местами текстовые блоки в инструкции, изменить целый абзац в скане договора или добавить несколько новых, поправить форматирование всего текста – все эти задачи теперь возможно решить:

  • быстро,
  • без конвертации документа,
  • с помощью одной программы.

В следующем посте через неделю мы расскажем о том, как научили ABBYY FineReader PDF еще одной интересной фиче и для чего может пригодиться новая функциональность.

Пишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?

  • Блог компании Content AI
  • Обработка изображений
  • PDF
  • Управление продуктом
  • Софт

Редактирование отсканированных документов PDF

Процесс редактирования отсканированного документа PDF может быть сложным, если документ включает текст или изображения низкого качества, нередактируемый текст, разрывы строк или сложное форматирование. Среди других факторов, которые могут замедлять процесс, проблемы с совместимостью, ограничения безопасности и большой размер файлов, чаще встречающийся при создании файлов PDF из отсканированных изображений.

Чтобы оптимизировать процесс, перед редактированием отсканированного документа ознакомьтесь со следующими рекомендациями.

Проверьте точность результатов функции оптического распознавания символов (OCR). Когда открывается отсканированный документ, Acrobat автоматически запускает оптическое распознавание символов в фоновом режиме, чтобы сделать документ редактируемым. Перед редактированием просмотрите документ, чтобы убедиться в точности и полноте содержимого. При необходимости повторно отсканируйте документ с помощью инструмента Сканирование и распознавание > Распознать текст для получения лучшего результата.

Повышение качества изображения. Если отсканированный документ PDF содержит изображения низкого качества, используйте функции Улучшить отсканированный файл или Улучшить изображение с камеры , чтобы повысить качество изображений перед редактированием документа. Дополнительная информация представлена в разделе Сканирование документов в формат PDF.

Применение правильных шрифтов и форматирования. При редактировании документа убедитесь, что шрифт и форматирование изменяемого текста максимально соответствуют исходному документу. Если на компьютере отсутствуют нужные шрифты, см. раздел Добавление шрифтов на компьютер.

Отмена ограничений безопасности. Если отсканированный документ PDF защищен от несанкционированного редактирования, отмените эти ограничения перед началом редактирования документа. Чтобы узнать, как удалить защиту файла PDF, см. Разблокировка документа PDF.

Редактирование сложных элементов только при необходимости. Если отсканированный документ PDF содержит таблицы, диаграммы или изображения, избегайте внесения необязательных правок, которые могут изменить макет или форматирование этих элементов.

Проверка совместимости. Убедитесь, что используемая версия Adobe Acrobat совместима с отсканированным файлом PDF. Если вы столкнулись с проблемами с совместимостью, попробуйте обновить Adobe Acrobat. Чтобы узнать больше, см .Системные требования.

Сохранение резервной копии. Всегда сохраняйте резервную копию отсканированного файла PDF перед внесением изменений. Если в процессе редактирования возникнут проблемы, всегда можно вернуться к исходному документу.

Распознавание текста в отсканированном документе PDF

Можно использовать инструмент «Сканирование и распознавание» для распознавания текста, изменять язык распознавания текста и делать все страницы редактируемыми всего за одно действие. Для этого выполните следующие действия.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *