Как убрать пробелы при копировании из пдф
Перейти к содержимому

Как убрать пробелы при копировании из пдф

  • автор:

Вытащить текст из PDF с невидимыми лишними пробелами

Имеется PDF, при копировании/извлечении текста он получается с многочисленными лишними пробелами в словах. Есть что-нибудь готовое для решения задачи? Логика вроде бы проста: если координата whitespace-символа совпадает с координатой другого символа, также попавшего в selection, символ следует выкинуть.

shatsky ★★
10.07.17 01:25:05 MSK
cnupm ★
( 10.07.17 01:27:24 MSK )

На крайний случай есть OCR.

Sadler ★★★
( 10.07.17 09:00:30 MSK )
Ответ на: комментарий от cnupm 10.07.17 01:27:24 MSK

echo «м а м а м ы л а р а м у» | sed . .

что именно там надо написать?

Rastafarra ★★★★
( 10.07.17 10:14:32 MSK )

странно, как именно ты копируешь/извлекаешь текст?

Rastafarra ★★★★
( 10.07.17 10:15:18 MSK )
Ответ на: комментарий от Rastafarra 10.07.17 10:15:18 MSK

Siado ★★★★★
( 10.07.17 11:08:16 MSK )

С этим говном нормально справляться только через OCR, увы.

hungry_ewok
( 10.07.17 12:32:40 MSK )
Ответ на: комментарий от cnupm 10.07.17 01:27:24 MSK

Внезапно, pdftotext извлекает все правильно, даже переносы слов убирает. Спасибо

shatsky ★★
( 10.07.17 12:50:19 MSK ) автор топика
Ответ на: комментарий от Rastafarra 10.07.17 10:15:18 MSK

Ctrl+C, например. Проблема в том, что в тексте действительно есть эти пробелы. Не знаю, как посмотреть внутренности PDF, там PostScript-подобный язык, но если конвертировать в SVG — в содержимом tspan’ов эти лишние пробелы есть, а их координаты совпадают с координатами символов перед ними.

shatsky ★★
( 10.07.17 12:59:08 MSK ) автор топика

poppler-utils is a collection of tools builds on poppler library API, to manage PDF and extract contents. pdfdetach extract embedded documents from a PDF pdffonts lists the fonts used in a PDF pdfimages extract all embedded images at native resolution from a PDF pdfinfo list all infos of a PDF pdfseparate extract single pages from a PDF pdftocairo convert single pages from a PDF to vector or bitmap formats using cairo pdftohtml convert PDF to HTML format retaining formatting pdftoppm convert a PDF page to a bitmap pdftops convert PDF to printable PS format pdftotext extract all text from PDF pdfunite merges several PDF

pacify ★★★★★
( 10.07.17 13:20:00 MSK )
Ответ на: комментарий от shatsky 10.07.17 12:59:08 MSK

Кстати, можно же конвертировать в SVG, почистить tspan’ы и конвертировать обратно в PDF.

Как убрать пробелы при копировании из пдф

Добрый день!
заранее прошу прощения, если не туда разместил тему.
Описываю ситуацию:
Сохраняю лист в формат PDF кнопкой через ExportAsFixedFormat xlTypePDF.
Открываю сгенерированный PDF файл, руками копирую из ячеек информацию и вставляю в любой текстовый редактор. Некоторые ячейки вставляются без пробелов одной строкой.
Не могу понять с чем это связано. Сравнивал ячейки в Excel, которые вставляются с пробелами и без пробелов — содержимое одинаковое. Например, две ячейки, которые ссылаются на другой лист на ячейку текстового формата, копируются из сгенерированного PDF по-разному.
Вопрос:
Кто-нибудь сталкивался с подобным и с чем может это быть связано?
MS Excel 2010
Adobe Reader XI

Спасибо!
[moder]Файлы с примерами помогли бы лучше понять проблему[/moder]

Добрый день!
заранее прошу прощения, если не туда разместил тему.
Описываю ситуацию:
Сохраняю лист в формат PDF кнопкой через ExportAsFixedFormat xlTypePDF.
Открываю сгенерированный PDF файл, руками копирую из ячеек информацию и вставляю в любой текстовый редактор. Некоторые ячейки вставляются без пробелов одной строкой.
Не могу понять с чем это связано. Сравнивал ячейки в Excel, которые вставляются с пробелами и без пробелов — содержимое одинаковое. Например, две ячейки, которые ссылаются на другой лист на ячейку текстового формата, копируются из сгенерированного PDF по-разному.
Вопрос:
Кто-нибудь сталкивался с подобным и с чем может это быть связано?
MS Excel 2010
Adobe Reader XI

Спасибо!
[moder]Файлы с примерами помогли бы лучше понять проблему[/moder] rvshestakov

Сообщение Добрый день!
заранее прошу прощения, если не туда разместил тему.
Описываю ситуацию:
Сохраняю лист в формат PDF кнопкой через ExportAsFixedFormat xlTypePDF.
Открываю сгенерированный PDF файл, руками копирую из ячеек информацию и вставляю в любой текстовый редактор. Некоторые ячейки вставляются без пробелов одной строкой.
Не могу понять с чем это связано. Сравнивал ячейки в Excel, которые вставляются с пробелами и без пробелов — содержимое одинаковое. Например, две ячейки, которые ссылаются на другой лист на ячейку текстового формата, копируются из сгенерированного PDF по-разному.
Вопрос:
Кто-нибудь сталкивался с подобным и с чем может это быть связано?
MS Excel 2010
Adobe Reader XI

Спасибо!
[moder]Файлы с примерами помогли бы лучше понять проблему[/moder] Автор — rvshestakov
Дата добавления — 17.12.2014 в 07:18

Управление форматированием при вставке текста

В Word можно выбрать вставку текста с помощью форматирования исходного, целевого или просто чистого текста. Если вы всегда хотите использовать один из параметров, задайте его по умолчанию для вставленного текста.

Настройка параметров вставки по умолчанию

По умолчанию Word сохраняет исходное форматирование при вставле содержимого в документ с помощью клавиш CTRL+V, кнопки Вставить или щелкните правой кнопкой мыши + Вставить. Чтобы изменить значение по умолчанию, выполните следующие действия.

Параметры копирования — вставка в Word

  1. Откройте меню Файл, выберите раздел Параметры, а затем — Дополнительно.
  2. В разделе Вырезать, скопировать и вставить выберите стрелку вниз, чтобы изменить параметр.
  3. Вставка в пределах одного документа. При вставе содержимого в тот же документ, из которого вы скопировали содержимое.
  4. Вставка в другой документ. При вставку содержимого, скопированного из другого документа Word.
  5. Вставка в другой документ при конфликте определений стилей. При вставке содержимого, скопированного из другого документа Word, и стиль, назначенный скопированному тексту, определяется по-разному в документе, в который вставляется текст.
  6. Вставка из других программ При вставку содержимого, скопированного из другой программы, например из браузера.

Изменение параметров при вставки содержимого

При копировании содержимого из форматированного источника, например веб-страницы или другого документа Word, можно выбрать параметры при вставле его в документ.

Кнопка

  1. Щелкните или коснитесь места, куда нужно вставить содержимое.
  2. Нажмите клавиши CTRL+V, а затем выберите Параметры вставки

Вставьте раскрывающийся список с наведенным курсором на текст

.
Наведите указатель мыши на кнопки для динамической проверки.

Включение кнопки «Параметры вставки»

Кнопка Параметры вставки

Кнопка

позволяет выбрать параметры форматирования и включена по умолчанию. Если вы ее не видите, вероятно, она отключена. Выполните эти действия, чтобы ее включить:

  1. Откройте меню Файл, выберите раздел Параметры, а затем — Дополнительно.
  2. В разделе Вырезать, копировать и вставить нажмите кнопку Показать параметры вставки при вставке содержимого.
  3. Нажмите кнопку ОК.

Если параметр включен, но кнопка не отображается при вставлении, убедитесь, что вы вставили форматированный контент, а не чистый текст (например, из Блокнота).

Получить нужный внешний вид

Когда вы копируете текст из документа Word, веб-страницы или документа другого приложения и вставляете его в документ Word, вы можете выбрать способ форматирования текста. Вы можете сохранить исходное форматирование, объединить с целевым форматированием или вставить простой текст.

  • Сохранение исходного форматирования (K) Этот параметр сохраняет форматирование, примененное к скопированному тексту. Все определения стилей, связанные со скопированным текстом, копируются в целевой документ.
  • Форматирование слиянием (M) Этот параметр отменяет большинство параметров форматирования, примененных непосредственно к скопированному тексту, но сохраняет параметры форматирования, которые используются для выделения, например полужирное и курсивное начертание, если эти параметры применены только к части выделенного текста. К тексту применяются характеристики стиля абзаца, в который этот текст был вставлен. К вставляемому тексту также применяются непосредственное форматирование или свойства стиля знаков текста, находящегося прямо перед ним.
  • Рисунок (U)Этот параметр доступен только в Microsoft 365 подписке. Преобразует текст в изображение и вставляет его. Текст нельзя изменить, но вы можете обрабатывать его как любой другой рисунок или изображение и использовать эффекты, границы или поворот. Если этот параметр выбран, выберите параметры на вкладке Формат рисунка .
  • Сохранить только текст (T) При установке этого параметра отменяются все параметры форматирования и удаляются все нетекстовые элементы, например рисунки и таблицы. К тексту применяются характеристики стиля абзаца, в который он вставляется, и непосредственное форматирование или свойства стиля знаков текста, находящегося прямо перед ним. Графические элементы удаляются, а таблицы преобразуются в последовательность абзацев.

Вставка элементов из маркированных и нумерованных списков

При вставке элементов из маркированного или нумерованного списка в другой список можно сохранить их исходное форматирование или последовательность или смешать с нумеровкой или маркерами целевого списка.

Вставка нумерованных элементов для продолжения последовательности Выберите Продолжить список (C), чтобы вставленные элементы оставались в списке последовательно.

Сохранение исходной последовательности для нумерованных элементов Выберите Новый список (N), чтобы вставленные элементы сохраняли исходную последовательность списка.

Вставка маркированных элементов в нумерованный список Чтобы сохранить маркеры, выберите Сохранить исходное форматирование (K). Чтобы преобразовать маркеры в числа, выберите Объединить форматирование (M).

Вставка нумерованных элементов в маркированный список Чтобы сохранить исходные номера, выберите Не объединять список (D) . Чтобы преобразовать числа в маркеры, выберите Объединить список (M).

Вставка списков только для текста По умолчанию маркеры и числа сохраняются только при вставки текста. Чтобы отключить это поведение, выполните следующие действия:

  1. Откройте меню Файл, выберите раздел Параметры, а затем — Дополнительно.
  2. Снимите флажок Сохранить маркеры и цифры при вставлении текста с параметром Сохранить только текст.
  3. Нажмите кнопку ОК.

Учитывать пробелы при вырезании и вставке.

Интеллектуальный вырез и вставка позволяет приложению автоматически настраивать формат вставленного содержимого в соответствии с форматом целевого документа.

  • Использовать для. Щелкните элемент в списке, чтобы выбрать предустановленные параметры. Чтобы задать собственные параметры настройки, выберите значение Нестандартные. Если вы не знаете, что использовать, выберите Word 2002 –2010.
  • Исправлять интервалы между предложениями и словами. Если этот флажок установлен, то при удалении текста лишние пробелы будут удаляться, а при вставке текста из буфера обмена будут добавляться необходимые пробелы.
  • Исправлять интервалы между абзацами при вставке. Если этот флажок установлен, пустые абзацы не создаются, а интервалы между абзацами выравниваются.
  • Исправлять форматирование и выравнивание таблиц при вставке. Этот параметр контролирует форматирование и выравнивание таблиц. Если этот флажок установлен, отдельные ячейки вставляются как текст, части таблиц вставляются как строки в существующую таблицу (вложенная таблица не создается), а при вставке таблицы в существующую таблицу вставляемая таблица форматируется в соответствии с существующей.
  • Разумное поведение стилей. При установке этого флажка ничего не происходит. Для точной настройки поведения стилей при вставке содержимого задайте параметры в группе Вставка раздела Вырезание, копирование и вставка в категории Дополнительно.
  • Объединять форматирование при вставке из Microsoft PowerPoint. Этот параметр контролирует результаты при вставке содержимого из презентации PowerPoint. Если этот флажок установлен, к вставленному тексту применяется форматирование окружающего текста или таблицы, к вставленному списку применяется последний использовавшийся стиль маркеров, нумерации или списка, а внешний вид таких элементов, как таблицы, гиперссылки, изображения, объекты OLE и фигуры, остается таким же, как в PowerPoint.
  • Исправлять форматирование при вставке из Microsoft Excel. Этот параметр контролирует результаты при вставке данных из Excel. Если этот флажок установлен, вставленные данные помещаются в таблицу, а диаграммы вставляются как изображения, а не как объекты OLE.
  • Объединять вставленные и окружающие списки. Если этот флажок установлен, то элементы, вставляемые в список, будут приводиться в соответствие с элементами окружающего списка.

Копирование содержимого из документов PDF

Можно с легкостью скопировать содержимое файла PDF, если автор документа не применил настройки защиты, запрещающие возможность копирования. Если требуется скопировать большое количество информации из файла PDF, можно легко экспортировать документ PDF в формат Word, Excel или PowerPoint.

Копирование текста и изображений из документов PDF

Убедитесь, что копирование содержимого разрешено

Нажмите правой кнопкой мыши на документ и выберите Свойства документа.
Нажмите вкладку Защита и просмотрите пункт Сводка по ограничениям документа.

Копирование определенного содержимого из документа PDF

Правой кнопкой мыши нажмите на документ и выберите Выбрать инструмент из всплывающего меню.
Перетащите для выделения текста или нажмите для выделения изображения.
Правой кнопкой мыши нажмите на выделенный элемент и нажмите Копировать.

Копирование документа PDF полностью (только для приложения Windows® Acrobat Reader, недоступно для браузера)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *