Как преобразовать файл PDF в текстовый документ в Linux

Как преобразовать файл PDF в текстовый документ в Linux

В отличие от текстового файла, вы не можете редактировать PDF напрямую. Существует несколько способов создания файлов PDF с использованием текста. Но что, если вы хотите пойти другим путем и преобразовать PDF-файлы в текстовые файлы?





К счастью, Linux позволяет вам легко изменять эти файлы из терминала. В этой статье будет продемонстрировано, как преобразовать файл PDF в текстовый документ в Linux.





Преобразование PDF в текст из терминала

Poppler - это программная библиотека, используемая для визуализации и изменения файлов PDF. Он содержит утилиту, известную как pdftotext , что позволяет пользователям создавать текстовые файлы из PDF-файлов. С Poppler-utils не входит в стандартные пакеты Linux, вам придется установить его вручную с помощью диспетчера пакетов.





В Ubuntu и Debian:

какие программы должны запускаться при запуске windows 7
sudo apt install poppler-utils

Чтобы установить Poppler в Arch Linux:



sudo pacman -S poppler

Установка Poppler-utils в CentOS, Fedora и других дистрибутивах на основе RHEL очень просто.

sudo dnf install poppler-utils
sudo yum install poppler-utils

Преобразование всего PDF в текст

Основной синтаксис команды pdftotext:





pdftotext [options] pdffile textfile

...куда pdffile абсолютный или относительный путь к файлу PDF, и текстовый файл это имя выходного файла.

Например, чтобы преобразовать Добро пожаловать в game.pdf в текстовый файл:





pdftotext lorem-ipsum.pdf text.txt

Если файл, который вы конвертируете, содержит водяные знаки или невыровненный текст, вы можете удалить их в выводе, используя -nodiag флаг.

pdftotext -nodiag lorem-ipsum.pdf random.text

Обрабатывать страницы в определенном диапазоне

Использовать -f а также - отметьте, если вы хотите преобразовать страницы, попадающие в определенный диапазон. Например, чтобы преобразовать страницы с первой по пятую в Добро пожаловать в game.pdf печатать:

pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt

Чтобы преобразовать только первую страницу файла PDF:

pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt

Преобразование PDF-файлов, защищенных паролем, в текст

Pdftotext может даже конвертировать PDF-файлы, защищенные паролем, в текстовые файлы. В -upw а также -opw флаги, которые обозначают пользовательский пароль а также пароль владельца соответственно позаботьтесь о процессе аутентификации при преобразовании файлов PDF.

pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

Обязательно замените пароль с паролем файла PDF.

Вы также можете комбинировать несколько флагов, чтобы получить желаемый результат. Например, чтобы преобразовать первую-третью страницы PDF-файла, защищенного паролем, в текст:

pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt

Связанный: Как преобразовать файл PDF в изображения в Linux

Графическое преобразование PDF в текстовый файл

Если работа с командной строкой вам не по душе, вы можете конвертировать PDF-файлы в текстовые файлы с помощью графического программного обеспечения, такого как Caliber. Это приложение для управления электронными книгами, которое можно использовать для просмотра, организации и изменять файлы PDF в вашей системе.

Caliber доступен в официальных репозиториях дистрибутива Linux, и любой может загрузить его с помощью диспетчера пакетов.

Чтобы установить Caliber в Ubuntu и Debian:

sudo apt install calibre

В Arch Linux:

sudo pacman -S calibre

В дистрибутивах на основе RHEL, таких как CentOS и Fedora, вы можете загрузить Caliber с помощью DNF или Yum.

sudo dnf install calibre
sudo yum install calibre

Как использовать Caliber для преобразования файлов PDF

После установки запустите Caliber в вашей системе, используя Меню приложений . Кроме того, вы можете запустить Caliber из терминала, набрав:

calibre

Чтобы сгенерировать текстовые файлы с помощью PDF с помощью Caliber:

  1. Нажать на Добавить книги вариант из меню.
  2. Найдите и выберите PDF-файл, который вы хотите преобразовать.
  3. Выделите PDF-файл на центральной панели и выберите Конвертировать книги из меню.
  4. От Формат вывода раскрывающийся список, выберите текст .
  5. Наконец, нажмите на Ok продолжить.

Caliber начнет преобразование указанного PDF-файла в текстовый документ. Вы можете проверить статус процесса, нажав на Вакансии вариант, расположенный в правом нижнем углу окна.

Работа с PDF-файлами в Linux

Если вы хотите поделиться документом с кем-то, преобразование его в PDF перед отправкой - наиболее эффективный способ. Раньше пользователям приходилось устанавливать специальную программу просмотра PDF-файлов в своей системе для отображения PDF-файлов, но теперь почти каждый браузер поставляется со встроенной программой просмотра PDF-файлов.

Вы можете найти несколько приложений, которые позволяют пользователю легко просматривать и редактировать файлы PDF. Многие установки Linux поставляются с LibreOffice, офисным программным пакетом, который можно использовать в качестве редактора PDF.

Делиться Делиться Твитнуть Эл. адрес 5 лучших редакторов PDF для Linux, которые вам стоит попробовать

Вам нужно отредактировать PDF-файл в Linux? Эти редакторы PDF для Linux бесплатны для установки и просты в использовании.

Читать далее
Похожие темы
  • Linux
  • PDF
  • PDF редактор
  • Linux
Об авторе Дипеш Шарма(Опубликовано 79 статей)

Дипеш - младший редактор Linux в MUO. Он пишет информационные руководства по Linux, стремясь доставить удовольствие всем новичкам. Не уверен насчет фильмов, но если вы хотите поговорить о технологиях, он ваш парень. В свободное время он может читать книги, слушать разные музыкальные жанры или играть на гитаре.

Ещё от Deepesh Sharma

Подписывайтесь на нашу новостную рассылку

Подпишитесь на нашу рассылку технических советов, обзоров, бесплатных электронных книг и эксклюзивных предложений!

Нажмите здесь, чтобы подписаться
Категория Linux