Извлечение текста из документов в Java

Извлекайте текст из документов с помощью нескольких строк кода Java.


Скачать бесплатную пробную версию

Как извлечь текст из файлов Java API?

GroupDocs.Parser for Java — это API для извлечения текста, изображений и метаданных, поддерживающий более 50 популярных типов документов, помогающий создавать бизнес-приложения с функциями парсинга необработанных данных. , структурированный и форматированный текст. Он также поддерживает анализ документов с использованием предопределенных шаблонов и позволяет быстро и точно извлекать сложные данные из счетов-фактур и других типичных документов. GroupDocs.Parser для Java позволяет извлекать текст и метаданные из защищенных паролем файлов всех популярных форматов, включая документы обработки текста, электронные таблицы Excel, презентации PowerPoint, файлы OneNote, PDF и ZIP-архивы.

GroupDocs.Parser API — правильный выбор для корпоративных решений, которым требуется функция извлечения текста из файлов. Эти API хорошо поддерживаются во всех основных операционных системах и платформах, включая Java runtime: J2SE 6.0 and above.

Извлечение текста из документов в Java

GroupDocs.Parser for Java позволяет разработчикам Java легко извлекать текст из документов, выполняя несколько простых шагов.

  • Создать объект Parser для исходного документа;
  • Вызовите метод getText и получите TextReader объект;
  • Проверить, не является ли ридер null (поддерживается извлечение текста для документа);
  • Прочитайте текст от читателя.

Как извлечь текст из документов, используя пример кода Java

// Извлечение текста из документов с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(filePath)) {
    // Извлечь текст в ридер
    try (TextReader reader = parser.getText()) {
        // Распечатать текст из документа
        // Если извлечение текста не поддерживается, средство чтения недействительно.
        System.out.println(reader == null ? "Извлечение текста не поддерживается" : reader.readToEnd());
    }
}

Системные Требования

GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: NetBeans, Intellij IDEA, Eclipse, etc.
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for Java из Maven

Зачем использовать GroupDocs.Parser for Java

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Живые демонстрации - извлечение текста из документов онлайн

Извлекайте текст из документов прямо сейчас, посетив веб-сайт GroupDocs.Parser Live Demos. Живая демонстрация имеет следующие преимущества.

Нет необходимости скачивать API

Нет необходимости писать код

Просто загрузите исходный файл

Скачать результирующий файл

Извлечение текста из других форматов документов

Java API анализа документов и извлечения текста для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

DOC

(Документ Microsoft Word)

DOCM

(Документ Microsoft Word с поддержкой макросов)

DOCX

(Документ Microsoft Word с открытым XML)

DOT

(Шаблон документа Microsoft Word)

DOTM

(Шаблон Microsoft Word с поддержкой макросов)

DOTX

(Шаблон документа Word Open XML)

EPUB

(Формат файла цифровой электронной книги)

HTML

(Язык гипертекстовой разметки)

MHT

(MIME-инкапсуляция совокупного HTML)

MHTML

(MIME-инкапсуляция совокупного HTML)

ODP

(Формат файла презентации OpenDocument)

ODS

(Открыть электронную таблицу документов)

ODT

(Открыть текст документа)

ONE

(Формат файла Microsoft OneNote)

OTP

(Шаблон графика происхождения)

OTT

(Открыть шаблон документа)

PDF

(Портативный документ)

Back to top
 Русский