GroupDocs.Parser for Java

Извлечение данных из документов RTF в Java

Беспрепятственно извлекайте структурированное содержание, такое как текст, метаданные, таблицы и графику из PDF, Word, Excel и документов на основе изображений, используя GroupDocs.Parser в ваших приложениях Java.

Скачать Maven

Бесплатная пробная версия

Как извлечь данные из Rtf с помощью Java

Чтобы извлечь полезную информацию из документов RTF в ваших проектах Java с использованием GroupDocs.Parser, выполните следующие шаги:

Откройте файл RTF с помощью объекта Parser.
Используйте парсер для извлечения необходимых данных (текст, таблицы, метаданные и т.д.).
Убедитесь, что вывод правильный и полный.
Интегрируйте разобранное содержание в ваши рабочие процессы данных, бизнес-процессы или приложения.

Копировать

// Инициализируйте ваш Parser с входным документом
try (Parser parser = new Parser("input.rtf"))
{
    // Извлеките все доступные текстовые данные из документа
    try (TextReader reader = parser.getText())
    {
        // Если текст не найден, возвращаемое значение будет null
        // Включите извлечённое содержание в ваше решение
        System.out.println(reader == null ? 
            "Этот формат может не поддерживать извлечение текста" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Нажмите для копирования

Скопировано

Больше примеров Документация

Универсальные функции разбора документов

GroupDocs.Parser делает больше, чем просто извлечение текста — он поддерживает полный разбор штрих-кодов, метаданных, изображений, таблиц и других данных для создания интеллектуальной автоматизации и приложений, основанных на данных.

Визуальный обзор разбора и извлечения данных из документов

Извлечение из нескольких форматов файлов

Доступ к данным, таким как текст, таблицы и медиа, из широко используемых типов файлов, таких как PDF, Word, Excel, PowerPoint, HTML и других.

Разбор содержания из цифровых и отсканированных источников

Обработка содержания как из нативных цифровых файлов, так и отсканированных изображений с использованием OCR, когда это необходимо для интерпретации встроенного текста.

Гибкие параметры конфигурации

Настраивайте ваш разбор с помощью настроек выбора страниц, зон макета и пользовательских шаблонов полей для удовлетворения специфических потребностей извлечения.

Разбор PDF с использованием шаблона извлечения данных

Этот пример демонстрирует, как извлечь структурированные поля из PDF с использованием пользовательского шаблона через GroupDocs.Parser.

Java

//  Откройте PDF с помощью класса Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Примените шаблон разбора для извлечения определенных данных
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Проверьте, доступен ли разбор, основанный на шаблонах
    if (data == null) {
        return;
    }

    // Работайте с извлечёнными полями данных
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Определите настройки детектора для извлечения раздела 'Детали'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

Что такое GroupDocs.Parser for Java?

GroupDocs.Parser — это мощное API, созданное для разработчиков Java, предлагающее функции расширенного разбора документов. Оно позволяет извлекать и обрабатывать текстовые данные, изображения, таблицы, структурированные поля и штрих-коды из множества форматов, таких как PDF, DOCX, XLSX, PPTX и других — всё это без установки дополнительных библиотек.

Узнать больше

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Скачать Maven

Бесплатная пробная версия

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые форматы файлов для извлечения содержания

GroupDocs.Parser совместимо с широким спектром форматов файлов документов и изображений, что упрощает извлечение информации из часто используемых форматов в сценариях разбора и автоматизации данных.

Парсинг PDF
(Формат переносимого документа)
Парсинг DOCX
(Документ Word 2007+)
Парсинг PPTX
(Формат презентации Open XML)
Парсинг XLSX
(Рабочая книга Open XML)
Парсинг TXT
(Текстовый файл)
Парсинг XML
(Расширяемый язык разметки)
Парсинг EPUB
(Файл открытой электронной книги)