GroupDocs.Parser for Java

Извлечение данных из документов RTF в Java

Беспрепятственно извлекайте структурированное содержание, такое как текст, метаданные, таблицы и графику из PDF, Word, Excel и документов на основе изображений, используя GroupDocs.Parser в ваших приложениях Java.

Как извлечь данные из Rtf с помощью Java

Чтобы извлечь полезную информацию из документов RTF в ваших проектах Java с использованием GroupDocs.Parser, выполните следующие шаги:

  1. Откройте файл RTF с помощью объекта Parser.
  2. Используйте парсер для извлечения необходимых данных (текст, таблицы, метаданные и т.д.).
  3. Убедитесь, что вывод правильный и полный.
  4. Интегрируйте разобранное содержание в ваши рабочие процессы данных, бизнес-процессы или приложения.
// Инициализируйте ваш Parser с входным документом
try (Parser parser = new Parser("input.rtf"))
{
    // Извлеките все доступные текстовые данные из документа
    try (TextReader reader = parser.getText())
    {
        // Если текст не найден, возвращаемое значение будет null
        // Включите извлечённое содержание в ваше решение
        System.out.println(reader == null ? 
            "Этот формат может не поддерживать извлечение текста" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Нажмите для копирования
Скопировано
Больше примеров Документация

Универсальные функции разбора документов

GroupDocs.Parser делает больше, чем просто извлечение текста — он поддерживает полный разбор штрих-кодов, метаданных, изображений, таблиц и других данных для создания интеллектуальной автоматизации и приложений, основанных на данных.

Визуальный обзор разбора и извлечения данных из документов

Извлечение из нескольких форматов файлов

Доступ к данным, таким как текст, таблицы и медиа, из широко используемых типов файлов, таких как PDF, Word, Excel, PowerPoint, HTML и других.

Разбор содержания из цифровых и отсканированных источников

Обработка содержания как из нативных цифровых файлов, так и отсканированных изображений с использованием OCR, когда это необходимо для интерпретации встроенного текста.

Гибкие параметры конфигурации

Настраивайте ваш разбор с помощью настроек выбора страниц, зон макета и пользовательских шаблонов полей для удовлетворения специфических потребностей извлечения.

Разбор PDF с использованием шаблона извлечения данных

Этот пример демонстрирует, как извлечь структурированные поля из PDF с использованием пользовательского шаблона через GroupDocs.Parser.

Java

//  Откройте PDF с помощью класса Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Примените шаблон разбора для извлечения определенных данных
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Проверьте, доступен ли разбор, основанный на шаблонах
    if (data == null) {
        return;
    }

    // Работайте с извлечёнными полями данных
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Определите настройки детектора для извлечения раздела 'Детали'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

Что такое GroupDocs.Parser for Java?

GroupDocs.Parser — это мощное API, созданное для разработчиков Java, предлагающее функции расширенного разбора документов. Оно позволяет извлекать и обрабатывать текстовые данные, изображения, таблицы, структурированные поля и штрих-коды из множества форматов, таких как PDF, DOCX, XLSX, PPTX и других — всё это без установки дополнительных библиотек.
Узнать больше
About illustration

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые форматы файлов для извлечения содержания

GroupDocs.Parser совместимо с широким спектром форматов файлов документов и изображений, что упрощает извлечение информации из часто используемых форматов в сценариях разбора и автоматизации данных.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский