GroupDocs.Parser for Java

Извлечение данных таблиц из PDF с использованием Java

Бесшовно определяйте и извлекайте таблицы из форматов, таких как PDF, DOCX и XLSX, с помощью GroupDocs.Parser в ваших рабочих процессах Java.

Скачать Maven

Бесплатная пробная версия

Как извлечь таблицы из Pdf в Java

Чтобы разобрать таблицы из документов PDF с использованием GroupDocs.Parser, выполните следующие шаги в вашей среде Java:

Создайте экземпляр Parser и загрузите целевой файл PDF.
Убедитесь, что файл поддерживает извлечение структурированных таблиц.
Используйте API для извлечения элементов таблицы из документа.
Используйте извлеченные данные в аналитике, отчетности или автоматизированных системах.

Копировать

// Загрузите исходный документ с Parser, который содержит элементы таблицы
try (Parser parser = new Parser("input.pdf"))
{
    // Убедитесь, что тип документа позволяет распознавание таблиц
    if (!parser.getFeatures().isTables()) {
        System.out.println("Добавьте логику для файлов, которые не поддерживают таблицы");
        return;
    }

    // Определите правила для интерпретации структуры таблицы
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Установите параметры для извлечения таблиц
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Запустите извлечение таблиц из загруженного документа
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Обработайте каждую извлеченную таблицу из результата
    for (PageTableArea t : tables) 
    {
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Нажмите для копирования

Скопировано

Больше примеров Документация

Расширенные инструменты извлечения контента

Помимо чтения таблиц, GroupDocs.Parser поддерживает захват обычного текста, визуальных элементов, встроенной метаданных и структурированных объектов для улучшения задач обработки документов.

Извлечение структурированного контента и табличных данных

Точная разборка таблиц по форматам

Поддержка извлечения таблиц из стандартных типов документов, таких как PDF, Word, Excel и HTML, с высокой точностью.

Чтение табличных структур из разных источников

Извлечение данных таблицы из электронных таблиц, документов и отчетов с сохранением структуры и выравнивания.

Настраиваемые параметры извлечения таблиц

Контролируйте определение структуры, управляйте заголовками и подвалами, и уточняйте извлечение с помощью гибких параметров конфигурации.

Пример: извлечение таблиц из Excel документа

В этом примере показано,

как извлечь и обработать содержимое таблицы в файле Excel (XLSX) с помощью GroupDocs.Parser.

Java

//  Инициализируйте Parser с файлом Excel style=color:#888;font-style:italic>try (Parser parser = new Parser("input.pdf")) { // Выходите, если извлечение таблиц не поддерживается для этого документа style=color:#888;font-style:italic>    if (!parser.getFeatures().isTables()) { return; } // Примените правила для определения разметки таблицы style=color:#888;font-style:italic>    TemplateTableLayout layout = new TemplateTableLayout( java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}), java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0})); // Настройте параметры для извлечения таблицы style=color:#888;font-style:italic>    PageTableAreaOptions options = new PageTableAreaOptions(layout); // Запустите процесс извлечения style=color:#888;font-style:italic>    Iterable<PageTableArea> tables = parser.getTables(options); // Перебирайте все разобранные структуры таблицы style=color:#888;font-style:italic>    for (PageTableArea t : tables) { // Итерируйте по каждой строке внутри таблицы style=color:#888;font-style:italic>        for (int row = 0; row < t.getRowCount(); row++) { // Обработайте каждую ячейку в текущей строке style=color:#888;font-style:italic>            for (int column = 0; column < t.getColumnCount(); column++) { // Получите и прочитайте содержимое текущей ячейки style=color:#888;font-style:italic>                PageTableAreaCell cell = t.getCell(row, column); if (cell != null) { // Выведите текстовое значение каждой ячейки таблицы style=color:#888;font-style:italic>                    System.out.print(cell.getText()); System.out.print(" | "); } } } } }

`Введение в API GroupDocs.Parser for Java`

GroupDocs.Parser — это многофункциональный API для извлечения контента для платформ Java. Он позволяет разработчикам точно анализировать таблицы, текст, графику, ссылки и структурированные данные из PDF, текстовых документов Word, электронных таблиц Excel, презентаций PowerPoint и другого — без необходимости в сторонних плагинах.

Узнать больше

`Готовы начать?`

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Скачать Maven
Бесплатная пробная версия

`Полезные ресурсы`

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.


Документация
Справочник API
Примеры кода
Бесплатная поддержка
Платная поддержка

`Поддерживаемые типы документов для извлечения таблиц`

GroupDocs.Parser обеспечивает надежное определение таблиц для различных типов файлов. Вот список наиболее распространенных форматов документов для извлечения таблиц.

Парсинг DOCX(Документ Word 2007+)
Парсинг PPTX(Формат презентации Open XML)
Парсинг XLSX(Рабочая книга Open XML)
Парсинг TXT(Текстовый файл)
Парсинг RTF(Формат Rich Text)
Парсинг XML(Расширяемый язык разметки)
Парсинг EPUB(Файл открытой электронной книги)

Извлечение данных таблиц из PDF с использованием Java

Как извлечь таблицы из Pdf в Java

Расширенные инструменты извлечения контента

Точная разборка таблиц по форматам

Чтение табличных структур из разных источников

Настраиваемые параметры извлечения таблиц

Пример: извлечение таблиц из Excel документа

Java

Введение в API GroupDocs.Parser for Java

Готовы начать?

Полезные ресурсы

Поддерживаемые типы документов для извлечения таблиц

Советы по временной лицензии

`Введение в API GroupDocs.Parser for Java`

`Готовы начать?`

`Полезные ресурсы`

`Поддерживаемые типы документов для извлечения таблиц`

`Советы по временной лицензии`