GroupDocs.Parser for Java

Извлечение данных таблиц из PDF с использованием Java

Бесшовно определяйте и извлекайте таблицы из форматов, таких как PDF, DOCX и XLSX, с помощью GroupDocs.Parser в ваших рабочих процессах Java.

Как извлечь таблицы из Pdf в Java

Чтобы разобрать таблицы из документов PDF с использованием GroupDocs.Parser, выполните следующие шаги в вашей среде Java:

  1. Создайте экземпляр Parser и загрузите целевой файл PDF.
  2. Убедитесь, что файл поддерживает извлечение структурированных таблиц.
  3. Используйте API для извлечения элементов таблицы из документа.
  4. Используйте извлеченные данные в аналитике, отчетности или автоматизированных системах.
// Загрузите исходный документ с Parser, который содержит элементы таблицы
try (Parser parser = new Parser("input.pdf"))
{
    // Убедитесь, что тип документа позволяет распознавание таблиц
    if (!parser.getFeatures().isTables()) {
        System.out.println("Добавьте логику для файлов, которые не поддерживают таблицы");
        return;
    }

    // Определите правила для интерпретации структуры таблицы
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Установите параметры для извлечения таблиц
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Запустите извлечение таблиц из загруженного документа
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Обработайте каждую извлеченную таблицу из результата
    for (PageTableArea t : tables) 
    {
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Нажмите для копирования
Скопировано
Больше примеров Документация

Расширенные инструменты извлечения контента

Помимо чтения таблиц, GroupDocs.Parser поддерживает захват обычного текста, визуальных элементов, встроенной метаданных и структурированных объектов для улучшения задач обработки документов.

Извлечение структурированного контента и табличных данных

Точная разборка таблиц по форматам

Поддержка извлечения таблиц из стандартных типов документов, таких как PDF, Word, Excel и HTML, с высокой точностью.

Чтение табличных структур из разных источников

Извлечение данных таблицы из электронных таблиц, документов и отчетов с сохранением структуры и выравнивания.

Настраиваемые параметры извлечения таблиц

Контролируйте определение структуры, управляйте заголовками и подвалами, и уточняйте извлечение с помощью гибких параметров конфигурации.

Пример: извлечение таблиц из Excel документа

В этом примере показано, как извлечь и обработать содержимое таблицы в файле Excel (XLSX) с помощью GroupDocs.Parser.

Java

//  Инициализируйте Parser с файлом Excel
try (Parser parser = new Parser("input.pdf"))
{
    // Выходите, если извлечение таблиц не поддерживается для этого документа
    if (!parser.getFeatures().isTables())
    {
        return;
    }

    // Примените правила для определения разметки таблицы
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Настройте параметры для извлечения таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Запустите процесс извлечения
    Iterable<PageTableArea> tables = parser.getTables(options);

    // Перебирайте все разобранные структуры таблицы
    for (PageTableArea t : tables)
    {
        // Итерируйте по каждой строке внутри таблицы
        for (int row = 0; row < t.getRowCount(); row++)
        {
            // Обработайте каждую ячейку в текущей строке
            for (int column = 0; column < t.getColumnCount(); column++) 
            {
                // Получите и прочитайте содержимое текущей ячейки
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null)
                {
                    // Выведите текстовое значение каждой ячейки таблицы
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
        }
    }
}

Введение в API GroupDocs.Parser for Java

GroupDocs.Parser — это многофункциональный API для извлечения контента для платформ Java. Он позволяет разработчикам точно анализировать таблицы, текст, графику, ссылки и структурированные данные из PDF, текстовых документов Word, электронных таблиц Excel, презентаций PowerPoint и другого — без необходимости в сторонних плагинах.
Узнать больше
About illustration

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые типы документов для извлечения таблиц

GroupDocs.Parser обеспечивает надежное определение таблиц для различных типов файлов. Вот список наиболее распространенных форматов документов для извлечения таблиц.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский