GroupDocs.Parser for Java

Извлечение данных таблиц из XLSX с использованием Java

Бесшовно определяйте и извлекайте таблицы из форматов, таких как PDF, DOCX и XLSX, с помощью GroupDocs.Parser в ваших рабочих процессах Java.

Скачать Maven

Бесплатная пробная версия

Как извлечь таблицы из Xlsx в Java

Чтобы разобрать таблицы из документов XLSX с использованием GroupDocs.Parser, выполните следующие шаги в вашей среде Java:

Создайте экземпляр Parser и загрузите целевой файл XLSX.
Убедитесь, что файл поддерживает извлечение структурированных таблиц.
Используйте API для извлечения элементов таблицы из документа.
Используйте извлеченные данные в аналитике, отчетности или автоматизированных системах.

Копировать

// Загрузите исходный документ с Parser, который содержит элементы таблицы
try (Parser parser = new Parser("input.xlsx"))
{
    // Убедитесь, что тип документа позволяет распознавание таблиц
    if (!parser.getFeatures().isTables()) {
        System.out.println("Добавьте логику для файлов, которые не поддерживают таблицы");
        return;
    }

    // Определите правила для интерпретации структуры таблицы
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Установите параметры для извлечения таблиц
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Запустите извлечение таблиц из загруженного документа
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Обработайте каждую извлеченную таблицу из результата
    for (PageTableArea t : tables) 
    {
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Нажмите для копирования

Скопировано

Больше примеров Документация

Расширенные инструменты извлечения контента

Помимо чтения таблиц, GroupDocs.Parser поддерживает захват обычного текста, визуальных элементов, встроенной метаданных и структурированных объектов для улучшения задач обработки документов.

Извлечение структурированного контента и табличных данных

Точная разборка таблиц по форматам

Поддержка извлечения таблиц из стандартных типов документов, таких как PDF, Word, Excel и HTML, с высокой точностью.

Чтение табличных структур из разных источников

Извлечение данных таблицы из электронных таблиц, документов и отчетов с сохранением структуры и выравнивания.

Настраиваемые параметры извлечения таблиц

Контролируйте определение структуры, управляйте заголовками и подвалами, и уточняйте извлечение с помощью гибких параметров конфигурации.

Пример: извлечение таблиц из Excel документа

В этом примере показано,

как извлечь и обработать содержимое таблицы в файле Excel (XLSX) с помощью GroupDocs.Parser.

Java

//  Инициализируйте Parser с файлом Excel style=color:#888;font-style:italic>try (Parser parser = new Parser("input.pdf")) { // Выходите, если извлечение таблиц не поддерживается для этого документа style=color:#888;font-style:italic>    if (!parser.getFeatures().isTables()) { return; } // Примените правила для определения разметки таблицы style=color:#888;font-style:italic>    TemplateTableLayout layout = new TemplateTableLayout( java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}), java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0})); // Настройте параметры для извлечения таблицы style=color:#888;font-style:italic>    PageTableAreaOptions options = new PageTableAreaOptions(layout); // Запустите процесс извлечения style=color:#888;font-style:italic>    Iterable<PageTableArea> tables = parser.getTables(options); // Перебирайте все разобранные структуры таблицы style=color:#888;font-style:italic>    for (PageTableArea t : tables) { // Итерируйте по каждой строке внутри таблицы style=color:#888;font-style:italic>        for (int row = 0; row < t.getRowCount(); row++) { // Обработайте каждую ячейку в текущей строке style=color:#888;font-style:italic>            for (int column = 0; column < t.getColumnCount(); column++) { // Получите и прочитайте содержимое текущей ячейки style=color:#888;font-style:italic>                PageTableAreaCell cell = t.getCell(row, column); if (cell != null) { // Выведите текстовое значение каждой ячейки таблицы style=color:#888;font-style:italic>                    System.out.print(cell.getText()); System.out.print(" | "); } } } } }

`Введение в API GroupDocs.Parser for Java`

GroupDocs.Parser — это многофункциональный API для извлечения контента для платформ Java. Он позволяет разработчикам точно анализировать таблицы, текст, графику, ссылки и структурированные данные из PDF, текстовых документов Word, электронных таблиц Excel, презентаций PowerPoint и другого — без необходимости в сторонних плагинах.

Узнать больше

`Готовы начать?`

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Скачать Maven
Бесплатная пробная версия

`Полезные ресурсы`

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.


Документация
Справочник API
Примеры кода
Бесплатная поддержка
Платная поддержка

`Поддерживаемые типы документов для извлечения таблиц`

GroupDocs.Parser обеспечивает надежное определение таблиц для различных типов файлов. Вот список наиболее распространенных форматов документов для извлечения таблиц.

Парсинг PDF(Формат переносимого документа)
Парсинг DOCX(Документ Word 2007+)
Парсинг PPTX(Формат презентации Open XML)
Парсинг TXT(Текстовый файл)
Парсинг RTF(Формат Rich Text)
Парсинг XML(Расширяемый язык разметки)
Парсинг EPUB(Файл открытой электронной книги)

Извлечение данных таблиц из XLSX с использованием Java

Как извлечь таблицы из Xlsx в Java

Расширенные инструменты извлечения контента

Точная разборка таблиц по форматам

Чтение табличных структур из разных источников

Настраиваемые параметры извлечения таблиц

Пример: извлечение таблиц из Excel документа

Java

Введение в API GroupDocs.Parser for Java

Готовы начать?

Полезные ресурсы

Поддерживаемые типы документов для извлечения таблиц

Советы по временной лицензии

`Введение в API GroupDocs.Parser for Java`

`Готовы начать?`

`Полезные ресурсы`

`Поддерживаемые типы документов для извлечения таблиц`

`Советы по временной лицензии`