Как извлечь таблицы из популярных форматов файлов документов через Java API?

Таблица представляет собой сетку ячеек, организованных в строки и столбцы, которые можно использовать для эффективного представления данных или информации читателю в визуально привлекательной форме. Таблицы играют очень важную роль в организации данных в документах и имеют множество полезных преимуществ, таких как группировка информации, расположение данных в строках или столбцах, создание списков, организация компоновки целых предложений, размещение изображений в документах, выделение тенденций или закономерностей в данных и т.д. скоро. GroupDocs.Parser for Java API позволяет инженерам и разработчикам программного обеспечения создавать мощные Java-приложения для обработки различных типов документов. Его можно использовать для извлечения таблиц, текста и изображений из некоторых популярных форматов документов, таких как PDF, электронные письма, электронные книги, Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), электронные письма ( EML, MSG) форматы и многие другие. Java API обеспечивает поддержку нескольких важных функций, связанных с управлением таблицами в документах, таких как извлечение всех таблиц или конкретной таблицы из документа, получение таблицы со страницы определенного документа, извлечение данных из ячеек таблицы, получение общего количества строк таблицы и столбцы, получить высоту строки, распечатать данные таблицы и так далее.

Извлечь таблицы из DOT в Java

GroupDocs.Parser for Java позволяет разработчикам Java извлекать таблицы из файла DOT, выполняя несколько простых шагов. .

Создать объект Parser для исходного документа;
Проверьте, поддерживает ли документ извлечение таблицы;
Создайте экземпляры классов PageTableAreaOptions и TemplateTableLayout для задания макета таблиц
Вызовите метод getTables и получите коллекцию PageTableArea объектов;

Узнать больше про извлечение таблиц

Как извлечь таблицы из файла DOT, используя пример кода Java

// Извлечение таблиц из файла DOT с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(Constants.SampleInvoicePagesPdf)) {
    // Проверьте, поддерживает ли документ извлечение таблицы
    if (!parser.getFeatures().isTables()) {
        System.out.println("Документ не поддерживает извлечение таблиц.");
        return;
    }
    // Создадим раскладку столов
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));
    // Создайте параметры для извлечения таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Извлечение таблиц из документа.
    Iterable<PageTableArea> tables = parser.getTables(options);
    // Итерация по таблицам
    for (PageTableArea t : tables) {
        // Перебирать строки
        for (int row = 0; row < t.getRowCount(); row++) {
            // Итерация по столбцам
            for (int column = 0; column < t.getColumnCount(); column++) {
                // Получить ячейку таблицы
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null) {
                    // Распечатать текст ячейки таблицы
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
            System.out.println();
        }
        System.out.println();
    }
}

Системные Требования

GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

Операционные системы: Microsoft Windows, Linux, MacOS
Среды разработки: NetBeans, Intellij IDEA, Eclipse, etc.
Фреймворки
Загрузите последнюю версию GroupDocs.Parser for Java из Maven

Зачем использовать GroupDocs.Parser for Java

Поддержка извлечения простого текста из любых поддерживаемых документов
Парсинг документов по пользовательским шаблонам
Полная поддержка извлечения структурированного текста
Текстовый поиск по ключевому слову и регулярному выражению
Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
Извлечение оглавления для некоторых поддерживаемых форматов документов
Парсинг данных форм из PDF-документов
Извлечение гиперссылок из документа

Извлечение таблиц из других форматов документов

Java API анализа документов и извлечения таблиц для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

DOTM

(Шаблон Microsoft Word с поддержкой макросов)

DOTX

(Шаблон документа Word Open XML)

EPUB

(Формат файла цифровой электронной книги)

HTML

(Язык гипертекстовой разметки)

MHT

(MIME-инкапсуляция совокупного HTML)

MHTML

(MIME-инкапсуляция совокупного HTML)