Java API для извлечения таблиц из документов, таких как PDF, Excel, Word, электронные письма и т. д.

GroupDocs.Parser for Java API дает программистам возможность извлекать таблицы из таких документов как PDF, DOCX, PPTX, EML, MSG, XLSX, CSV, ODT, RTF, EPUB и других.


Скачать бесплатную пробную версию

Как извлечь таблицы из популярных форматов файлов документов через Java API?

Таблица представляет собой сетку ячеек, организованных в строки и столбцы, которые можно использовать для эффективного представления данных или информации читателю в визуально привлекательной форме. Таблицы играют очень важную роль в организации данных в документах и ​​имеют множество полезных преимуществ, таких как группировка информации, расположение данных в строках или столбцах, создание списков, организация компоновки целых предложений, размещение изображений в документах, выделение тенденций или закономерностей в данных и т.д. скоро. GroupDocs.Parser for Java API позволяет инженерам и разработчикам программного обеспечения создавать мощные Java-приложения для обработки различных типов документов. Его можно использовать для извлечения таблиц, текста и изображений из некоторых популярных форматов документов, таких как PDF, электронные письма, электронные книги, Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), электронные письма ( EML, MSG) форматы и многие другие. Java API обеспечивает поддержку нескольких важных функций, связанных с управлением таблицами в документах, таких как извлечение всех таблиц или конкретной таблицы из документа, получение таблицы со страницы определенного документа, извлечение данных из ячеек таблицы, получение общего количества строк таблицы и столбцы, получить высоту строки, распечатать данные таблицы и так далее.

Извлечь таблицы из DOT в Java

GroupDocs.Parser for Java позволяет разработчикам Java извлекать таблицы из файла DOT, выполняя несколько простых шагов. .

  • Создать объект Parser для исходного документа;
  • Проверьте, поддерживает ли документ извлечение таблицы;
  • Создайте экземпляры классов PageTableAreaOptions и TemplateTableLayout для задания макета таблиц
  • Вызовите метод getTables и получите коллекцию PageTableArea объектов;

Как извлечь таблицы из файла DOT, используя пример кода Java

// Извлечение таблиц из файла DOT с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(Constants.SampleInvoicePagesPdf)) {
    // Проверьте, поддерживает ли документ извлечение таблицы
    if (!parser.getFeatures().isTables()) {
        System.out.println("Документ не поддерживает извлечение таблиц.");
        return;
    }
    // Создадим раскладку столов
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));
    // Создайте параметры для извлечения таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Извлечение таблиц из документа.
    Iterable<PageTableArea> tables = parser.getTables(options);
    // Итерация по таблицам
    for (PageTableArea t : tables) {
        // Перебирать строки
        for (int row = 0; row < t.getRowCount(); row++) {
            // Итерация по столбцам
            for (int column = 0; column < t.getColumnCount(); column++) {
                // Получить ячейку таблицы
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null) {
                    // Распечатать текст ячейки таблицы
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
            System.out.println();
        }
        System.out.println();
    }
}

Системные Требования

GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: NetBeans, Intellij IDEA, Eclipse, etc.
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for Java из Maven

Зачем использовать GroupDocs.Parser for Java

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Извлечение таблиц из других форматов документов

Java API анализа документов и извлечения таблиц для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

DOTM

(Шаблон Microsoft Word с поддержкой макросов)

DOTX

(Шаблон документа Word Open XML)

EPUB

(Формат файла цифровой электронной книги)

HTML

(Язык гипертекстовой разметки)

MHT

(MIME-инкапсуляция совокупного HTML)

MHTML

(MIME-инкапсуляция совокупного HTML)

ODP

(Формат файла презентации OpenDocument)

ODS

(Открыть электронную таблицу документов)

ODT

(Открыть текст документа)

ONE

(Формат файла Microsoft OneNote)

OTP

(Шаблон графика происхождения)

OTT

(Открыть шаблон документа)

PDF

(Портативный документ)

PPS

(Слайд-шоу Microsoft PowerPoint)

PPSX

(Слайд-шоу PowerPoint Open XML)

PPT

(Презентация PowerPoint)

Back to top
 Русский