Java API для извлечения таблиц из документов, таких как PDF, Excel, Word, электронные письма и т. д.

GroupDocs.Parser for Java API дает программистам возможность извлекать таблицы из таких документов как PDF, DOCX, PPTX, EML, MSG, XLSX, CSV, ODT, RTF, EPUB и других.


Скачать бесплатную пробную версию

Как извлечь таблицы из популярных форматов файлов документов через Java API?

Таблица представляет собой сетку ячеек, организованных в строки и столбцы, которые можно использовать для эффективного представления данных или информации читателю в визуально привлекательной форме. Таблицы играют очень важную роль в организации данных в документах и ​​имеют множество полезных преимуществ, таких как группировка информации, расположение данных в строках или столбцах, создание списков, организация компоновки целых предложений, размещение изображений в документах, выделение тенденций или закономерностей в данных и т.д. скоро. GroupDocs.Parser for Java API позволяет инженерам и разработчикам программного обеспечения создавать мощные Java-приложения для обработки различных типов документов. Его можно использовать для извлечения таблиц, текста и изображений из некоторых популярных форматов документов, таких как PDF, электронные письма, электронные книги, Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), электронные письма ( EML, MSG) форматы и многие другие. Java API обеспечивает поддержку нескольких важных функций, связанных с управлением таблицами в документах, таких как извлечение всех таблиц или конкретной таблицы из документа, получение таблицы со страницы определенного документа, извлечение данных из ячеек таблицы, получение общего количества строк таблицы и столбцы, получить высоту строки, распечатать данные таблицы и так далее.

Извлечь таблицы из RTF в Java

GroupDocs.Parser for Java позволяет разработчикам Java извлекать таблицы из файла RTF, выполняя несколько простых шагов. .

  • Создать объект Parser для исходного документа;
  • Проверьте, поддерживает ли документ извлечение таблицы;
  • Создайте экземпляры классов PageTableAreaOptions и TemplateTableLayout для задания макета таблиц
  • Вызовите метод getTables и получите коллекцию PageTableArea объектов;

Как извлечь таблицы из файла RTF, используя пример кода Java

// Извлечение таблиц из файла RTF с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(Constants.SampleInvoicePagesPdf)) {
    // Проверьте, поддерживает ли документ извлечение таблицы
    if (!parser.getFeatures().isTables()) {
        System.out.println("Документ не поддерживает извлечение таблиц.");
        return;
    }
    // Создадим раскладку столов
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));
    // Создайте параметры для извлечения таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Извлечение таблиц из документа.
    Iterable<PageTableArea> tables = parser.getTables(options);
    // Итерация по таблицам
    for (PageTableArea t : tables) {
        // Перебирать строки
        for (int row = 0; row < t.getRowCount(); row++) {
            // Итерация по столбцам
            for (int column = 0; column < t.getColumnCount(); column++) {
                // Получить ячейку таблицы
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null) {
                    // Распечатать текст ячейки таблицы
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
            System.out.println();
        }
        System.out.println();
    }
}

Системные Требования

GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: NetBeans, Intellij IDEA, Eclipse, etc.
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for Java из Maven

Зачем использовать GroupDocs.Parser for Java

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Извлечение таблиц из других форматов документов

Java API анализа документов и извлечения таблиц для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

VSDM

(Рисование Visio с поддержкой макросов)

VSDX

(Формат файла Microsoft Visio)

VSSM

(Формат файла с поддержкой макросов Microsoft Visio)

VSSX

(Формат файла трафарета Visio)

VSTM

(Шаблон чертежа Visio с поддержкой макросов)

VSTX

(Формат файла Microsoft Visio)

VSX

(Векторное скалярное расширение)

VTX

(Шаблон чертежа Microsoft Visio)

XLAM

(Надстройка Microsoft Excel с поддержкой макросов)

XLS

(Формат двоичного файла Microsoft Excel)

XLSB

(Двоичный файл электронной таблицы Microsoft Excel)

XLSM

(Электронная таблица Microsoft Excel с поддержкой макросов)

XLSX

(Электронная таблица Microsoft Excel Open XML)

XLT

(Шаблон Microsoft Excel)

XLTM

(Шаблон Microsoft Excel с поддержкой макросов)

XLTX

(Открытый XML-шаблон Microsoft Excel)

Back to top
 Русский