GroupDocs.Parser for Java

使用 Java 从 XML 提取表格数据

在您的 Java 工作流中，使用 GroupDocs.Parser 无缝检测和提取 PDF、DOCX 和 XLSX 等格式的表格。

Maven下载

开始免费试用

如何在 Java 中从 Xml 获取表格

要使用 GroupDocs.Parser 从 XML 文档中解析表格，请按照以下步骤在您的 Java 环境中操作：

创建一个 Parser 实例并加载目标 XML 文件。
验证该文件是否支持结构化表格提取。
使用 API 从文档中检索表格元素。
在分析、报告或自动化系统中使用提取的数据。

复制

// 加载包含表格元素的输入文档
try (Parser parser = new Parser("input.xml"))
{
    // 验证文档类型是否允许表格识别
    if (!parser.getFeatures().isTables()) {
        System.out.println("为不支持表格的文件添加逻辑");
        return;
    }

    // 定义解释表格结构的规则
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // 设置提取表格的参数
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  在加载的文档上运行表格提取
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  处理提取结果中的每个表格
    for (PageTableArea t : tables) 
    {
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

点击以复制

已复制

更多示例文档

高级内容提取工具

除了读取表格，GroupDocs.Parser 还支持捕获纯文本、视觉元素、嵌入的元数据和结构化对象，以增强文档处理任务。

跨格式精准解析表格

支持从 PDF、Word、Excel 和 HTML 等标准文档类型中高精度提取表格。

从多种来源读取表格结构

在保留结构和对齐的前提下，从电子表格、文档和报告中提取表格数据。

可自定义的表格提取设置

控制布局检测，管理页眉和页脚，并通过灵活的配置选项细化提取。

示例：从 Excel 文档中提取表格

此示例显示如何使用 GroupDocs.Parser

提取 Excel（XLSX）文件中的表格内容并进行循环。

Java

//  使用 Excel 文件初始化 Parser style=color:#888;font-style:italic>try (Parser parser = new Parser("input.pdf")) { // 如果此文档不支持表格提取，则退出 style=color:#888;font-style:italic>    if (!parser.getFeatures().isTables()) { return; } // 应用规则以定位表格布局 style=color:#888;font-style:italic>    TemplateTableLayout layout = new TemplateTableLayout( java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}), java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0})); // 配置表格提取的设置 style=color:#888;font-style:italic>    PageTableAreaOptions options = new PageTableAreaOptions(layout); // 调用提取过程 style=color:#888;font-style:italic>    Iterable<PageTableArea> tables = parser.getTables(options); // 循环遍历所有解析的表格结构 style=color:#888;font-style:italic>    for (PageTableArea t : tables) { // 迭代表格中的每一行 style=color:#888;font-style:italic>        for (int row = 0; row < t.getRowCount(); row++) { // 处理当前行中的每个单元格 style=color:#888;font-style:italic>            for (int column = 0; column < t.getColumnCount(); column++) { // 访问并读取当前单元格的内容 style=color:#888;font-style:italic>                PageTableAreaCell cell = t.getCell(row, column); if (cell != null) { // 输出每个表格单元格的文本值 style=color:#888;font-style:italic>                    System.out.print(cell.getText()); System.out.print(" | "); } } } } }

`GroupDocs.Parser for Java API 介绍`

GroupDocs.Parser 是一个功能丰富的内容提取 API，适用于 Java 平台。它允许开发人员准确解析 PDF、Word 文档、Excel 表格、PowerPoint 演示文稿等中的表格、文本、图形、链接和结构化数据——不需要第三方插件。

了解更多

`准备好开始了吗？`

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限！

Maven下载
开始免费试用

`有用的资源`

探索文档，代码样本和社区支持，以增强您的体验。


文档
API参考
代码样本
免费支持
付费支持

`支持提取表格的文档类型`

GroupDocs.Parser 提供多个文件类型的可靠表格检测。以下是支持提取表格的最常见文档格式列表。

解析 PDF(可移植文档格式)
解析 DOCX(Office 2007+ Word 文档)
解析 PPTX(Open XML 演示格式)
解析 XLSX(Open XML 工作簿)
解析 TXT(文本文件)
解析 RTF(富文本格式)
解析 EPUB(开放电子书文件)

使用 Java 从 XML 提取表格数据

如何在 Java 中从 Xml 获取表格

高级内容提取工具

跨格式精准解析表格

从多种来源读取表格结构

可自定义的表格提取设置

示例：从 Excel 文档中提取表格

Java

GroupDocs.Parser for Java API 介绍

准备好开始了吗？

有用的资源

支持提取表格的文档类型

临时许可提示

`GroupDocs.Parser for Java API 介绍`

`准备好开始了吗？`

`有用的资源`

`支持提取表格的文档类型`

`临时许可提示`