GroupDocs.Parser for Java

使用 Java 从 XML 提取表格数据

在您的 Java 工作流中,使用 GroupDocs.Parser 无缝检测和提取 PDF、DOCX 和 XLSX 等格式的表格。

如何在 Java 中从 Xml 获取表格

要使用 GroupDocs.Parser 从 XML 文档中解析表格,请按照以下步骤在您的 Java 环境中操作:

  1. 创建一个 Parser 实例并加载目标 XML 文件。
  2. 验证该文件是否支持结构化表格提取。
  3. 使用 API 从文档中检索表格元素。
  4. 在分析、报告或自动化系统中使用提取的数据。
// 加载包含表格元素的输入文档
try (Parser parser = new Parser("input.xml"))
{
    // 验证文档类型是否允许表格识别
    if (!parser.getFeatures().isTables()) {
        System.out.println("为不支持表格的文件添加逻辑");
        return;
    }

    // 定义解释表格结构的规则
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // 设置提取表格的参数
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  在加载的文档上运行表格提取
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  处理提取结果中的每个表格
    for (PageTableArea t : tables) 
    {
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
点击以复制
已复制
更多示例 文档

高级内容提取工具

除了读取表格,GroupDocs.Parser 还支持捕获纯文本、视觉元素、嵌入的元数据和结构化对象,以增强文档处理任务。

提取结构化内容和表格数据

跨格式精准解析表格

支持从 PDF、Word、Excel 和 HTML 等标准文档类型中高精度提取表格。

从多种来源读取表格结构

在保留结构和对齐的前提下,从电子表格、文档和报告中提取表格数据。

可自定义的表格提取设置

控制布局检测,管理页眉和页脚,并通过灵活的配置选项细化提取。

示例:从 Excel 文档中提取表格

此示例显示如何使用 GroupDocs.Parser 提取 Excel(XLSX)文件中的表格内容并进行循环。

Java

//  使用 Excel 文件初始化 Parser
try (Parser parser = new Parser("input.pdf"))
{
    // 如果此文档不支持表格提取,则退出
    if (!parser.getFeatures().isTables())
    {
        return;
    }

    // 应用规则以定位表格布局
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // 配置表格提取的设置
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // 调用提取过程
    Iterable<PageTableArea> tables = parser.getTables(options);

    // 循环遍历所有解析的表格结构
    for (PageTableArea t : tables)
    {
        // 迭代表格中的每一行
        for (int row = 0; row < t.getRowCount(); row++)
        {
            // 处理当前行中的每个单元格
            for (int column = 0; column < t.getColumnCount(); column++) 
            {
                // 访问并读取当前单元格的内容
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null)
                {
                    // 输出每个表格单元格的文本值
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
        }
    }
}

GroupDocs.Parser for Java API 介绍

GroupDocs.Parser 是一个功能丰富的内容提取 API,适用于 Java 平台。它允许开发人员准确解析 PDF、Word 文档、Excel 表格、PowerPoint 演示文稿等中的表格、文本、图形、链接和结构化数据——不需要第三方插件。
了解更多
About illustration

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

支持提取表格的文档类型

GroupDocs.Parser 提供多个文件类型的可靠表格检测。以下是支持提取表格的最常见文档格式列表。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人