GroupDocs.Parser for .NET

使用 C# 从 PDF 提取表格

使用 GroupDocs.Parser 快速识别并提取来自 PDF、Word、Excel 和其他文件格式的表格结构,适用于您的 .NET 项目。

在 C# 中从 Pdf 提取表格的步骤

请按照以下说明使用 GroupDocs.Parser 在您的 .NET 环境中提取 PDF 文件中的表格:

  1. 初始化一个 Parser 实例并加载您的 PDF 文档。
  2. 检查输入格式是否支持表格提取。
  3. 从文件中提取表格内容。
  4. 利用结构化表格数据进行报告、自动化或分析。
// 使用 Parser 打开包含表格数据的文档
using (Parser parser = new Parser("input.pdf")) {

    // 检查格式是否支持表格识别
    if (!parser.Features.Tables) {
        Console.WriteLine("处理不支持表格解析的文档");
        return;
    }

    // 定义如何识别表格结构
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });

    // 指定表格数据的提取参数
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  从文件内容中提取表格
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    //  遍历每个检测到的表格
    foreach (PageTableArea t in tables)
    {
    }
}
dotnet add package GroupDocs.Parser
点击以复制
已复制
更多示例 文档

强大的数据提取能力

除了表格解析,GroupDocs.Parser 还能够提取丰富的内容,如文本块、图像、元数据及其他结构化数据,以促进文档自动化。

表格识别和内容提取

准确的多格式表格检测

高精度地从 DOCX、XLSX、PDF、HTML 和类似格式中提取表格数据。

从文件中解析表格结构

高效地从文档和电子表格中检索表格数据,无需格式损失。

灵活的表格提取配置

调整布局检测、列对齐和页眉/页脚选项,以精确控制输出。

如何从 Excel 电子表格提取表格

这个代码示例展示了如何使用 GroupDocs.Parser 读取和遍历 XLSX 文件中的表格数据。

C#

//  使用 Parser API 打开 Excel 文件
using (Parser parser = new Parser("input.xlsx"))
{
    // 如果无法从文件中提取表格,则退出
    if (!parser.Features.Tables)
    {
        return;
    }

    // 使用布局规则定位表格内容
    TemplateTableLayout layout = new TemplateTableLayout(
            new double[] { 50, 95, 275, 415, 485, 545 },
            new double[] { 325, 340, 365, 395 });

    // 设置表格的提取参数
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // 执行表格提取操作
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    // 遍历每个检测到的表格结构
    foreach (PageTableArea t in tables)
    {
        // 遍历表格中的每一行
        for (int row = 0; row < t.RowCount; row++)
        {
            // 循环遍历每行中的单元格
            for (int column = 0; column < t.ColumnCount; column++)
            {
                // 访问当前表格单元格
                PageTableAreaCell cell = t[row, column];
                if (cell != null)
                {
                    // 显示每个单元格的文本内容
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
        }
    }
}

关于 GroupDocs.Parser for .NET API

GroupDocs.Parser 是一款专为 .NET 开发人员构建的全面文档解析 API。它能够从 PDF、DOCX、XLSX、PPTX 等格式中精确提取文本、表格、图像、超链接和其他结构化元素,无需第三方软件。
了解更多
About illustration

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

支持的表格提取格式

GroupDocs.Parser 能够从多种文档类型中提取表格数据。以下是进行结构化表格解析时最常用的格式。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人