GroupDocs.Parser for .NET

使用C#解析PDF文档

在您的.NET项目中,使用GroupDocs.Parser高效提取PDF、Word、Excel和图像文件中的文本、元数据、表格和图像。

在C#中从Pdf提取数据的步骤

按照以下步骤使用GroupDocs.Parser在您的.NET应用中解析PDF文档的内容:

  1. 使用Parser实例加载PDF文档。
  2. 提取所需的内容,例如文本、表格或元数据。
  3. 验证提取的数据是否有效。
  4. 在您的下游处理、自动化或业务系统中使用解析的输出。
// 将文档加载到Parser中
using (Parser parser = new Parser("input.pdf")) {

    // 从文件中提取所有文本内容
    using (TextReader reader = parser.GetText()) 
    {
        // 如果文本不可用,结果将为null
        // 在您的应用中使用提取的文本
        Console.WriteLine(reader == null ? 
            "此格式不支持文本提取" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
点击以复制
已复制
更多示例 文档

全面的文档解析能力

GroupDocs.Parser不仅支持文本读取,还支持条形码提取、图像解析、元数据访问和结构化数据处理,以进行高级自动化和数据分析。

文档内容提取和解析能力

支持多种文件内容类型

从PDF、Word、Excel、HTML等文档格式中提取文本、图像、表格和字段等数据。

处理扫描和数字文件

支持从扫描文档和数字文件中解析数据,同时支持OCR和布局感知提取。

可配置的提取参数

通过灵活的选项调整解析逻辑,如页面范围选择、区域定位和字段检测模板。

如何使用模板解析PDF

此示例展示了如何使用GroupDocs.Parser通过预定义的解析模板提取PDF中的结构化数据。

C#

//  使用Parser类加载PDF文件
using (Parser parser = new Parser("input.pdf"))
{
    // 根据模板解析文档
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // 检查是否支持表单提取
    if (data == null)
    {
        return;
    }

    // 处理获得的字段
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // 为'详情'表创建检测器参数
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

GroupDocs.Parser for .NET API简介

GroupDocs.Parser 是一款功能丰富的文档解析API,专为.NET开发人员设计。它支持从常见格式如PDF、DOCX、XLSX、PPTX等中提取纯文本和结构化文本、元数据、图像、表格和条形码,均无需额外的软件依赖。
了解更多
About illustration

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

支持的数据提取格式

GroupDocs.Parser能够解析广泛的文档和图像格式。了解在数据提取工作流程中常用的支持文件类型。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人