GroupDocs.Parser for .NET

使用C#解析PDF文档

在您的.NET项目中，使用GroupDocs.Parser高效提取PDF、Word、Excel和图像文件中的文本、元数据、表格和图像。

NuGet 下载

开始免费试用

在C#中从Pdf提取数据的步骤

按照以下步骤使用GroupDocs.Parser在您的.NET应用中解析PDF文档的内容：

使用Parser实例加载PDF文档。
提取所需的内容，例如文本、表格或元数据。
验证提取的数据是否有效。
在您的下游处理、自动化或业务系统中使用解析的输出。

复制

// 将文档加载到Parser中
using (Parser parser = new Parser("input.pdf")) {

    // 从文件中提取所有文本内容
    using (TextReader reader = parser.GetText()) 
    {
        // 如果文本不可用，结果将为null
        // 在您的应用中使用提取的文本
        Console.WriteLine(reader == null ? 
            "此格式不支持文本提取" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

点击以复制

已复制

更多示例文档

全面的文档解析能力

GroupDocs.Parser不仅支持文本读取，还支持条形码提取、图像解析、元数据访问和结构化数据处理，以进行高级自动化和数据分析。

支持多种文件内容类型

从PDF、Word、Excel、HTML等文档格式中提取文本、图像、表格和字段等数据。

处理扫描和数字文件

支持从扫描文档和数字文件中解析数据，同时支持OCR和布局感知提取。

可配置的提取参数

通过灵活的选项调整解析逻辑，如页面范围选择、区域定位和字段检测模板。

如何使用模板解析PDF

此示例展示了如何使用GroupDocs.Parser通过预定义的解析模板提取PDF中的结构化数据。

C#

//  使用Parser类加载PDF文件
using (Parser parser = new Parser("input.pdf"))
{
    // 根据模板解析文档
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // 检查是否支持表单提取
    if (data == null)
    {
        return;
    }

    // 处理获得的字段
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // 为'详情'表创建检测器参数
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}