按照以下步骤使用GroupDocs.Parser在您的.NET应用中解析PDF文档的内容:
- 使用Parser实例加载PDF文档。
- 提取所需的内容,例如文本、表格或元数据。
- 验证提取的数据是否有效。
- 在您的下游处理、自动化或业务系统中使用解析的输出。
按照以下步骤使用GroupDocs.Parser在您的.NET应用中解析PDF文档的内容:
GroupDocs.Parser不仅支持文本读取,还支持条形码提取、图像解析、元数据访问和结构化数据处理,以进行高级自动化和数据分析。
从PDF、Word、Excel、HTML等文档格式中提取文本、图像、表格和字段等数据。
支持从扫描文档和数字文件中解析数据,同时支持OCR和布局感知提取。
通过灵活的选项调整解析逻辑,如页面范围选择、区域定位和字段检测模板。
此示例展示了如何使用GroupDocs.Parser通过预定义的解析模板提取PDF中的结构化数据。
// 使用Parser类加载PDF文件
using (Parser parser = new Parser("input.pdf"))
{
// 根据模板解析文档
DocumentData data = parser.ParseByTemplate(GetTemplate());
// 检查是否支持表单提取
if (data == null)
{
return;
}
// 处理获得的字段
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
private static Template GetTemplate()
{
// 为'详情'表创建检测器参数
TemplateTableParameters detailsTableParameters =
new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
TemplateItem[] templateItems = new TemplateItem[]
{
new TemplateTable(detailsTableParameters, "details", null)
};
Template template = new Template(templateItems);
return template;
}