Parser 用于 Net

适用于 .NET 的文档解析 SDK

为您的 .NET 应用添加快速、准确的文档解析功能，并从文档和图像中提取文本、图像、元数据和结构化数据。

NuGet 下载开始免费试用

版本 26.6.1 已发布

查看新增功能

// 将源文件传递给 Parser 实例
using (var parser = new Parser("source.pdf"))
{
    // 将文档文本传递给 TextReader
    using (var textReader = parser.GetText())
    {
        // 处理文档文本
        Console.WriteLine(textReader?.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

GroupDocs.Parser 一览

用于在 .NET 应用程序中执行高精度文档解析的 Document Parser SDK

从文档中提取数据

GroupDocs.Parser for .NET API 可让您从各种文件格式（如 Office 文档、电子邮件、附件和归档文件）检索文本、元数据和图像。此强大工具帮助您高效访问和处理这些文件中包含的有价值信息，可用于数据分析、搜索引擎索引或内容管理系统等多种应用。

解析文档

从 PDF 表单中提取超链接、表格、二维码、条形码和数据等各种元素。还可以使用自定义模板解析文档中的任意所需信息。

自定义结果

.NET API 使您能够以原始、结构化、HTML 或 Markdown 等多种格式检索数据。此外，API 还提供搜索功能，可在文档文本中定位特定单词或短语。

平台独立性

GroupDocs.Parser for .NET 支持以下操作系统、框架和包管理器

支持的文件格式

GroupDocs.Parser for .NET 支持以下文件格式的操作。

Microsoft Office 格式

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

图像及其他格式

可移植: PDF
图像: JPG, BMP, PNG, TIFF, GIF
其他办公格式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

其他格式

Web: HTML, MHTML
归档文件: ZIP, TAR, 7Z
电子书: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for .NET 功能

使用我们的 .NET Document Parser SDK，快速且准确地从 PDF、Office 文档、图像及其他格式中提取数据

提取文本

从各种文件格式（如 Office 文档、PDF 文件和图像）中提取文本信息，便于阅读和分析。

提取图像

从 Office 文档、PDF 文件等多种来源检索视觉内容，以便轻松访问和使用。

扫描二维码

检测并解码 Office 文档、PDF 文件或视觉内容中存在的二维码，实现高效的信息检索。

从电子邮件附件和归档文件中提取数据

从电子邮件、文件附件和压缩数据源中收集有价值的信息，以便进行有效的分析和利用。

提取表格

识别并提取 PDF 文档中的表格数据，以便进行有条理的分析和使用。

提取超链接

在 Office 文档或 PDF 文件中定位并提取超链接和电子邮件地址，以实现高效访问。

解析 PDF 表单

PDF 表单是具有可填写字段的数字文档，供用户交互并电子方式输入信息。.NET API 可用于从这些表单中提取数据，以实现高效处理。

通过模板解析数据

创建自定义模板并使用 .NET API 对 PDF 文件中的特定信息进行解析，从而简化数据提取过程。

在文档中搜索文本

快速定位文档中的特定词语或模式。

代码示例

典型的 GroupDocs.Parser for .NET 操作示例

从 PDF 文档中提取图像

GroupDocs.Parser for .NET 让 C# 开发者能够轻松从

文档中提取图像：

在 C# 中从 PDF 文档提取图像

// 创建 Parser 类的实例 style=color:#00f>using (var parser = new Parser("source.pptx")) { // 提取图像 var images = parser.GetImages(); // 检查是否成功提取 if (images == null) { return; } // 遍历图像 foreach (PageImageArea image in images) { // 打印页面索引、矩形区域和图像类型 Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", image.Page.Index, image.Rectangle, image.FileType)); } }

`从图像中提取条形码`

使用我们的 .NET API 从图像中提取条形码：

`在 C# 中从图像提取条形码`

// 将源图像加载到 Parser
using (var parser = new Parser("source.jpg"))
{
    // 检查文件是否支持条形码提取
    if (parser.Features.Barcodes)
    {
        // 从文件中提取条形码
        var barcodes = parser.GetBarcodes();

        // 遍历条形码
        foreach (var barcode in barcodes)
        {
            // 打印页面索引
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // 打印条形码值
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

`准备好开始了吗？`

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限！

NuGet 下载
开始免费试用

`有用的资源`

探索文档，代码样本和社区支持，以增强您的体验。


文档
API参考
代码样本
免费支持
付费支持