.NET API 来提取文档数据

从 .NET 应用程序中的文档、电子表格、演示文稿、电子邮件和档案中提取图像、原始或格式化文本和元数据。


下载免费试用版

GroupDocs.Parser for .NET 是一个文本、元数据和图像提取器 API,用于使用 C#、ASP.NET 和其他 .NET 技术开发的业务应用程序。它支持从支持格式的文件中提取原始、格式化和结构化文本以及元数据。通过 GroupDocs.Parser for .NET,您的应用程序还可以对流行格式的受密码保护的文档进行解析,例如文字处理文档、Excel 电子表格、PowerPoint 演示文稿、OneNote、PDF 文件和 ZIP 档案。

GroupDocs.Parser for .NET 特征

统计单个或多个文件中的单词出现次数

从 Excel 工作表和演示模板中提取文本和元数据

在不安装文档阅读器的情况下从文件或流中提取文本内容

使用快速或标准文本提取模式从文档中获取格式化文本

检测受密码保护的 XML 文档的媒体类型并从中提取文本

以编程方式从电子邮件和附件中获取格式化文本

从 OneNote 文档的单页或多页中提取文本

从 PDF、MS Word、Excel 和演示文档中提取数据

从 PDF 表单中提取数据并从简单的 PDF 文件或 PDF 组合文档中提取文本

从 PowerPoint 演示文稿中获取格式化文本或从特定幻灯片中删除文本

从 Excel 电子表格的单元格、行和列中收集原始或格式化文本

从 Word 文档中提取原始或 HTML 格式的文本

HTML Formatter 支持段落、超链接、字体、标题、列表和表格的格式化

从 EPUB、CHM、Markdown 和 FB2 文件中提取单个句子或整个文本

摘自数据库、PDF、EPUB、CHM 和文字处理文档的目录

提取具有完整内容结构的文本并从文档中摘录突出显示的文本

从文档中获取文本区域进行分析并从支持的文档格式中提取元数据

从支持的格式中获取所有或选定的图像并旋转提取的图像

从 Zip 档案和 OST 容器中的文件中取出文本并检测 ZIP 容器项目的文件类型

从电子邮件容器(Exchange Web 服务器、POP3、IMAP)获取数据

在文档中搜索简单文本、整个单词和正则表达式

准备文档模板,从文档中提取数据并分析数据字段和表格

在文档中搜索和提取突出显示的表达式

使用纯文本格式化程序(简单和 ASCII)或 Markdown 格式化程序获取文本

Markdown Formatter 支持字体、超链接、标题、列表和表格的格式化

使用边缘、角度和交叉点执行自定义格式以格式化纯文本

通过列分隔符移动表格布局和检测矩形区域中的表格

从 Microsoft Office 文件格式中的形状、艺术字对象和文本框中提取文本

将图像提取到文件 - 保存为 JPG、PNG、GIF、BMP、PNG 或 WEBP 格式

从文档中提取文本

使用 GroupDocs.Parser for .NET API 从文档中提取文本很简单,只需几行代码即可实现:

// 创建 Parser 类的实例
using(Parser parser = new Parser("sample.docx"))
{
  // 将文本提取到阅读器中
  using(TextReader reader = parser.GetText())
  {
    // 打印文档中的文本
    // 如果不支持文本提取,则 reader 为 null
    Console.WriteLine(reader == null ? "Text extraction isn't supported." : reader.ReadToEnd());
  }
}

支持和学习资源

GroupDocs.Parser 为其他流行的开发环境提供文档查看 API

Back to top
Zh