从 C# 中的 PDF 中提取文本

使用几行 .NET 代码从 PDF 中提取文本。


下载免费试用版

如何从 PDF 文件 .NET API 中提取文本?

GroupDocs.Parser for .NET 是一个文本、元数据和图像提取器 API,适用于使用 C#、ASP.NET 和其他 .NET 技术开发的业务应用程序。它支持从支持格式的文件中提取原始、格式化和结构化文本以及元数据。通过 GroupDocs.Parser for .NET,您的应用程序还可以解析流行格式的受密码保护的文档,例如 Word 处理文档、Excel 电子表格、PowerPoint 演示文稿、OneNote、PDF 文件和 ZIP 存档。

GroupDocs.Parser API 是需要文件文本提取功能的企业解决方案的正确选择。这些 API 在所有主要操作系统和平台(包括 Frameworks: .NET Framework, .NET Standard, .NET Core, Mono)上均得到良好支持。

从 .NET 中的 PDF 中提取文本

GroupDocs.Parser for .NET 让 C# 开发者只需执行几个简单的步骤即可轻松从 PDF 文件中提取文本。

  • 实例化初始文档的 Parser 对象;
  • 调用 GetText 方法并获取 TextReader 对象;
  • 检查 reader 是否不为null(文档支持文本提取);
  • 阅读读者的文字。

如何使用 C# 示例代码从 PDF 文件中提取文本

// 使用 GroupDocs.Parser API 从 PDF 文件中提取文本
// 创建 Parser 类的实例
using (Parser parser = new Parser(filePath)) {
    // 将文本提取到阅读器中
    using (TextReader reader = parser.GetText()) {
        // 打印文档中的文本
        // 如果不支持文本提取,则 reader 为空
        Console.WriteLine(reader == null ? "不支持文本提取" : reader.ReadToEnd());
    }
}

系统要求

GroupDocs.Parser for .NET 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。

  • 操作系统:Microsoft Windows、Linux、MacOS
  • 开发环境:Microsoft Visual Studio, Xamarin, MonoDevelop
  • 构架
  • Nuget 下载最新版本的 GroupDocs.Parser for .NET

为什么使用GroupDocs.Parser for .NET

  • 支持从任何支持的文档中提取纯文本
  • 通过用户定义的模板解析文档
  • 全面支持结构化文本提取
  • 通过关键字和正则表达式进行文本搜索
  • 提取格式化文本、元数据、图像、容器和附件
  • 提取某些支持的文档格式的目录
  • 从 PDF 文档解析表单数据
  • 从文档中提取超链接

现场演示 - 从 PDF 在线提取文本

立即访问 GroupDocs.Parser 现场演示 网站,从 PDF 文件中提取文本。 现场演示有以下好处。

无需下载 API

无需编写任何代码

只需上传源文件

获取下载链接以保存文件

从其他文档格式中提取文本

.NET 用于文件格式和图像的文档解析和文本提取 API。提取一些流行文件格式的数据,如下所述。

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

XLAM

(Excel Macro-Enabled Add-In)

XLS

(Microsoft Excel Spreadsheet (Legacy))

Back to top
 中国人