GroupDocs.Parser for .NET

使用 C# 从 RTF 提取文本

使用 GroupDocs.Parser 快速提取 PDF、Word、Excel 及其他文件类型中的可读和结构化文本,适用于您的 .NET 解决方案。

在 C# 中从 Rtf 提取文本的步骤

通过遵循以下步骤,您可以使用 GroupDocs.Parser 从 RTF 文档中提取清晰的结构化文本:

  1. 使用 Parser 实例打开 RTF 文档。
  2. 从文件内容中提取文本。
  3. 检查结果以确认文本提取成功。
  4. 将提取的文本应用于业务逻辑、索引或数据管道。
// 将文档加载到 Parser 中
using (Parser parser = new Parser("input.rtf")) {

    // 从文件中提取所有文本内容
    using (TextReader reader = parser.GetText()) 
    {
        // 如果文本不可用,结果将为 null
        // 在您的应用中使用提取的文本
        Console.WriteLine(reader == null ? 
            "此格式不支持文本提取" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
点击以复制
已复制
更多示例 文档

全面的内容提取功能

除了纯文本,GroupDocs.Parser 还可以提取图像、结构化元素和元数据,以支持内容分析、转换和自动化。

文本识别和结构化文档解析

跨多种文件类型提取文本

从 PDF、DOCX、XLSX、PPTX、HTML 及其他格式中获取纯文本或结构化文本。

处理文档和视觉文本

从扫描的图像、演示文稿、电子表格和数字文档中提取文本,同时保留结构。

高级文本提取配置

自定义文本检测方式——定义页面范围、布局区域,并调整输出以实现最大准确性。

如何从 PPTX 文件提取文本区域

此代码示例展示了如何使用 GroupDocs.Parser 从 PowerPoint 文件中检索文本内容及区域坐标。

C#

//  使用 Parser 加载 PowerPoint 演示文稿
using (Parser parser = new Parser("input.pptx"))
{
    // 从文档中提取所有文本区域矩形
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // 如果文本区域提取不可用则退出
    if (areas == null)
    {
        return;
    }

    // 遍历每个页面的文本区域
    foreach (PageTextArea a in areas)
    {
        // 访问页面索引、区域矩形和文本值
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

GroupDocs.Parser for .NET API 介绍

GroupDocs.Parser 是为 .NET 开发者提供的高性能文档解析 API。它简化了从 PDF、DOCX、XLSX、PPTX 等多种文件格式中提取文本、图像、表格和结构化内容的过程,无需依赖第三方库。
了解更多
About illustration

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

支持的文本提取格式

GroupDocs.Parser 支持从多种文档和图像类型中提取文本。查看下面列出的常见支持格式。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人