GroupDocs.Parser for .NET

使用 C# 从 XLSX 提取文本

使用 GroupDocs.Parser 快速提取 PDF、Word、Excel 及其他文件类型中的可读和结构化文本，适用于您的 .NET 解决方案。

NuGet 下载

开始免费试用

在 C# 中从 Xlsx 提取文本的步骤

通过遵循以下步骤，您可以使用 GroupDocs.Parser 从 XLSX 文档中提取清晰的结构化文本：

使用 Parser 实例打开 XLSX 文档。
从文件内容中提取文本。
检查结果以确认文本提取成功。
将提取的文本应用于业务逻辑、索引或数据管道。

复制

// 将文档加载到 Parser 中
using (Parser parser = new Parser("input.xlsx")) {

    // 从文件中提取所有文本内容
    using (TextReader reader = parser.GetText()) 
    {
        // 如果文本不可用，结果将为 null
        // 在您的应用中使用提取的文本
        Console.WriteLine(reader == null ? 
            "此格式不支持文本提取" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

点击以复制

已复制

更多示例文档

全面的内容提取功能

除了纯文本，GroupDocs.Parser 还可以提取图像、结构化元素和元数据，以支持内容分析、转换和自动化。

跨多种文件类型提取文本

从 PDF、DOCX、XLSX、PPTX、HTML 及其他格式中获取纯文本或结构化文本。

处理文档和视觉文本

从扫描的图像、演示文稿、电子表格和数字文档中提取文本，同时保留结构。

高级文本提取配置

自定义文本检测方式——定义页面范围、布局区域，并调整输出以实现最大准确性。

如何从 PPTX 文件提取文本区域

此代码示例展示了如何使用 GroupDocs.Parser 从 PowerPoint 文件中检索文本内容及区域坐标。

C#

//  使用 Parser 加载 PowerPoint 演示文稿
using (Parser parser = new Parser("input.pptx"))
{
    // 从文档中提取所有文本区域矩形
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // 如果文本区域提取不可用则退出
    if (areas == null)
    {
        return;
    }

    // 遍历每个页面的文本区域
    foreach (PageTextArea a in areas)
    {
        // 访问页面索引、区域矩形和文本值
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}