GroupDocs.Parser for Java

使用Java从DOCX中提取文本

在您的Java开发项目中,使用GroupDocs.Parser无缝提取PDF、Word、Excel等文件中的可读或结构化文本。

如何使用Java从Docx中提取文本

按照以下步骤使用GroupDocs.Parser在您的Java项目中从DOCX文件中提取文本:

  1. 使用Parser类加载DOCX文档。
  2. 从文件内容中执行文本提取。
  3. 检查文本是否成功检索。
  4. 在搜索、分析或自动化系统中使用文本数据。
// 使用您的文档初始化Parser
try (Parser parser = new Parser("input.docx"))
{
    // 读取并提取所有文本数据
    try (TextReader reader = parser.getText())
    {
        // 如文本内容缺失,则返回null
        // 将提取的文本集成到您的工作流中
        System.out.println(reader == null ? 
            "跳过不支持的文本提取格式" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
点击以复制
已复制
更多示例 文档

丰富的文本提取功能

GroupDocs.Parser不仅支持简单的文本提取,还能检索图像、元数据和结构化数据,以增强内容处理任务。

从文档中提取和结构化文本内容

支持多种文档格式

从DOCX、XLSX、PPTX、PDF、HTML等多种格式中捕获原始和结构化文本。

从视觉和文本内容中提取文本

从扫描文档、幻灯片、电子表格和其他文件类型中解析文本,同时保留逻辑结构。

对提取过程进行详细控制

配置页面范围、布局区域和精度参数,以实现精确的文本解析。

示例:从PPTX文档中提取文本区域

该示例演示如何使用GroupDocs.Parser从PowerPoint演示文稿中提取文本块及其空间坐标。

Java

//  使用Parser API加载您的PPTX文件
try (Parser parser = new Parser("input.pptx"))
{
    // 获取所有矩形文本区域
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // 如果不支持此功能则退出
    if (areas == null)
    {
        return;
    }

    // 按照页面循环遍历文本区域
    for (PageTextArea a : areas)
    {
        // 处理每个文本块及其页码和边界矩形
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

介绍GroupDocs.Parser for Java API

GroupDocs.Parser是为Java开发者设计的强大且可扩展的文档解析器。它能够准确从包括PDF、DOCX、XLSX、PPTX等多种格式中提取文本、表格、图像和结构化组件,而无需依赖外部工具。
了解更多
About illustration

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

支持文本提取的文件类型

GroupDocs.Parser能够从众多文件和图像格式中提取文本内容。以下是其支持的最常用类型。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人