GroupDocs.Parser for Java

使用Java从DOCX中提取文本

在您的Java开发项目中，使用GroupDocs.Parser无缝提取PDF、Word、Excel等文件中的可读或结构化文本。

Maven下载

开始免费试用

如何使用Java从Docx中提取文本

按照以下步骤使用GroupDocs.Parser在您的Java项目中从DOCX文件中提取文本：

使用Parser类加载DOCX文档。
从文件内容中执行文本提取。
检查文本是否成功检索。
在搜索、分析或自动化系统中使用文本数据。

复制

// 使用您的文档初始化Parser
try (Parser parser = new Parser("input.docx"))
{
    // 读取并提取所有文本数据
    try (TextReader reader = parser.getText())
    {
        // 如文本内容缺失，则返回null
        // 将提取的文本集成到您的工作流中
        System.out.println(reader == null ? 
            "跳过不支持的文本提取格式" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

点击以复制

已复制

更多示例文档

丰富的文本提取功能

GroupDocs.Parser不仅支持简单的文本提取，还能检索图像、元数据和结构化数据，以增强内容处理任务。

支持多种文档格式

从DOCX、XLSX、PPTX、PDF、HTML等多种格式中捕获原始和结构化文本。

从视觉和文本内容中提取文本

从扫描文档、幻灯片、电子表格和其他文件类型中解析文本，同时保留逻辑结构。

对提取过程进行详细控制

配置页面范围、布局区域和精度参数，以实现精确的文本解析。

示例：从PPTX文档中提取文本区域

该示例演示如何使用GroupDocs.Parser从PowerPoint演示文稿中提取文本块及其空间坐标。

Java

//  使用Parser API加载您的PPTX文件
try (Parser parser = new Parser("input.pptx"))
{
    // 获取所有矩形文本区域
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // 如果不支持此功能则退出
    if (areas == null)
    {
        return;
    }

    // 按照页面循环遍历文本区域
    for (PageTextArea a : areas)
    {
        // 处理每个文本块及其页码和边界矩形
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}