GroupDocs.Parser for Java

在Java中提取RTF文档的数据

通过在Java应用程序中使用GroupDocs.Parser，无缝提取PDF、Word、Excel及基于图像的文档中的结构化内容，例如文本、元数据、表格和图形。

Maven下载

开始免费试用

如何使用Java从Rtf提取数据

要在您的Java项目中使用GroupDocs.Parser从RTF文档中提取有用信息，请遵循以下步骤：

使用Parser对象打开RTF文件。
使用解析器检索所需的数据（文本、表格、元数据等）。
确保输出正确且完整。
将解析的内容集成到您的数据流、业务流程或应用程序中。

复制

// 使用输入文档初始化Parser
try (Parser parser = new Parser("input.rtf"))
{
    // 从文档中检索所有可用的文本内容
    try (TextReader reader = parser.getText())
    {
        // 如果未找到文本，返回值将为null
        // 将提取的内容整合到您的解决方案中
        System.out.println(reader == null ? 
            "此格式可能不支持文本提取" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

点击以复制

已复制

更多示例文档

多功能文档解析功能

GroupDocs.Parser不仅支持文本提取——它支持对条形码、元数据、图像、表格和其他数据的全面解析，以推动智能自动化和数据驱动的应用程序。

从多种文件格式提取

从PDF、Word、Excel、PowerPoint、HTML等广泛使用的文件类型中访问文本、表格和媒体等数据。

解析数字和扫描来源的内容

处理来自原生数字文件和扫描图像的内容，在必要时使用OCR来解释嵌入文本。

灵活的配置选项

通过页面选择、布局区域和自定义字段模板的设置，量身定制您的解析以满足特定的提取需求。

使用数据提取模板解析PDF

该示例展示了如何通过GroupDocs.Parser使用自定义模板从PDF中提取结构化字段。

Java

//  使用Parser类打开PDF
try (Parser parser = new Parser("input.pdf"))
{
    // 应用解析模板以提取定义的数据
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // 检查模板基础的提取是否可用
    if (data == null) {
        return;
    }

    // 处理提取的数据字段
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // 定义提取“详情”部分的检测器设置
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}