GroupDocs.Parser for Java

在Java中提取RTF文档的数据

通过在Java应用程序中使用GroupDocs.Parser,无缝提取PDF、Word、Excel及基于图像的文档中的结构化内容,例如文本、元数据、表格和图形。

如何使用Java从Rtf提取数据

要在您的Java项目中使用GroupDocs.Parser从RTF文档中提取有用信息,请遵循以下步骤:

  1. 使用Parser对象打开RTF文件。
  2. 使用解析器检索所需的数据(文本、表格、元数据等)。
  3. 确保输出正确且完整。
  4. 将解析的内容集成到您的数据流、业务流程或应用程序中。
// 使用输入文档初始化Parser
try (Parser parser = new Parser("input.rtf"))
{
    // 从文档中检索所有可用的文本内容
    try (TextReader reader = parser.getText())
    {
        // 如果未找到文本,返回值将为null
        // 将提取的内容整合到您的解决方案中
        System.out.println(reader == null ? 
            "此格式可能不支持文本提取" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
点击以复制
已复制
更多示例 文档

多功能文档解析功能

GroupDocs.Parser不仅支持文本提取——它支持对条形码、元数据、图像、表格和其他数据的全面解析,以推动智能自动化和数据驱动的应用程序。

文档数据解析和提取的视觉概述

从多种文件格式提取

从PDF、Word、Excel、PowerPoint、HTML等广泛使用的文件类型中访问文本、表格和媒体等数据。

解析数字和扫描来源的内容

处理来自原生数字文件和扫描图像的内容,在必要时使用OCR来解释嵌入文本。

灵活的配置选项

通过页面选择、布局区域和自定义字段模板的设置,量身定制您的解析以满足特定的提取需求。

使用数据提取模板解析PDF

该示例展示了如何通过GroupDocs.Parser使用自定义模板从PDF中提取结构化字段。

Java

//  使用Parser类打开PDF
try (Parser parser = new Parser("input.pdf"))
{
    // 应用解析模板以提取定义的数据
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // 检查模板基础的提取是否可用
    if (data == null) {
        return;
    }

    // 处理提取的数据字段
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // 定义提取“详情”部分的检测器设置
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

GroupDocs.Parser for Java是什么?

GroupDocs.Parser是一个强大的API,面向Java开发者,提供先进的文档解析功能。它允许您从PDF、DOCX、XLSX、PPTX等多种格式中提取和处理文本数据、图像、表格、结构化字段和条形码,且无需安装额外的库。
了解更多
About illustration

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

支持内容提取的文件类型

GroupDocs.Parser与广泛的文档和图像文件类型兼容,使得在解析和数据自动化场景中从常用格式提取信息变得简单。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人