GroupDocs.Parser 一览

在 Java 应用程序中执行文档解析的 API

Illustration parser

从文档中提取数据

GroupDocs.Parser for Java API 使您能够从各种文件格式(如办公文档、电子邮件、附件和档案)中检索文本、元数据和图像。这个强大的工具可以帮助您高效访问和处理这些文件中包含的有价值的信息,适用于数据分析、搜索引擎索引或内容管理系统等多种应用。

解析文档

提取超链接、表格、二维码、条形码和 PDF 表单中的数据等各种元素。还可以使用自定义模板解析文档中的任何所需信息。

自定义结果

Java API 可以让您以原始、结构化、HTML 或 Markdown 等多种格式检索数据。此外,API 提供搜索功能,以便在文档的文本中查找特定单词或短语。

平台独立性

GroupDocs.Parser for Java 支持以下操作系统、框架和包管理器

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

支持的文件格式

GroupDocs.Parser for Java 支持与以下 文件格式 的操作。

Microsoft Office 格式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

图像与其他格式

  • 可移植: PDF
  • 图像: JPG, BMP, PNG, TIFF, GIF
  • 其他办公格式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

其他格式

  • 网络: HTML, MHTML
  • 档案: ZIP, TAR, 7Z
  • 电子书: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java 功能

快速准确地从 PDF、办公文档和图像中提取数据

Feature icon

提取文本

从各种文件格式(如办公文档、PDF 文件和图像)中提取文本信息,以便进行阅读和分析。

Feature icon

提取图像

从办公文档、PDF 文件等不同来源检索视觉内容,以便于访问和使用。

Feature icon

扫描二维码

检测并解码存在于办公文档、PDF 文件或视觉内容中的二维码,以便高效地获取信息。

Feature icon

从电子邮件附件和档案中提取数据

从电子邮件消息、文件附件和压缩数据源中收集有价值的信息,以便高效分析和利用。

Feature icon

提取表格

从 PDF 文档中识别并提取表格数据,以便进行有组织的分析和使用。

Feature icon

提取超链接

在办公文档或 PDF 文件中查找并提取超链接和电子邮件地址,以便高效访问。

Feature icon

解析 PDF 表单

PDF 表单是数字文档,具有可供用户交互填写的字段,允许他们以电子方式输入信息。可以利用 .NET API 提取这些表单中的数据,以便高效处理。

Feature icon

按模板解析数据

创建自定义模板,并结合 .NET API 使用,以从 PDF 文件中解析特定信息,从而简化数据提取流程。

Feature icon

在文档中搜索文本

快速定位文档中的特定单词或模式。

代码示例

一些典型 GroupDocs.Parser for Java 操作的用例

从 PDF 文档中提取图像

GroupDocs.Parser for Java 简化了 Java 开发人员从 文档 中提取图像的过程:

在 Java 中从 PDF 文档中提取图像

// 创建一个 Parser 类的实例
try (Parser parser = new Parser("source.pdf"))
{
    // 提取图像
    Iterable<PageImageArea> images = parser.getImages();

    // 检查是否有图像被提取
    if (images == null) {
        return;
    }

    // 遍历图像
    for (PageImageArea image : images) {
        // 打印页面索引、矩形和图像类型
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

从图像中提取条形码

使用我们的 Java API 从图像中提取 条形码

在 Java 中从图像中提取条形码

// 将源图像加载到 Parser
try (Parser parser = new Parser("source.jpg")){

    // 检查文件是否支持条形码提取
    if (!parser.getFeatures().isBarcodes()) {

        // 从文件中提取条形码
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // 遍历条形码
        for (PageBarcodeArea barcode : barcodes) {
            // 打印页面索引
            System.out.println("Page: " + barcode.getPage().getIndex());
            // 打印条形码值
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人