GroupDocs.Parser 概述

用于在 Java 应用程序中执行文档解析的 API

Illustration parser

从文档中提取数据

Java API 使您能够从各种文件格式(例如 Office 文档、电子邮件、附件和存档)中检索文本、元数据和图像。这个强大的工具可帮助您有效地访问和处理这些文件中包含的有价值的信息,以用于各种应用程序,例如数据分析、搜索引擎索引或内容管理系统。

解析文档

从PDF表单中提取各种元素,例如超链接、表格、二维码、条形码和数据。还可以使用自定义模板从文档中解析任何所需的信息。

定制结果

Java API 可让您检索各种格式的数据,例如原始格式、结构化格式、HTML 或 Markdown 格式。此外,API 还提供搜索功能,用于在文档文本中查找特定单词或短语。

平台独立性

GroupDocs.Parser for Java 支持以下操作系统、框架和软件包管理器

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

支持的文件格式

GroupDocs.Parser for Java 支持以下文件格式 的操作。

Microsoft Office 格式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

图像和其他格式

  • Portable: PDF
  • 图片: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • 其他办公形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

其他格式

  • 网络: HTML, MHTML
  • 档案: ZIP, TAR, 7Z
  • 电子书: CHM, EPUB, FB2, MOBI

GroupDocs.Parser 功能

快速准确地从 PDF、Office 文档和图像中提取数据。

Feature icon

提取文本

从各种文件格式(例如 Office 文档、PDF 文件和图像)中提取文本信息,以便于阅读和分析。

Feature icon

提取图像

从办公文档、PDF 文件等不同来源检索视觉内容,以便于访问和使用。

Feature icon

扫描二维码

检测和解码办公文档、PDF 文件或视觉内容中存在的 QR 码,以实现高效的信息检索。

Feature icon

从电子邮件附件和档案中提取数据

从电子邮件、文件附件和压缩数据源中收集有价值的信息,以便进行有效分析和利用。

Feature icon

提取表格

从 PDF 文档中识别并提取表格数据,以便进行有组织的分析和使用。

Feature icon

提取超链接

找到并提取 Office 文档或 PDF 文件中的超链接和电子邮件地址,以便高效访问。

Feature icon

解析 PDF 表单

PDF 表单是数字文档,具有用于用户交互的可填写字段,允许用户以电子方式输入信息。 Java API 可用于从这些表单中提取数据,以便进行高效处理。

Feature icon

通过模板解析数据

创建自定义模板并通过 Java API 使用它们来解析 PDF 文件中的特定信息,从而简化数据提取过程。

Feature icon

在文档中搜索文本

快速定位文档中的特定单词或模式。

代码示例

典型 GroupDocs.Parser for Java 操作的一些用例

从 PDF 文档中提取图像

Java API 使 Java 开发者只需执行几个简单的步骤即可轻松从文档中提取图像。

从 Java 中的 PDF 个文档中提取图像

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

从图像中提取条形码

Java API 使 Java 开发者只需执行几个简单的步骤即可轻松从文档中提取条形码。

从图像中提取条形码

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人