Java 用于从文档、页面或特定页面区域提取超链接的 API

GroupDocs.Parser for Java API 允许开发者从文档、文档页面或 PDF、DOCX、PPTX、EML、MSG、XLS、{322 的特定页面区域中提取超链接,从而简化开发人员的工作}、CSV、RTF、EPUB 等等。


下载免费试用版

如何通过 Java API 解析和提取 DOC 文档中的超链接?

超链接是指向整个文档或文档中特定部分的一段文本、图像或图标。使用超链接允许用户导航到网页或文档。通常需要从文档中提取超链接并使用它来访问外部文档或网页。 GroupDocs.Parser for Java 是一个令人着迷的文档文本提取 API,它提供了用于实施文本和元数据提取解决方案的完整功能。它支持从 PDF、电子邮件、电子书、Microsoft Office 格式中提取文本和超链接:Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 格式等等。它支持多种高级功能,用于文档解析、提取纯文本和结构化文本、按关键字搜索文本、提取元数据或图像、容器以及附件等等。

从 Java 中的 DOC 中提取超链接

GroupDocs.Parser for Java 让 Java 开发者只需执行几个简单的步骤即可轻松从 DOC 文件中提取超链接。

  • 实例化初始文档的 Parser 对象;
  • 检查文档是否支持超链接提取;
  • 调用 getHyperlinks 方法并获取 PageHyperlinkArea 对象;
  • 遍历集合并获取超链接文本和 URL。

如何使用 Java 示例代码从 DOC 文件中提取超链接

// 使用 GroupDocs.Parser API 从 DOC 文件中提取超链接
// 创建 Parser 类的实例
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // 检查文档是否支持超链接提取
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("文档不支持超链接提取。");
        return;
    }
    // 从文档中提取超链接
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // 迭代超链接
    for (PageHyperlinkArea h : hyperlinks) {
        // 打印超链接文本
        System.out.println(h.getText());
        // 打印超链接 URL
        System.out.println(h.getUrl());
        System.out.println();
    }
}

系统要求

GroupDocs.Parser for Java 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。

  • 操作系统:Microsoft Windows、Linux、MacOS
  • 开发环境:NetBeans, Intellij IDEA, Eclipse, etc.
  • 构架
  • Maven 下载最新版本的 GroupDocs.Parser for Java

为什么使用GroupDocs.Parser for Java

  • 支持从任何支持的文档中提取纯文本
  • 通过用户定义的模板解析文档
  • 全面支持结构化文本提取
  • 通过关键字和正则表达式进行文本搜索
  • 提取格式化文本、元数据、图像、容器和附件
  • 提取某些支持的文档格式的目录
  • 从 PDF 文档解析表单数据
  • 从文档中提取超链接

从其他文档格式中提取超链接

Java 针对文件格式和图像的文档解析和超链接提取 API。提取一些流行文件格式的数据,如下所述。

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 中国人