GroupDocs.Parser for Java

使用 Java 从 PDF 中提取超链接

在您的 Java 环境中，使用 GroupDocs.Parser 从 PDF、Word 文件、Excel 表及其他文档中提取网站链接和超链接。

Maven下载

开始免费试用

如何在 Java 中从 Pdf 提取超链接

GroupDocs.Parser 通过以下基本步骤简化在 Java 应用程序中从 PDF 文件中提取超链接的过程：

使用 Parser 的实例打开 PDF 文件。
确保该文件格式支持超链接提取。
使用相应的方法提取所有超链接。
遍历结果并根据需要处理每个链接。

复制

// 使用 Parser 加载可能包含超链接的文件
try (Parser parser = new Parser("input.pdf")) {

    // 检查文档格式是否支持超链接解析
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("该文件不支持超链接提取");
        return;
    }

    // 从文档中提取并使用超链接数据
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

点击以复制

已复制

更多示例文档

全面的文档解析工具

除了提取超链接，GroupDocs.Parser 允许您收集其他有用的内容，例如纯文本、嵌入式媒体和结构化数据，以便在自动化工作流程中使用。

准确的链接检测

从不同文档布局中捕捉所有类型的超链接，包括可点击的文本和隐藏的 URL。

适用于文档和网页内容

从包含嵌入超链接的 PDF、DOCX、XLSX、HTML 和图像文件中提取链接。

自定义提取行为

使用页面范围、链接类型或内容过滤器等选项精炼超链接的提取方式。

示例：使用自定义选项从 PDF 中提取超链接

此示例演示如何使用链接提取设置从 PDF 文件中提取所有链接。

Java

//  使用 Parser 类打开 PDF
try (Parser parser = new Parser("input.docx"))
{
    // 验证此文档是否启用了超链接支持
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // 应用选项以过滤链接
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // 使用解析器获取超链接数据
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // 遍历链接并相应处理
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}