GroupDocs.Parser 通过以下基本步骤简化在 Java 应用程序中从 PDF 文件中提取超链接的过程:
- 使用 Parser 的实例打开 PDF 文件。
- 确保该文件格式支持超链接提取。
- 使用相应的方法提取所有超链接。
- 遍历结果并根据需要处理每个链接。
GroupDocs.Parser 通过以下基本步骤简化在 Java 应用程序中从 PDF 文件中提取超链接的过程:
// 使用 Parser 加载可能包含超链接的文件
try (Parser parser = new Parser("input.pdf")) {
// 检查文档格式是否支持超链接解析
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("该文件不支持超链接提取");
return;
}
// 从文档中提取并使用超链接数据
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
for (PageHyperlinkArea h : hyperlinks) {
System.out.println(h.getText());
System.out.println(h.getUrl());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
除了提取超链接,GroupDocs.Parser 允许您收集其他有用的内容,例如纯文本、嵌入式媒体和结构化数据,以便在自动化工作流程中使用。
从不同文档布局中捕捉所有类型的超链接,包括可点击的文本和隐藏的 URL。
从包含嵌入超链接的 PDF、DOCX、XLSX、HTML 和图像文件中提取链接。
使用页面范围、链接类型或内容过滤器等选项精炼超链接的提取方式。
此示例演示如何使用链接提取设置从 PDF 文件中提取所有链接。
// 使用 Parser 类打开 PDF
try (Parser parser = new Parser("input.docx"))
{
// 验证此文档是否启用了超链接支持
if (!parser.getFeatures().isHyperlinks()) {
return;
}
// 应用选项以过滤链接
PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));
// 使用解析器获取超链接数据
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);
// 遍历链接并相应处理
for (PageHyperlinkArea h : hyperlinks) {
System.out.println(h.getText());
System.out.println(h.getUrl());
}
}