超链接是指向整个文档或文档中特定部分的一段文本、图像或图标。使用超链接允许用户导航到网页或文档。通常需要从文档中提取超链接并使用它来访问外部文档或网页。 GroupDocs.Parser for Java 是一个令人着迷的文档文本提取 API,它提供了用于实施文本和元数据提取解决方案的完整功能。它支持从 PDF、电子邮件、电子书、Microsoft Office 格式中提取文本和超链接:Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 格式等等。它支持多种高级功能,用于文档解析、提取纯文本和结构化文本、按关键字搜索文本、提取元数据或图像、容器以及附件等等。
GroupDocs.Parser for Java 让 Java 开发者只需执行几个简单的步骤即可轻松从 DOC 文件中提取超链接。
// 使用 GroupDocs.Parser API 从 DOC 文件中提取超链接
// 创建 Parser 类的实例
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// 检查文档是否支持超链接提取
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("文档不支持超链接提取。");
return;
}
// 从文档中提取超链接
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// 迭代超链接
for (PageHyperlinkArea h : hyperlinks) {
// 打印超链接文本
System.out.println(h.getText());
// 打印超链接 URL
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。
Java 针对文件格式和图像的文档解析和超链接提取 API。提取一些流行文件格式的数据,如下所述。
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)