На этой веб-странице объясняется, как анализировать и извлекать гиперссылки из различных типов документов, страниц документа или определенной области страницы, используя всего пару строк кода Java. Гиперссылка может быть очень полезна для навигации между страницами или веб-сайтами и может указывать на весь документ или на определенную часть документа, графику, звуки, адреса электронной почты и многое другое. GroupDocs.Parser for Java — это очень мощный API, который позволяет разработчикам программного обеспечения анализировать документы и извлекать текст, а также метаданные из различных популярных документов в своих собственных Java-приложениях. Он включает несколько расширенных функций для извлечения текста и гиперссылок из различных типов документов, таких как PDF, электронные письма, электронные книги, форматы Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), форматы LibreOffice. и многое другое.
GroupDocs.Parser for Java позволяет разработчикам Java легко извлекать гиперссылки из файла XHTML, выполняя несколько простых шагов. .
// Извлечение гиперссылок из файла XHTML с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// Проверьте, поддерживает ли документ извлечение гиперссылок
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("Документ не поддерживает извлечение гиперссылок.");
return;
}
// Извлечь гиперссылки из документа
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// Итерация по гиперссылкам
for (PageHyperlinkArea h : hyperlinks) {
// Распечатать текст гиперссылки
System.out.println(h.getText());
// Распечатать URL-адрес гиперссылки
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.