На этой веб-странице объясняется, как анализировать и извлекать гиперссылки из различных типов документов, страниц документа или определенной области страницы, используя всего пару строк кода Java. Гиперссылка может быть очень полезна для навигации между страницами или веб-сайтами и может указывать на весь документ или на определенную часть документа, графику, звуки, адреса электронной почты и многое другое. GroupDocs.Parser for Java — это очень мощный API, который позволяет разработчикам программного обеспечения анализировать документы и извлекать текст, а также метаданные из различных популярных документов в своих собственных Java-приложениях. Он включает несколько расширенных функций для извлечения текста и гиперссылок из различных типов документов, таких как PDF, электронные письма, электронные книги, форматы Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), форматы LibreOffice. и многое другое.
GroupDocs.Parser for Java позволяет разработчикам Java легко извлекать гиперссылки из файла DOC, выполняя несколько простых шагов. .
// Извлечение гиперссылок из файла DOC с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// Проверьте, поддерживает ли документ извлечение гиперссылок
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("Документ не поддерживает извлечение гиперссылок.");
return;
}
// Извлечь гиперссылки из документа
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// Итерация по гиперссылкам
for (PageHyperlinkArea h : hyperlinks) {
// Распечатать текст гиперссылки
System.out.println(h.getText());
// Распечатать URL-адрес гиперссылки
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.
Java API анализа документов и извлечения гиперссылок для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.
(Документ Microsoft Word с поддержкой макросов)
(Документ Microsoft Word с открытым XML)
(Шаблон документа Microsoft Word)
(Шаблон Microsoft Word с поддержкой макросов)
(Шаблон документа Word Open XML)
(Формат файла цифровой электронной книги)
(Язык гипертекстовой разметки)
(MIME-инкапсуляция совокупного HTML)
(MIME-инкапсуляция совокупного HTML)
(Формат файла презентации OpenDocument)
(Открыть электронную таблицу документов)
(Открыть текст документа)
(Формат файла Microsoft OneNote)
(Шаблон графика происхождения)
(Открыть шаблон документа)
(Портативный документ)