Продукты
/ GroupDocs.Parser
/ Java
/ Извлечь гиперссылки из XHTML в Java

Java API для извлечения гиперссылок из XHTML документов, страниц или определенной области страницы

GroupDocs.Parser for Java API упрощает работу разработчиков, позволяя им извлекать гиперссылки из документов, страницы документа или определенной области страницы PDF, DOCX, PPTX, EML, MSG, XLS, XLSX, CSV, RTF, EPUB и многих других.

Как анализировать и извлекать гиперссылки из документов XHTML через Java API?

На этой веб-странице объясняется, как анализировать и извлекать гиперссылки из различных типов документов, страниц документа или определенной области страницы, используя всего пару строк кода Java. Гиперссылка может быть очень полезна для навигации между страницами или веб-сайтами и может указывать на весь документ или на определенную часть документа, графику, звуки, адреса электронной почты и многое другое. GroupDocs.Parser for Java — это очень мощный API, который позволяет разработчикам программного обеспечения анализировать документы и извлекать текст, а также метаданные из различных популярных документов в своих собственных Java-приложениях. Он включает несколько расширенных функций для извлечения текста и гиперссылок из различных типов документов, таких как PDF, электронные письма, электронные книги, форматы Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), форматы LibreOffice. и многое другое.

Извлечь гиперссылки из XHTML в Java

GroupDocs.Parser for Java позволяет разработчикам Java легко извлекать гиперссылки из файла XHTML, выполняя несколько простых шагов. .

Создать объект Parser для исходного документа;
Проверьте, поддерживает ли документ извлечение гиперссылок;
Вызовите метод getHyperlinks и получите коллекцию PageHyperlinkArea объектов;
Переберите коллекцию и получите текст гиперссылки и URL-адрес.

Узнать больше про извлечение гиперссылок

Как извлечь гиперссылки из файла XHTML, используя пример кода Java

// Извлечение гиперссылок из файла XHTML с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // Проверьте, поддерживает ли документ извлечение гиперссылок
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Документ не поддерживает извлечение гиперссылок.");
        return;
    }
    // Извлечь гиперссылки из документа
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // Итерация по гиперссылкам
    for (PageHyperlinkArea h : hyperlinks) {
        // Распечатать текст гиперссылки
        System.out.println(h.getText());
        // Распечатать URL-адрес гиперссылки
        System.out.println(h.getUrl());
        System.out.println();
    }
}

Системные Требования

GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

Операционные системы: Microsoft Windows, Linux, MacOS
Среды разработки: NetBeans, Intellij IDEA, Eclipse, etc.
Фреймворки
Загрузите последнюю версию GroupDocs.Parser for Java из Maven

Зачем использовать GroupDocs.Parser for Java

Поддержка извлечения простого текста из любых поддерживаемых документов
Парсинг документов по пользовательским шаблонам
Полная поддержка извлечения структурированного текста
Текстовый поиск по ключевому слову и регулярному выражению
Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
Извлечение оглавления для некоторых поддерживаемых форматов документов
Парсинг данных форм из PDF-документов
Извлечение гиперссылок из документа

Java API для извлечения гиперссылок из XHTML документов, страниц или определенной области страницы

GroupDocs.Parserfor Java

Как анализировать и извлекать гиперссылки из документов XHTML через Java API?

Извлечь гиперссылки из XHTML в Java

Узнать больше про извлечение гиперссылок

Как извлечь гиперссылки из файла XHTML, используя пример кода Java

Системные Требования

Зачем использовать GroupDocs.Parser for Java

Извлечение гиперссылок из других форматов документов

GroupDocs.Parser
for Java