Java API для извлечения гиперссылок из XHTML документов, страниц или определенной области страницы

GroupDocs.Parser for Java API упрощает работу разработчиков, позволяя им извлекать гиперссылки из документов, страницы документа или определенной области страницы PDF, DOCX, PPTX, EML, MSG, XLS, XLSX, CSV, RTF, EPUB и многих других.


Скачать бесплатную пробную версию

Как анализировать и извлекать гиперссылки из документов XHTML через Java API?

На этой веб-странице объясняется, как анализировать и извлекать гиперссылки из различных типов документов, страниц документа или определенной области страницы, используя всего пару строк кода Java. Гиперссылка может быть очень полезна для навигации между страницами или веб-сайтами и может указывать на весь документ или на определенную часть документа, графику, звуки, адреса электронной почты и многое другое. GroupDocs.Parser for Java — это очень мощный API, который позволяет разработчикам программного обеспечения анализировать документы и извлекать текст, а также метаданные из различных популярных документов в своих собственных Java-приложениях. Он включает несколько расширенных функций для извлечения текста и гиперссылок из различных типов документов, таких как PDF, электронные письма, электронные книги, форматы Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), форматы LibreOffice. и многое другое.

Извлечь гиперссылки из XHTML в Java

GroupDocs.Parser for Java позволяет разработчикам Java легко извлекать гиперссылки из файла XHTML, выполняя несколько простых шагов. .

  • Создать объект Parser для исходного документа;
  • Проверьте, поддерживает ли документ извлечение гиперссылок;
  • Вызовите метод getHyperlinks и получите коллекцию PageHyperlinkArea объектов;
  • Переберите коллекцию и получите текст гиперссылки и URL-адрес.

Как извлечь гиперссылки из файла XHTML, используя пример кода Java

// Извлечение гиперссылок из файла XHTML с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // Проверьте, поддерживает ли документ извлечение гиперссылок
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Документ не поддерживает извлечение гиперссылок.");
        return;
    }
    // Извлечь гиперссылки из документа
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // Итерация по гиперссылкам
    for (PageHyperlinkArea h : hyperlinks) {
        // Распечатать текст гиперссылки
        System.out.println(h.getText());
        // Распечатать URL-адрес гиперссылки
        System.out.println(h.getUrl());
        System.out.println();
    }
}

Системные Требования

GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: NetBeans, Intellij IDEA, Eclipse, etc.
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for Java из Maven

Зачем использовать GroupDocs.Parser for Java

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Извлечение гиперссылок из других форматов документов

Java API анализа документов и извлечения гиперссылок для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

Back to top
 Русский