GroupDocs.Parser for Java

Извлечение гиперссылок из PDF с помощью Java

Извлекайте веб-ссылки и гиперссылки из PDF, Word файлов, Excel таблиц и других документов с использованием GroupDocs.Parser в вашей среде Java.

Как извлечь гиперссылки из Pdf в Java

GroupDocs.Parser упрощает извлечение гиперссылок из файлов PDF в приложениях Java с учетом следующих основных шагов:

  1. Откройте файл PDF с использованием экземпляра Parser.
  2. Убедитесь, что извлечение гиперссылок доступно для формата файла.
  3. Извлеките все гиперссылки, используя соответствующий метод.
  4. Пройдитесь по результатам и обрабатывайте каждую ссылку по мере необходимости.
// Загрузите файл, который может содержать гиперссылки, с помощью Parser.
try (Parser parser = new Parser("input.pdf")) {

    // Проверьте, поддерживает ли формат документа анализ гиперссылок.
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Извлечение гиперссылок недоступно для данного файла.");
        return;
    }

    // Извлеките и используйте данные гиперссылок из документа.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Нажмите для копирования
Скопировано
Больше примеров Документация

Всеобъемлющие инструменты для анализа документов

Помимо извлечения гиперссылок, GroupDocs.Parser позволяет собирать другой полезный контент, такой как простой текст, встроенные медиа и структурированные данные для использования в автоматизированных рабочих процессах.

Извлечение гиперссылок и анализ документов

Точная детекция ссылок

Извлекайте все типы гиперссылок из различных макетов документов, включая кликабельный текст и скрытые URL.

Работа с документами и веб-контентом

Извлекайте ссылки из PDF, DOCX, XLSX, HTML и изображений, содержащих встроенные гиперссылки.

Настраиваемое поведение извлечения

Уточняйте, как извлекаются гиперссылки, с помощью таких параметров, как диапазоны страниц, типы ссылок или фильтры контента.

Пример: извлечение гиперссылок из PDF с пользовательскими параметрами

Этот пример демонстрирует, как извлечь все ссылки из PDF файла, используя настройки извлечения ссылок.

Java

//  Откройте PDF с помощью класса Parser.
try (Parser parser = new Parser("input.docx"))
{
    // Проверьте, включена ли поддержка гиперссылок для этого документа.
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // Примените параметры для фильтрации ссылок.
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Используйте парсер для получения данных гиперссылок.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // Итерация по ссылкам и их соответствующая обработка.
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

О API GroupDocs.Parser for Java

GroupDocs.Parser — это надежный API для извлечения контента, разработанный для программистов Java. Он предлагает инструменты для извлечения гиперссылок, структурированных данных, изображений и текста из популярных форматов, таких как DOCX, XLSX, PDF, HTML и других — всё это без необходимости в сторонних плагинах.
Узнать больше
About illustration

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Форматы документов, поддерживающие извлечение гиперссылок

С помощью GroupDocs.Parser вы можете извлекать гиперссылки из многих широко используемых форматов файлов. Ниже приведен список форматов, которые обычно поддерживаются.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский