GroupDocs.Parser for Java

Извлечение гиперссылок из PPTX с помощью Java

Извлекайте веб-ссылки и гиперссылки из PDF, Word файлов, Excel таблиц и других документов с использованием GroupDocs.Parser в вашей среде Java.

Скачать Maven

Бесплатная пробная версия

Как извлечь гиперссылки из Pptx в Java

GroupDocs.Parser упрощает извлечение гиперссылок из файлов PPTX в приложениях Java с учетом следующих основных шагов:

Откройте файл PPTX с использованием экземпляра Parser.
Убедитесь, что извлечение гиперссылок доступно для формата файла.
Извлеките все гиперссылки, используя соответствующий метод.
Пройдитесь по результатам и обрабатывайте каждую ссылку по мере необходимости.

Копировать

// Загрузите файл, который может содержать гиперссылки, с помощью Parser.
try (Parser parser = new Parser("input.pptx")) {

    // Проверьте, поддерживает ли формат документа анализ гиперссылок.
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Извлечение гиперссылок недоступно для данного файла.");
        return;
    }

    // Извлеките и используйте данные гиперссылок из документа.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Нажмите для копирования

Скопировано

Больше примеров Документация

Всеобъемлющие инструменты для анализа документов

Помимо извлечения гиперссылок, GroupDocs.Parser позволяет собирать другой полезный контент, такой как простой текст, встроенные медиа и структурированные данные для использования в автоматизированных рабочих процессах.

Извлечение гиперссылок и анализ документов

Точная детекция ссылок

Извлекайте все типы гиперссылок из различных макетов документов, включая кликабельный текст и скрытые URL.

Работа с документами и веб-контентом

Извлекайте ссылки из PDF, DOCX, XLSX, HTML и изображений, содержащих встроенные гиперссылки.

Настраиваемое поведение извлечения

Уточняйте, как извлекаются гиперссылки, с помощью таких параметров, как диапазоны страниц, типы ссылок или фильтры контента.

Пример: извлечение гиперссылок из PDF с пользовательскими параметрами

Этот пример демонстрирует, как извлечь все ссылки из PDF файла, используя настройки извлечения ссылок.

Java

//  Откройте PDF с помощью класса Parser.
try (Parser parser = new Parser("input.docx"))
{
    // Проверьте, включена ли поддержка гиперссылок для этого документа.
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // Примените параметры для фильтрации ссылок.
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Используйте парсер для получения данных гиперссылок.
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // Итерация по ссылкам и их соответствующая обработка.
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

О API GroupDocs.Parser for Java

GroupDocs.Parser — это надежный API для извлечения контента, разработанный для программистов Java. Он предлагает инструменты для извлечения гиперссылок, структурированных данных, изображений и текста из популярных форматов, таких как DOCX, XLSX, PDF, HTML и других — всё это без необходимости в сторонних плагинах.

Узнать больше

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Скачать Maven

Бесплатная пробная версия

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Форматы документов, поддерживающие извлечение гиперссылок

С помощью GroupDocs.Parser вы можете извлекать гиперссылки из многих широко используемых форматов файлов. Ниже приведен список форматов, которые обычно поддерживаются.

Парсинг PDF
(Формат переносимого документа)
Парсинг DOCX
(Документ Word 2007+)
Парсинг XLSX
(Рабочая книга Open XML)
Парсинг TXT
(Текстовый файл)
Парсинг RTF
(Формат Rich Text)
Парсинг XML
(Расширяемый язык разметки)
Парсинг EPUB
(Файл открытой электронной книги)