GroupDocs.Parser for Java

Витягування гіперпосилань з XML за допомогою Java

Витягніть веб-ліки та гіперпосилання з PDF, Word, Excel та інших документів, використовуючи GroupDocs.Parser у вашому Java середовищі.

Як витягувати гіперпосилання з Xml в Java

GroupDocs.Parser спрощує витягування гіперпосилань з файлів XML у додатках Java за допомогою цих основних етапів:

  1. Відкрийте файл XML за допомогою екземпляра Parser.
  2. Переконайтесь, що витягування гіперпосилань доступне для формату файлу.
  3. Витягніть усі гіперпосилання за допомогою відповідного методу.
  4. Перегляньте результати та обробіть кожне посилання за потреби.
// Завантажте файл, що може містити гіперпосилання, за допомогою Parser
try (Parser parser = new Parser("input.xml")) {

    // Перевірте, чи підтримує формат документа витягування гіперпосилань
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Витягнення гіперпосилань недоступне для файлу");
        return;
    }

    // Витягніть і використайте дані з гіперпосиланнями з документа
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
натисніть, щоб скопіювати
скопійовано
Більше прикладів Документація

Всебічні інструменти для парсингу документів

Окрім витягування гіперпосилань, GroupDocs.Parser дозволяє вам збирати інший корисний вміст, такий як звичайний текст, вбудовані медіа та структуровані дані для використання в автоматизованих робочих процесах.

Витягування гіперпосилань та аналіз документів

Точне виявлення посилань

Збирайте всі типи гіперпосилань з різних макетів документів, включаючи клікабельний текст та приховані URL-адреси.

Підходить для документів та веб-контенту

Витягуйте посилання з PDF, DOCX, XLSX, HTML та зображень, що містять вбудовані гіперпосилання.

Користувацька поведінка витягування

Уточніть, як витягуються гіперпосилання, використовуючи такі параметри, як діапазони сторінок, типи посилань або фільтри вмісту.

Приклад: витягування гіперпосилань з PDF з користувацькими параметрами

Цей приклад демонструє, як витягнути всі посилання з PDF-файлу, використовуючи налаштування витягування посилань.

Java

//  Відкрийте PDF за допомогою класу Parser
try (Parser parser = new Parser("input.docx"))
{
    // Переконайтесь, що підтримка гіперпосилань увімкнена для цього документа
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // Застосуйте параметри для фільтрації посилань
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Використовуйте парсер для отримання даних з гіперпосиланнями
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // Перегляньте посилання та обробіть їх відповідно
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

Про API GroupDocs.Parser for Java

GroupDocs.Parser — це надійний API для витягування вмісту, розроблений для розробників Java. Він пропонує інструменти для витягування гіперпосилань, структурованих даних, зображень та тексту з популярних форматів, таких як DOCX, XLSX, PDF, HTML та інших—все без необхідності в сторонніх плагінах.
Дізнатися більше
About illustration

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Формати документів, що підтримують витягування гіперпосилань

За допомогою GroupDocs.Parser ви можете витягувати гіперпосилання з багатьох поширених форматів файлів. Нижче наведено список форматів, які зазвичай підтримуються.

Поради щодо тимчасової ліцензії

1
Зареєструйтеся за допомогою вашої робочої e-mail. Безкоштовні поштові служби заборонені.
2
Скористайтеся кнопкою Отримати тимчасову ліцензію на другому кроці.
 Українська