GroupDocs.Parser for .NET

Извлечение гиперссылок из PDF с использованием C#

Обнаруживайте и извлекайте URLs и гиперссылки из PDF, Word, Excel и других типов документов с помощью GroupDocs.Parser в ваших приложениях .NET.

Шаги для извлечения гиперссылок из Pdf в C#

GroupDocs.Parser позволяет разработчикам .NET извлекать гиперссылки из файлов PDF в несколько простых шагов:

  1. Загрузите файл PDF с помощью экземпляра Parser.
  2. Проверьте, поддерживает ли документ извлечение гиперссылок.
  3. Извлеките список гиперссылок из документа.
  4. Просмотрите результаты и работайте с извлеченными URL-адресами.
// Загрузите документ, содержащий гиперссылки, с помощью класса Parser
using (Parser parser = new Parser("input.pdf")) {

    // Убедитесь, что файл поддерживает извлечение гиперссылок
    if (!parser.Features.Hyperlinks)
    {
        Console.WriteLine("Извлечение гиперссылок недоступно для данного файла");
        return;
    }

    // Получите и обработайте извлеченные гиперссылки
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();

    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}
dotnet add package GroupDocs.Parser
Нажмите для копирования
Скопировано
Больше примеров Документация

Расширенные возможности разбора документов

В дополнение к извлечению гиперссылок, GroupDocs.Parser позволяет извлекать текст, метаданные, изображения и структурированные данные — поддерживая мощные рабочие процессы обработки данных.

Обнаружение гиперссылок и разбор документов

Обнаружение гиперссылок в документах

Быстро извлекайте URLs и аннотации ссылок из таких документов, как PDF, Word-файлы, электронные таблицы и других.

Поддержка веб и встроенных ссылок

Обнаруживайте и извлекайте как стандартные веб-URLs, так и встроенные ссылки из документов в различных форматах.

Гибкие параметры разбора

Настраивайте параметры извлечения для сканирования специфических разделов или страниц для повышения производительности и точности.

Как извлечь гиперссылки из PDF с использованием параметров ссылок

Этот пример кода демонстрирует, как извлечь все гиперссылки из PDF файла с использованием пользовательских параметров.

C#

//  Инициализируйте Parser с документом PDF
using (Parser parser = new Parser("input.docx"))
{
    // Проверьте, поддерживается ли извлечение гиперссылок
    if (!parser.Features.Hyperlinks)
    {
        return;
    }

    // Установите параметры извлечения ссылок для уточнения результатов
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Извлеките данные о гиперссылках из документа
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks(options);

    // Обработайте список извлеченных ссылок
    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}

О API GroupDocs.Parser for .NET

GroupDocs.Parser — это универсальный API для разбора документов, предназначенный для разработчиков .NET. Он поддерживает извлечение гиперссылок, текста, изображений и структурированных данных из различных форматов файлов, таких как PDF, Word, Excel, HTML и других без использования стороннего программного обеспечения.
Узнать больше
About illustration

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые форматы для извлечения гиперссылок

GroupDocs.Parser может извлекать гиперссылки из широкого спектра типов документов. Ниже представлены обычно поддерживаемые форматы.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский