GroupDocs.Parser for .NET

Извлечение гиперссылок из PDF с использованием C#

Обнаруживайте и извлекайте URLs и гиперссылки из PDF, Word, Excel и других типов документов с помощью GroupDocs.Parser в ваших приложениях .NET.

Загрузка NuGet

Бесплатная пробная версия

Шаги для извлечения гиперссылок из Pdf в C#

GroupDocs.Parser позволяет разработчикам .NET извлекать гиперссылки из файлов PDF в несколько простых шагов:

Загрузите файл PDF с помощью экземпляра Parser.
Проверьте, поддерживает ли документ извлечение гиперссылок.
Извлеките список гиперссылок из документа.
Просмотрите результаты и работайте с извлеченными URL-адресами.

Копировать

// Загрузите документ, содержащий гиперссылки, с помощью класса Parser
using (Parser parser = new Parser("input.pdf")) {

    // Убедитесь, что файл поддерживает извлечение гиперссылок
    if (!parser.Features.Hyperlinks)
    {
        Console.WriteLine("Извлечение гиперссылок недоступно для данного файла");
        return;
    }

    // Получите и обработайте извлеченные гиперссылки
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();

    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}

dotnet add package GroupDocs.Parser

Нажмите для копирования

Скопировано

Больше примеров Документация

Расширенные возможности разбора документов

В дополнение к извлечению гиперссылок, GroupDocs.Parser позволяет извлекать текст, метаданные, изображения и структурированные данные — поддерживая мощные рабочие процессы обработки данных.

Обнаружение гиперссылок и разбор документов

Обнаружение гиперссылок в документах

Быстро извлекайте URLs и аннотации ссылок из таких документов, как PDF, Word-файлы, электронные таблицы и других.

Поддержка веб и встроенных ссылок

Обнаруживайте и извлекайте как стандартные веб-URLs, так и встроенные ссылки из документов в различных форматах.

Гибкие параметры разбора

Настраивайте параметры извлечения для сканирования специфических разделов или страниц для повышения производительности и точности.

Как извлечь гиперссылки из PDF с использованием параметров ссылок

Этот пример кода демонстрирует, как извлечь все гиперссылки из PDF файла с использованием пользовательских параметров.

C#

//  Инициализируйте Parser с документом PDF
using (Parser parser = new Parser("input.docx"))
{
    // Проверьте, поддерживается ли извлечение гиперссылок
    if (!parser.Features.Hyperlinks)
    {
        return;
    }

    // Установите параметры извлечения ссылок для уточнения результатов
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Извлеките данные о гиперссылках из документа
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks(options);

    // Обработайте список извлеченных ссылок
    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}

О API GroupDocs.Parser for .NET

GroupDocs.Parser — это универсальный API для разбора документов, предназначенный для разработчиков .NET. Он поддерживает извлечение гиперссылок, текста, изображений и структурированных данных из различных форматов файлов, таких как PDF, Word, Excel, HTML и других без использования стороннего программного обеспечения.

Узнать больше