C# API для извлечения гиперссылок из OTP докуметов, страниц или определенной области страницы

GroupDocs.Parser for .NET API упрощает работу разработчиков, позволяя им извлекать гиперссылки из документов, страницы документа или определенной области страницы PDF, DOCX, PPTX, EML, MSG, XLS, XLSX, CSV, RTF, EPUB и многих других.


Скачать бесплатную пробную версию

Как анализировать и извлекать гиперссылки из документов OTP через .NET API?

Гиперссылка — это фрагмент текста, изображение или значок, который указывает на весь документ или на определенную часть документа. Использование гиперссылок позволяет пользователям переходить на веб-страницу или документ. Часто требуется извлечь гиперссылки из документа и использовать их для доступа к внешнему документу или веб-странице. GroupDocs.Parser for .NET – это увлекательный API для извлечения текста из документов, который предоставляет полную функциональность для реализации решений для извлечения текста и метаданных. Он поддерживает извлечение текста и гиперссылок из PDF, электронных писем, электронных книг, форматов Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), форматов LibreOffice и многих других. Он поддерживает несколько расширенных функций для анализа документов, извлечения простого и структурированного текста, поиска текста по ключевым словам, извлечения метаданных или изображений, контейнеров, а также вложений и многого другого.

Извлечь гиперссылки из OTP в .NET

GroupDocs.Parser for .NET позволяет разработчикам C# легко извлекать гиперссылки из файла OTP, выполняя несколько простых шагов. .

  • Создать объект Parser для исходного документа;
  • Проверьте, поддерживает ли документ извлечение гиперссылок;
  • Вызовите метод GetHyperlinks и получите коллекцию PageHyperlinkArea объектов;
  • Переберите коллекцию и получите текст гиперссылки и URL-адрес.

Как извлечь гиперссылки из файла OTP, используя пример кода C#

// Извлечение гиперссылок из файла OTP с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
using (Parser parser = new Parser(filePath)) {
    // Проверьте, поддерживает ли документ извлечение гиперссылок
    if (!parser.Features.Hyperlinks) {
        Console.WriteLine("Документ не поддерживает извлечение гиперссылок.");
        return;
    }
    // Извлечь гиперссылки из документа
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();
    // Итерация по гиперссылкам
    foreach (PageHyperlinkArea h in hyperlinks) {
        // Распечатать текст гиперссылки
        Console.WriteLine(h.Text);
        // Распечатать URL-адрес гиперссылки
        Console.WriteLine(h.Url);
        Console.WriteLine();
    }
}

Системные Требования

GroupDocs.Parser for .NET API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for .NET из Nuget

Зачем использовать GroupDocs.Parser for .NET

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Извлечение гиперссылок из других форматов документов

.NET API анализа документов и извлечения гиперссылок для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

PDF

(Портативный документ)

PPS

(Слайд-шоу Microsoft PowerPoint)

PPSX

(Слайд-шоу PowerPoint Open XML)

PPT

(Презентация PowerPoint)

PPTX

(Презентация PowerPoint Open XML)

RTF

(Расширенный текстовый формат файла)

TEX

(Исходный документ LaTeX)

VDX

(Формат файла чертежа Microsoft Visio XML)

VSDM

(Рисование Visio с поддержкой макросов)

VSDX

(Формат файла Microsoft Visio)

VSSM

(Формат файла с поддержкой макросов Microsoft Visio)

VSSX

(Формат файла трафарета Visio)

VSTM

(Шаблон чертежа Visio с поддержкой макросов)

VSTX

(Формат файла Microsoft Visio)

VSX

(Векторное скалярное расширение)

VTX

(Шаблон чертежа Microsoft Visio)

Back to top
 Русский