通过 C#/VB.NET API 从文档、页面或特定页面区域提取超链接

GroupDocs.Parser .NET API 允许软件开发者从 PDF、DOC、DOCX、PPT、PPTX、EML、MSG 的文档、页面或页面区域中解析和提取超链接、XLS、XLSX、CSV、ODT、RTF、EPUB 和许多其他文档。


下载免费试用版

如何通过 .NET API 解析和提取 OTP 文档中的超链接?

超链接是指向整个文档或文档中特定部分的一段文本、图像或图标。使用超链接允许用户导航到网页或文档。通常需要从文档中提取超链接并使用它来访问外部文档或网页。 GroupDocs.Parser for .NET 是一个令人着迷的文档文本提取 API,它提供了用于实施文本和元数据提取解决方案的完整功能。它支持从 PDF、电子邮件、电子书、Microsoft Office 格式中提取文本和超链接:Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 格式等等。它支持多种高级功能,用于文档解析、提取纯文本和结构化文本、按关键字搜索文本、提取元数据或图像、容器以及附件等等。

从 .NET 中的 OTP 中提取超链接

GroupDocs.Parser for .NET 让 C# 开发者只需执行几个简单的步骤即可轻松从 OTP 文件中提取超链接。

  • 实例化初始文档的 Parser 对象;
  • 检查文档是否支持超链接提取;
  • 调用 GetHyperlinks 方法并获取 PageHyperlinkArea 对象;
  • 遍历集合并获取超链接文本和 URL。

如何使用 C# 示例代码从 OTP 文件中提取超链接

// 使用 GroupDocs.Parser API 从 OTP 文件中提取超链接
// 创建 Parser 类的实例
using (Parser parser = new Parser(filePath)) {
    // 检查文档是否支持超链接提取
    if (!parser.Features.Hyperlinks) {
        Console.WriteLine("文档不支持超链接提取。");
        return;
    }
    // 从文档中提取超链接
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();
    // 迭代超链接
    foreach (PageHyperlinkArea h in hyperlinks) {
        // 打印超链接文本
        Console.WriteLine(h.Text);
        // 打印超链接 URL
        Console.WriteLine(h.Url);
        Console.WriteLine();
    }
}

系统要求

GroupDocs.Parser for .NET 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。

  • 操作系统:Microsoft Windows、Linux、MacOS
  • 开发环境:Microsoft Visual Studio, Xamarin, MonoDevelop
  • 构架
  • Nuget 下载最新版本的 GroupDocs.Parser for .NET

为什么使用GroupDocs.Parser for .NET

  • 支持从任何支持的文档中提取纯文本
  • 通过用户定义的模板解析文档
  • 全面支持结构化文本提取
  • 通过关键字和正则表达式进行文本搜索
  • 提取格式化文本、元数据、图像、容器和附件
  • 提取某些支持的文档格式的目录
  • 从 PDF 文档解析表单数据
  • 从文档中提取超链接

从其他文档格式中提取超链接

.NET 针对文件格式和图像的文档解析和超链接提取 API。提取一些流行文件格式的数据,如下所述。

PDF

(Portable Document Format)

PPS

(PowerPoint Slide Show)

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

Back to top
 中国人