GroupDocs.Parser for .NET

使用C#从XML提取超链接

通过在您的.NET应用程序中使用GroupDocs.Parser，检测并提取PDF、Word、Excel及其他文档类型中的URL和超链接。

NuGet 下载

开始免费试用

在C#中从Xml提取超链接的步骤

GroupDocs.Parser使.NET开发者能够通过以下简单步骤从XML文件中提取超链接：

使用Parser实例加载XML文件。
检查文档是否支持超链接提取。
从文档中检索超链接列表。
循环遍历结果并处理提取的URL。

复制

// 使用Parser类加载包含超链接的文档
using (Parser parser = new Parser("input.xml")) {

    // 验证文件是否支持超链接提取
    if (!parser.Features.Hyperlinks)
    {
        Console.WriteLine("该文件不支持超链接提取");
        return;
    }

    // 检索并处理提取的超链接
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();

    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}

dotnet add package GroupDocs.Parser

点击以复制

已复制

更多示例文档

高级文档解析功能

除了超链接提取之外，GroupDocs.Parser还允许您提取文本、元数据、图像和结构化数据，支持强大的数据处理工作流。

文档中的超链接检测

快速提取PDF、Word文件、电子表格等文档中的URL和链接注释。

支持网络和嵌入链接

检测并提取多种格式中的标准网页URL和嵌入文档链接。

灵活的解析选项

自定义提取设置以扫描特定部分或页面，以提高性能和准确性。

如何使用链接选项从PDF提取超链接

本代码示例展示了如何使用自定义选项从PDF文件中提取所有超链接。

C#

//  用PDF文档初始化Parser
using (Parser parser = new Parser("input.docx"))
{
    // 检查是否支持超链接提取
    if (!parser.Features.Hyperlinks)
    {
        return;
    }

    // 设置链接提取选项以缩小结果范围
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // 从文档中提取超链接数据
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks(options);

    // 处理提取的链接列表
    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}