GroupDocs.Parser使.NET开发者能够通过以下简单步骤从XML文件中提取超链接:
- 使用Parser实例加载XML文件。
- 检查文档是否支持超链接提取。
- 从文档中检索超链接列表。
- 循环遍历结果并处理提取的URL。
GroupDocs.Parser使.NET开发者能够通过以下简单步骤从XML文件中提取超链接:
// 使用Parser类加载包含超链接的文档
using (Parser parser = new Parser("input.xml")) {
// 验证文件是否支持超链接提取
if (!parser.Features.Hyperlinks)
{
Console.WriteLine("该文件不支持超链接提取");
return;
}
// 检索并处理提取的超链接
IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();
foreach (PageHyperlinkArea h in hyperlinks)
{
Console.WriteLine(h.Text);
Console.WriteLine(h.Url);
}
}
除了超链接提取之外,GroupDocs.Parser还允许您提取文本、元数据、图像和结构化数据,支持强大的数据处理工作流。
快速提取PDF、Word文件、电子表格等文档中的URL和链接注释。
检测并提取多种格式中的标准网页URL和嵌入文档链接。
自定义提取设置以扫描特定部分或页面,以提高性能和准确性。
本代码示例展示了如何使用自定义选项从PDF文件中提取所有超链接。
// 用PDF文档初始化Parser
using (Parser parser = new Parser("input.docx"))
{
// 检查是否支持超链接提取
if (!parser.Features.Hyperlinks)
{
return;
}
// 设置链接提取选项以缩小结果范围
PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));
// 从文档中提取超链接数据
IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks(options);
// 处理提取的链接列表
foreach (PageHyperlinkArea h in hyperlinks)
{
Console.WriteLine(h.Text);
Console.WriteLine(h.Url);
}
}