GroupDocs.Parser for .NET

Extraia hyperlinks de XML usando C#

Detecte e extraia URLs e hyperlinks de PDF, Word, Excel e outros tipos de documentos utilizando GroupDocs.Parser em suas aplicações .NET.

Passos para extrair hyperlinks de Xml em C#

GroupDocs.Parser permite que desenvolvedores .NET extraiam hyperlinks de arquivos XML seguindo estes passos simples:

  1. Carregue o arquivo XML usando uma instância de Parser.
  2. Verifique se o documento suporta a extração de hyperlinks.
  3. Recupere a lista de hyperlinks do documento.
  4. Percorra os resultados e trabalhe com as URLs extraídas.
// Carregue o documento contendo hyperlinks usando a classe Parser
using (Parser parser = new Parser("input.xml")) {

    // Verifique se o arquivo suporta a extração de hyperlinks
    if (!parser.Features.Hyperlinks)
    {
        Console.WriteLine("A extração de hyperlinks não está disponível para o arquivo");
        return;
    }

    // Recupere e processe os hyperlinks extraídos
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();

    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}
dotnet add package GroupDocs.Parser
clique para copiar
copiado
Mais exemplos Documentação

Capacidades avançadas de parsing de documentos

Além da extração de hyperlinks, GroupDocs.Parser permite extrair texto, metadados, imagens e dados estruturados—apoiando poderosos fluxos de trabalho de processamento de dados.

Detecção de hyperlinks e parsing de documentos

Detecção de hyperlinks em documentos

Extraia rapidamente URLs e anotações de links de documentos como PDFs, arquivos do Word, planilhas e mais.

Suporte a links da web e incorporados

Detecte e extraia tanto URLs da web padrão quanto links incorporados de documentos em múltiplos formatos.

Opções de parsing flexíveis

Personalize as configurações de extração para escanear seções ou páginas específicas para melhorar performance e precisão.

Como extrair hyperlinks de um PDF usando opções de link

Este exemplo de código mostra como extrair todos os hyperlinks de um arquivo PDF usando opções personalizadas.

C#

//  Inicialize o Parser com o documento PDF
using (Parser parser = new Parser("input.docx"))
{
    // Verifique se a extração de hyperlinks é suportada
    if (!parser.Features.Hyperlinks)
    {
        return;
    }

    // Defina opções de extração de link para restringir resultados
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Extraia os dados dos hyperlinks do documento
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks(options);

    // Gerencie a lista de links extraídos
    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}

Sobre a API GroupDocs.Parser for .NET

GroupDocs.Parser é uma API versátil de parsing de documentos para desenvolvedores .NET. Ela suporta a extração de hyperlinks, textos, imagens e conteúdo estruturado de vários formatos de arquivo, como PDF, Word, Excel, HTML, entre outros—sem depender de software externo.
Saiba mais
About illustration

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Formatos suportados para extração de hyperlinks

GroupDocs.Parser pode extrair hyperlinks de uma ampla variedade de tipos de documentos. Veja abaixo os formatos comumente suportados.

Dicas de licença temporária

1
Cadastre-se com seu e-mail comercial. Serviços de e-mail gratuitos não são permitidos.
2
Use o botão Obter uma licença temporária na segunda etapa.
 Português