Extrayez des liens hypertexte à partir de documents, de pages ou d’une zone de page spécifique via l’API C#/VB.NET

GroupDocs.Parser .NET L’API permet aux développeurs de logiciels d’analyser et d’extraire des hyperliens à partir de documents, de pages ou de la zone de page de PDF, DOC, DOCX, PPT, PPTX, EML, MSG , XLS, XLSX, CSV, ODT, RTF, EPUB et de nombreux autres documents.


Télécharger la version d'essai gratuite

Comment analyser et extraire les hyperliens des documents OTP via l'API .NET ?

Un lien hypertexte est un morceau de texte ou une image ou une icône qui pointe vers un document entier ou vers une partie particulière d’un document. L’utilisation d’hyperliens permet aux utilisateurs de naviguer vers une page Web ou un document. Il est souvent nécessaire d’extraire des hyperliens d’un document et de l’utiliser pour accéder à un document externe ou à une page Web. GroupDocs.Parser for .NET est une fascinante API d’extraction de texte de document qui fournit des fonctionnalités complètes pour la mise en œuvre de solutions d’extraction de texte et de métadonnées. Il prend en charge l’extraction de texte et d’hyperliens à partir des formats PDF, e-mails, livres électroniques, Microsoft Office : Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), les formats LibreOffice et bien d’autres. Il prend en charge plusieurs fonctionnalités avancées pour l’analyse de documents, l’extraction de texte brut et structuré, la recherche de texte par mots-clés, l’extraction de métadonnées ou d’images, de conteneurs ainsi que de pièces jointes et bien d’autres.

Extraire les hyperliens de OTP dans .NET

GroupDocs.Parser for .NET permet aux développeurs C# d’extraire facilement des liens hypertexte d’un fichier OTP en mettant en œuvre quelques étapes simples.

  • Instanciez l’objet Parser pour le document initial ;
  • Vérifiez si le document prend en charge l’extraction de lien hypertexte ;
  • Appelez la méthode GetHyperlinks et obtenez la collection de PageHyperlinkArea objets ;
  • Parcourez la collection et obtenez un texte de lien hypertexte et une URL.

Comment extraire des hyperliens du fichier OTP à l'aide de l'exemple de code C#

// Extraire les hyperliens du fichier OTP à l'aide de l'API GroupDocs.Parser
// Créer une instance de la classe Parser
using (Parser parser = new Parser(filePath)) {
    // Vérifiez si le document prend en charge l'extraction de lien hypertexte
    if (!parser.Features.Hyperlinks) {
        Console.WriteLine("Le document ne prend pas en charge l'extraction de liens hypertexte.");
        return;
    }
    // Extraire les hyperliens du document
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();
    // Itérer sur les hyperliens
    foreach (PageHyperlinkArea h in hyperlinks) {
        // Imprimer le texte du lien hypertexte
        Console.WriteLine(h.Text);
        // Imprimer l'URL du lien hypertexte
        Console.WriteLine(h.Url);
        Console.WriteLine();
    }
}

Configuration requise

GroupDocs.Parser for .NET Les API sont prises en charge sur toutes les principales plates-formes et systèmes d’exploitation. Avant d’exécuter le code ci-dessous, assurez-vous que les prérequis suivants sont installés sur votre système.

  • Systèmes d’exploitation : Microsoft Windows, Linux, MacOS
  • Environnements de développement : Microsoft Visual Studio, Xamarin, MonoDevelop
  • Cadres
  • Téléchargez la dernière version de GroupDocs.Parser for .NET depuis Nuget

Pourquoi utiliser GroupDocs.Parser for .NET

  • Prise en charge de l’extraction de texte brut à partir de tous les documents pris en charge
  • Analyse de documents via des modèles définis par l’utilisateur
  • Prise en charge complète de l’extraction de texte structuré
  • Recherche de texte par mot-clé ainsi que par expression régulière
  • Extraire du texte formaté, des métadonnées, des images, des conteneurs et des pièces jointes
  • Extraire la table des matières pour certains formats de document pris en charge
  • Analyser les données de formulaire de PDF documents
  • Extraire les hyperliens du document

Extraire des liens hypertexte à partir d'autres formats de documents

.NET API d’analyse de documents et d’extraction d’hyperliens pour les formats de fichiers et les images. Extrayez les données pour certains des formats de fichiers populaires comme indiqué ci-dessous.

PDF

(Portable Document Format)

PPS

(PowerPoint Slide Show)

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

Back to top
 Français