Un lien hypertexte est un morceau de texte ou une image ou une icône qui pointe vers un document entier ou vers une partie particulière d’un document. L’utilisation d’hyperliens permet aux utilisateurs de naviguer vers une page Web ou un document. Il est souvent nécessaire d’extraire des hyperliens d’un document et de l’utiliser pour accéder à un document externe ou à une page Web. GroupDocs.Parser for Java est une fascinante API d’extraction de texte de document qui fournit des fonctionnalités complètes pour la mise en œuvre de solutions d’extraction de texte et de métadonnées. Il prend en charge l’extraction de texte et d’hyperliens à partir des formats PDF, e-mails, livres électroniques, Microsoft Office : Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), les formats LibreOffice et bien d’autres. Il prend en charge plusieurs fonctionnalités avancées pour l’analyse de documents, l’extraction de texte brut et structuré, la recherche de texte par mots-clés, l’extraction de métadonnées ou d’images, de conteneurs ainsi que de pièces jointes et bien d’autres.
GroupDocs.Parser for Java permet aux développeurs Java d’extraire facilement des liens hypertexte d’un fichier DOC en mettant en œuvre quelques étapes simples.
// Extraire les hyperliens du fichier DOC à l'aide de l'API GroupDocs.Parser
// Créer une instance de la classe Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// Vérifiez si le document prend en charge l'extraction de lien hypertexte
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("Le document ne prend pas en charge l'extraction de liens hypertexte.");
return;
}
// Extraire les hyperliens du document
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// Itérer sur les hyperliens
for (PageHyperlinkArea h : hyperlinks) {
// Imprimer le texte du lien hypertexte
System.out.println(h.getText());
// Imprimer l'URL du lien hypertexte
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java Les API sont prises en charge sur toutes les principales plates-formes et systèmes d’exploitation. Avant d’exécuter le code ci-dessous, assurez-vous que les prérequis suivants sont installés sur votre système.
Java API d’analyse de documents et d’extraction d’hyperliens pour les formats de fichiers et les images. Extrayez les données pour certains des formats de fichiers populaires comme indiqué ci-dessous.
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)