GroupDocs.Parser for Java

Extraire des hyperliens des EPUB avec Java

Extrayez des liens web et des hyperliens de fichiers PDF, documents Word, feuilles Excel, et d’autres documents en utilisant GroupDocs.Parser dans votre environnement Java.

Comment extraire des hyperliens des Epub en Java

GroupDocs.Parser facilite l’extraction d’hyperliens des fichiers EPUB dans les applications Java avec ces étapes de base :

  1. Ouvrez le fichier EPUB en utilisant une instance de Parser.
  2. Assurez-vous que l’extraction des hyperliens est disponible pour le format de fichier.
  3. Extraire tous les hyperliens en utilisant la méthode appropriée.
  4. Parcourez les résultats et traitez chaque lien selon vos besoins.
// Chargez le fichier pouvant contenir des hyperliens en utilisant le Parser
try (Parser parser = new Parser("input.epub")) {

    // Vérifiez si le format du document prend en charge l'analyse des hyperliens
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("L'extraction des hyperliens n'est pas disponible pour le fichier");
        return;
    }

    // Extraire et utiliser les données des hyperliens du document
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Cliquez pour copier
copié
Plus d'exemples Documentation

Outils complets de parsing de documents

En plus d’extraire des hyperliens, GroupDocs.Parser vous permet de collecter d’autres contenus utiles tels que du texte brut, des médias intégrés et des données structurées pour une utilisation dans des flux de travail automatisés.

Extraction d'hyperliens et analyse de documents

Détection précise des liens

Capturer tous les types d’hyperliens à partir de différentes mises en page de documents, y compris le texte cliquable et les URL cachées.

Fonctionne avec des documents et du contenu web

Extraire des liens à partir de fichiers PDF, DOCX, XLSX, HTML et d’images contenant des hyperliens intégrés.

Comportement d’extraction personnalisé

Affinez la manière dont les hyperliens sont extraits en utilisant des options telles que les plages de pages, les types de liens ou les filtres de contenu.

Exemple : extraction d’hyperliens d’un PDF avec des options personnalisées

Cet exemple montre comment extraire tous les liens d’un fichier PDF en utilisant des paramètres d’extraction des liens.

Java

//  Ouvrez le PDF en utilisant la classe Parser
try (Parser parser = new Parser("input.docx"))
{
    // Vérifiez que le support des hyperliens est activé pour ce document
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // Appliquez des options pour filtrer les liens
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Utilisez le parser pour obtenir les données des hyperliens
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // Itérez à travers les liens et gérez-les en conséquence
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

À propos de l’API GroupDocs.Parser for Java

GroupDocs.Parser est une API robuste d’extraction de contenu conçue pour les développeurs Java. Elle offre des outils pour extraire des hyperliens, des données structurées, des images et du texte à partir de formats populaires tels que DOCX, XLSX, PDF, HTML, et plus—sans avoir besoin de plugins externes.
En savoir plus
About illustration

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Formats de documents prenant en charge l’extraction d’hyperliens

Avec GroupDocs.Parser, vous pouvez extraire des hyperliens de nombreux formats de fichiers couramment utilisés. Voici une liste de formats généralement pris en charge.

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français