Java API zum Extrahieren von Hyperlinks aus Dokumenten, Seiten oder bestimmten Seitenbereichen

Die API GroupDocs.Parser for Java erleichtert Entwicklern die Arbeit, indem sie ihnen das Extrahieren von Hyperlinks aus Dokumenten, der Dokumentseite oder einem bestimmten Seitenbereich von PDF, DOCX, PPTX, EML, MSG, XLS, {322 ermöglicht }, CSV, RTF, EPUB und viele mehr.


Download kostenlose Testversion

Wie kann ich Hyperlinks aus XHTML-Dokumenten über die Java-API analysieren und extrahieren?

Ein Hyperlink ist ein Textstück, ein Bild oder ein Symbol, das auf ein gesamtes Dokument oder auf einen bestimmten Teil innerhalb eines Dokuments verweist. Durch die Verwendung von Hyperlinks können Benutzer zu einer Webseite oder einem Dokument navigieren. Oft ist es erforderlich, Hyperlinks aus einem Dokument zu extrahieren und diese für den Zugriff auf ein externes Dokument oder eine Webseite zu verwenden. GroupDocs.Parser for Java ist eine faszinierende API zur Extraktion von Dokumententexten, die vollständige Funktionalität für die Implementierung von Text- und Metadatenextraktionslösungen bietet. Es unterstützt die Extraktion von Text und Hyperlinks aus den Formaten PDF, E-Mails, E-Books und Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), LibreOffice-Formate und viele mehr. Es unterstützt mehrere erweiterte Funktionen zum Parsen von Dokumenten, zum Extrahieren von einfachem und strukturiertem Text, zur Textsuche nach Schlüsselwörtern, zum Extrahieren von Metadaten oder Bildern, Containern sowie Anhängen und vielem mehr.

Extrahieren Sie Hyperlinks von XHTML in Java

GroupDocs.Parser for Java erleichtert Java-Entwicklern das Extrahieren von Hyperlinks aus einer XHTML-Datei durch die Implementierung einiger einfacher Schritte.

  • Instanziieren Sie das Parser-Objekt für das ursprüngliche Dokument.
  • Überprüfen Sie, ob das Dokument die Hyperlink-Extraktion unterstützt.
  • Rufen Sie die Methode getHyperlinks auf und rufen Sie die Sammlung von PageHyperlinkArea Objekte ab;
  • Durchlaufen Sie die Sammlung und erhalten Sie einen Hyperlinktext und eine URL.

So extrahieren Sie Hyperlinks aus der Datei XHTML mithilfe des Beispielcodes Java

// Extrahieren Sie Hyperlinks aus der Datei XHTML mit der API GroupDocs.Parser
// Erstellen Sie eine Instanz der Parser-Klasse
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // Überprüfen Sie, ob das Dokument die Hyperlink-Extraktion unterstützt
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Das Dokument unterstützt die Hyperlink-Extraktion nicht.");
        return;
    }
    // Extrahieren Sie Hyperlinks aus dem Dokument
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // Iterieren Sie über Hyperlinks
    for (PageHyperlinkArea h : hyperlinks) {
        // Drucken Sie den Hyperlinktext aus
        System.out.println(h.getText());
        // Drucken Sie die Hyperlink-URL aus
        System.out.println(h.getUrl());
        System.out.println();
    }
}

System Anforderungen

GroupDocs.Parser for Java APIs werden auf allen wichtigen Plattformen und Betriebssystemen unterstützt. Bevor Sie den folgenden Code ausführen, stellen Sie bitte sicher, dass die folgenden Voraussetzungen auf Ihrem System installiert sind.

  • Betriebssysteme: Microsoft Windows, Linux, MacOS
  • Entwicklungsumgebungen: NetBeans, Intellij IDEA, Eclipse, etc.
  • Rahmenwerke
  • Laden Sie die neueste Version von GroupDocs.Parser for Java von Maven herunter.

Warum GroupDocs.Parser for Java verwenden?

  • Unterstützung für die Extraktion von Klartext aus allen unterstützten Dokumenten
  • Parsen von Dokumenten über benutzerdefinierte Vorlagen
  • Vollständige Unterstützung der strukturierten Textextraktion
  • Textsuche über Schlüsselwörter sowie reguläre Ausdrücke
  • Extrahieren Sie formatierten Text, Metadaten, Bilder, Container und Anhänge
  • Extrahieren Sie das Inhaltsverzeichnis für einige unterstützte Dokumentformate
  • Analysieren Sie Formulardaten aus PDF-Dokumenten
  • Extrahieren Sie Hyperlinks aus dem Dokument

Extrahieren Sie Hyperlinks aus anderen Dokumentformaten

Java API zum Parsen und Extrahieren von Hyperlinks für Dateiformate und Bilder. Extrahieren Sie Daten für einige der gängigen Dateiformate, wie unten aufgeführt.

Back to top
 Deutsch