GroupDocs.Parser for Java

Hyperlinks aus XML mit Java extrahieren

Ziehen Sie Webseiten-Links und Hyperlinks aus PDFs, Word-Dateien, Excel-Tabellen und anderen Dokumenten mit GroupDocs.Parser in Ihrer Java-Umgebung heraus.

Wie man Hyperlinks aus Xml in Java extrahiert

GroupDocs.Parser vereinfacht die Hyperlink-Extraktion aus XML-Dateien in Java-Anwendungen mit diesen grundlegenden Schritten:

  1. Öffnen Sie die XML-Datei mit einer Instanz von Parser.
  2. Stellen Sie sicher, dass die Hyperlink-Extraktion für das Dateiformat verfügbar ist.
  3. Extrahieren Sie alle Hyperlinks mit der entsprechenden Methode.
  4. Durchlaufen Sie die Ergebnisse und verarbeiten Sie jeden Link nach Bedarf.
// Laden Sie die Datei, die möglicherweise Hyperlinks enthält, mit dem Parser
try (Parser parser = new Parser("input.xml")) {

    // Überprüfen Sie, ob das Dokumentenformat die Hyperlink-Analyse unterstützt
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Die Hyperlink-Extraktion ist für die Datei nicht verfügbar");
        return;
    }

    // Extrahieren Sie die Hyperlink-Daten aus dem Dokument und verwenden Sie sie
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Klicken zum Kopieren
Kopiert
Weitere Beispiele Dokumentation

Umfassende Dokumentenverarbeitungstools

Neben der Extraktion von Hyperlinks ermöglicht GroupDocs.Parser die Sammlung weiterer nützlicher Inhalte wie Klartext, eingebettete Medien und strukturierte Daten für den Einsatz in automatisierten Workflows.

Hyperlink-Extraktion und Dokumentenanalyse

Präzise Linkerkennung

Erfassen Sie alle Arten von Hyperlinks aus verschiedenen Dokumentenlayouts, einschließlich klickbarem Text und versteckten URLs.

Funktioniert mit Dokumenten und Webinhalten

Ziehen Sie Links aus PDF, DOCX, XLSX, HTML und Bilddateien, die eingebettete Hyperlinks enthalten.

Benutzerdefiniertes Extraktionsverhalten

Verfeinern Sie, wie Hyperlinks extrahiert werden, mit Optionen wie Seitenbereichen, Linktypen oder Inhaltsfiltern.

Beispiel: Extrahieren von Hyperlinks aus einem PDF mit benutzerdefinierten Optionen

Dieses Beispiel demonstriert, wie alle Links aus einer PDF-Datei mithilfe von Link-Extraktionseinstellungen extrahiert werden.

Java

//  Öffnen Sie die PDF-Datei mit der Parser-Klasse
try (Parser parser = new Parser("input.docx"))
{
    // Überprüfen Sie, ob die Hyperlinkunterstützung für dieses Dokument aktiviert ist
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // Wenden Sie Optionen an, um Links zu filtern
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // Verwenden Sie den Parser, um Hyperlink-Daten zu erhalten
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // Iterieren Sie über die Links und behandeln Sie sie entsprechend
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

Über die GroupDocs.Parser for Java API

GroupDocs.Parser ist eine leistungsstarke API zur Inhaltsextraktion, die für Java-Entwickler entwickelt wurde. Sie bietet Werkzeuge zum Extrahieren von Hyperlinks, strukturierten Daten, Bildern und Text aus gängigen Formaten wie DOCX, XLSX, PDF, HTML und mehr – ganz ohne externe Plugins.
Mehr erfahren
About illustration

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Dokumentenformate, die die Hyperlink-Extraktion unterstützen

Mit GroupDocs.Parser können Sie Hyperlinks aus vielen häufig verwendeten Dateiformaten extrahieren. Nachfolgend finden Sie eine Liste von Formaten, die in der Regel unterstützt werden.

Tipps zur temporären Lizenz

1
Melden Sie sich mit Ihrer geschäftlichen E-Mail-Adresse an. Kostenlose E-Mail-Dienste sind nicht zulässig.
2
Klicken Sie im zweiten Schritt auf die Schaltfläche Provisorische Lizenz anfordern.
 Deutsch