GroupDocs.Parser for Java

Javaを使ったEPUBからのハイパーリンク抽出

GroupDocs.Parserを使用して、PDF、Wordファイル、Excelシート、及び他のドキュメントからウェブリンクやハイパーリンクを抽出します。環境はJavaです。

Mavenのダウンロード

無料トライアルを開始する

JavaでEpubからハイパーリンクを抽出する方法

GroupDocs.Parserは、Javaアプリケーション内のEPUBファイルからのハイパーリンク抽出を以下の基本ステップで簡素化します：

Parserのインスタンスを使用して、EPUBファイルを開きます。
ファイルフォーマットに対してハイパーリンク抽出が可能であることを確認します。
適切なメソッドを使用してすべてのハイパーリンクを抽出します。
結果をループ処理し、各リンクを必要に応じて処理します。

コピー

// Parserを使用して、ハイパーリンクを含む可能性のあるファイルをロードします
try (Parser parser = new Parser("input.epub")) {

    // ドキュメントフォーマットがハイパーリンク解析をサポートしているか確認します
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("そのファイルではハイパーリンクの抽出は利用できません");
        return;
    }

    // ドキュメントからハイパーリンクデータを抽出し、使用します
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

クリックしてコピー

コピーしました

さらなる例ドキュメンテーション

包括的なドキュメント解析ツール

ハイパーリンクを抽出するだけでなく、GroupDocs.Parserを使用することで、プレーンテキスト、埋め込まれたメディア、及び自動化されたワークフローで使用するための構造化データなど、他の有用なコンテンツを収集できます。

正確なリンク検出

クリック可能なテキストや隠れたURLを含む、さまざまなドキュメントレイアウトからすべてのタイプのハイパーリンクをキャッチします。

ドキュメントとウェブコンテンツに対応

埋め込まれたハイパーリンクを含むPDF、DOCX、XLSX、HTML、及び画像ファイルからリンクを抽出します。

カスタム抽出動作

ページ範囲、リンクタイプ、またはコンテンツフィルターのようなオプションを使用して、ハイパーリンクの抽出方法を調整します。

例：カスタムオプションを使ったPDFからのハイパーリンク抽出

このサンプルは、リンク抽出設定を使用して、PDFファイルからすべてのリンクを抽出する方法を示しています。

Java

//  Parserクラスを使用してPDFを開きます
try (Parser parser = new Parser("input.docx"))
{
    // このドキュメントのハイパーリンクサポートが有効になっていることを確認します
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // リンクをフィルタリングするためのオプションを適用します
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // パーサーを使用してハイパーリンクデータを取得します
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // リンクを反復処理し、適切に処理します
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}