GroupDocs.Parser for Java

Javaを使ったEPUBからのハイパーリンク抽出

GroupDocs.Parserを使用して、PDF、Wordファイル、Excelシート、及び他のドキュメントからウェブリンクやハイパーリンクを抽出します。環境はJavaです。

JavaでEpubからハイパーリンクを抽出する方法

GroupDocs.Parserは、Javaアプリケーション内のEPUBファイルからのハイパーリンク抽出を以下の基本ステップで簡素化します:

  1. Parserのインスタンスを使用して、EPUBファイルを開きます。
  2. ファイルフォーマットに対してハイパーリンク抽出が可能であることを確認します。
  3. 適切なメソッドを使用してすべてのハイパーリンクを抽出します。
  4. 結果をループ処理し、各リンクを必要に応じて処理します。
// Parserを使用して、ハイパーリンクを含む可能性のあるファイルをロードします
try (Parser parser = new Parser("input.epub")) {

    // ドキュメントフォーマットがハイパーリンク解析をサポートしているか確認します
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("そのファイルではハイパーリンクの抽出は利用できません");
        return;
    }

    // ドキュメントからハイパーリンクデータを抽出し、使用します
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();

    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
クリックしてコピー
コピーしました
さらなる例 ドキュメンテーション

包括的なドキュメント解析ツール

ハイパーリンクを抽出するだけでなく、GroupDocs.Parserを使用することで、プレーンテキスト、埋め込まれたメディア、及び自動化されたワークフローで使用するための構造化データなど、他の有用なコンテンツを収集できます。

ハイパーリンク抽出とドキュメント分析

正確なリンク検出

クリック可能なテキストや隠れたURLを含む、さまざまなドキュメントレイアウトからすべてのタイプのハイパーリンクをキャッチします。

ドキュメントとウェブコンテンツに対応

埋め込まれたハイパーリンクを含むPDF、DOCX、XLSX、HTML、及び画像ファイルからリンクを抽出します。

カスタム抽出動作

ページ範囲、リンクタイプ、またはコンテンツフィルターのようなオプションを使用して、ハイパーリンクの抽出方法を調整します。

例:カスタムオプションを使ったPDFからのハイパーリンク抽出

このサンプルは、リンク抽出設定を使用して、PDFファイルからすべてのリンクを抽出する方法を示しています。

Java

//  Parserクラスを使用してPDFを開きます
try (Parser parser = new Parser("input.docx"))
{
    // このドキュメントのハイパーリンクサポートが有効になっていることを確認します
    if (!parser.getFeatures().isHyperlinks()) {
        return;
    }

    // リンクをフィルタリングするためのオプションを適用します
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // パーサーを使用してハイパーリンクデータを取得します
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);

    // リンクを反復処理し、適切に処理します
    for (PageHyperlinkArea h : hyperlinks) {
        System.out.println(h.getText());
        System.out.println(h.getUrl());
    }
}

GroupDocs.Parser for Java APIについて

GroupDocs.Parserは、Java開発者向けに設計された強力なコンテンツ抽出APIです。DOCX、XLSX、PDF、HTMLなどの一般的なフォーマットからハイパーリンク、構造化データ、画像、テキストを抽出するツールを提供します—外部プラグインは必要ありません。
詳細はこちら
About illustration

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

ハイパーリンク抽出をサポートするドキュメントフォーマット

GroupDocs.Parserを使用すると、多くの一般的なファイルフォーマットからハイパーリンクを抽出できます。以下は通常サポートされるフォーマットのリストです。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本