製品
/ GroupDocs.Parser
/ Java
/ Java の DOC からハイパーリンクを抽出します

Java ドキュメント、ページ、または特定のページ領域からハイパーリンクを抽出する API

GroupDocs.Parser for Java API を使用すると、ドキュメント、ドキュメントのページ、または特定のページからハイパーリンクを抽出できるため、開発者の作業が容易になります。PDF、DOCX、PPTX、EML、MSG、XLS、{322 の領域}、CSV、RTF、EPUB など。

Java API 経由で DOC ドキュメントからハイパーリンクを解析して抽出するにはどうすればよいですか?

ハイパーリンクは、文書全体または文書内の特定の部分を指すテキスト、画像、またはアイコンです。ハイパーリンクを使用すると、ユーザーは Web ページまたはドキュメントに移動できます。多くの場合、ドキュメントからハイパーリンクを抽出し、それを使用して外部ドキュメントまたは Web ページにアクセスすることが必要になります。 GroupDocs.Parser for Java は、テキストおよびメタデータ抽出ソリューションを実装するための完全な機能を提供する魅力的なドキュメントテキスト抽出 API です。 PDF、メール、電子書籍、Microsoft Office 形式からのテキストとハイパーリンクの抽出をサポートしています: Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 形式など。ドキュメントの解析、プレーンテキストと構造化テキストの抽出、キーワードによるテキスト検索、メタデータや画像、コンテナや添付ファイルの抽出など、いくつかの高度な機能をサポートしています。

Java の DOC からハイパーリンクを抽出します

GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、DOC ファイルからハイパーリンクを簡単に抽出できます。

最初のドキュメントの Parser オブジェクトをインスタンス化します。
ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認します。
getHyperlinks メソッドを呼び出し、PageHyperlinkArea オブジェクト。
コレクションを反復処理して、ハイパーリンクのテキストと URL を取得します。

ハイパーリンク抽出の詳細

Java サンプルコードを使用して DOC ファイルからハイパーリンクを抽出する方法

// GroupDocs.Parser API を使用して DOC ファイルからハイパーリンクを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認する
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("ドキュメントはハイパーリンク抽出をサポートしていません。");
        return;
    }
    // ドキュメントからハイパーリンクを抽出する
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // ハイパーリンクを反復処理する
    for (PageHyperlinkArea h : hyperlinks) {
        // ハイパーリンクのテキストを印刷する
        System.out.println(h.getText());
        // ハイパーリンクの URL を出力する
        System.out.println(h.getUrl());
        System.out.println();
    }
}