製品
/ GroupDocs.Parser
/ Java
/ Java の XHTML からハイパーリンクを抽出します

Java ドキュメント、ページ、または特定のページ領域からハイパーリンクを抽出する API

GroupDocs.Parser for Java API を使用すると、ドキュメント、ドキュメントのページ、または特定のページからハイパーリンクを抽出できるため、開発者の作業が容易になります。PDF、DOCX、PPTX、EML、MSG、XLS、{322 の領域}、CSV、RTF、EPUB など。

Java API 経由で XHTML ドキュメントからハイパーリンクを解析して抽出するにはどうすればよいですか?

ハイパーリンクは、文書全体または文書内の特定の部分を指すテキスト、画像、またはアイコンです。ハイパーリンクを使用すると、ユーザーは Web ページまたはドキュメントに移動できます。多くの場合、ドキュメントからハイパーリンクを抽出し、それを使用して外部ドキュメントまたは Web ページにアクセスすることが必要になります。 GroupDocs.Parser for Java は、テキストおよびメタデータ抽出ソリューションを実装するための完全な機能を提供する魅力的なドキュメントテキスト抽出 API です。 PDF、メール、電子書籍、Microsoft Office 形式からのテキストとハイパーリンクの抽出をサポートしています: Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 形式など。ドキュメントの解析、プレーンテキストと構造化テキストの抽出、キーワードによるテキスト検索、メタデータや画像、コンテナや添付ファイルの抽出など、いくつかの高度な機能をサポートしています。

Java の XHTML からハイパーリンクを抽出します

GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、XHTML ファイルからハイパーリンクを簡単に抽出できます。

最初のドキュメントの Parser オブジェクトをインスタンス化します。
ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認します。
getHyperlinks メソッドを呼び出し、PageHyperlinkArea オブジェクト。
コレクションを反復処理して、ハイパーリンクのテキストと URL を取得します。

ハイパーリンク抽出の詳細

Java サンプルコードを使用して XHTML ファイルからハイパーリンクを抽出する方法

// GroupDocs.Parser API を使用して XHTML ファイルからハイパーリンクを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認する
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("ドキュメントはハイパーリンク抽出をサポートしていません。");
        return;
    }
    // ドキュメントからハイパーリンクを抽出する
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // ハイパーリンクを反復処理する
    for (PageHyperlinkArea h : hyperlinks) {
        // ハイパーリンクのテキストを印刷する
        System.out.println(h.getText());
        // ハイパーリンクの URL を出力する
        System.out.println(h.getUrl());
        System.out.println();
    }
}

システム要求

GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティングシステムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。

オペレーティングシステム: Microsoft Windows、Linux、MacOS
開発環境: NetBeans, Intellij IDEA, Eclipse, etc.
フレームワーク
GroupDocs.Parser for Java の最新バージョンを Maven からダウンロードします

GroupDocs.Parser for Java を使用する理由

サポートされているドキュメントからのプレーンテキスト抽出のサポート
ユーザー定義のテンプレートを使用したドキュメントの解析
構造化テキスト抽出を完全にサポート
キーワードおよび正規表現によるテキスト検索
書式設定されたテキスト、メタデータ、画像、コンテナ、添付ファイルを抽出します
サポートされている一部のドキュメント形式の目次を抽出します
PDF ドキュメントからのフォームデータを解析する
ドキュメントからハイパーリンクを抽出する

Java ドキュメント、ページ、または特定のページ領域からハイパーリンクを抽出する API

GroupDocs.Parserfor Java

Java API 経由で XHTML ドキュメントからハイパーリンクを解析して抽出するにはどうすればよいですか?

Java の XHTML からハイパーリンクを抽出します

ハイパーリンク抽出の詳細

Java サンプルコードを使用して XHTML ファイルからハイパーリンクを抽出する方法

システム要求

GroupDocs.Parser for Java を使用する理由

他のドキュメント形式からハイパーリンクを抽出する

GroupDocs.Parser
for Java