Java ドキュメント、ページ、または特定のページ領域からハイパーリンクを抽出する API

GroupDocs.Parser for Java API を使用すると、ドキュメント、ドキュメントのページ、または特定のページからハイパーリンクを抽出できるため、開発者の作業が容易になります。PDF、DOCX、PPTX、EML、MSG、XLS、{322 の領域}、CSV、RTF、EPUB など。


無料トライアルをダウンロード

Java API 経由で DOC ドキュメントからハイパーリンクを解析して抽出するにはどうすればよいですか?

ハイパーリンクは、文書全体または文書内の特定の部分を指すテキスト、画像、またはアイコンです。ハイパーリンクを使用すると、ユーザーは Web ページまたはドキュメントに移動できます。多くの場合、ドキュメントからハイパーリンクを抽出し、それを使用して外部ドキュメントまたは Web ページにアクセスすることが必要になります。 GroupDocs.Parser for Java は、テキストおよびメタデータ抽出ソリューションを実装するための完全な機能を提供する魅力的なドキュメント テキスト抽出 API です。 PDF、メール、電子書籍、Microsoft Office 形式からのテキストとハイパーリンクの抽出をサポートしています: Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 形式など。ドキュメントの解析、プレーンテキストと構造化テキストの抽出、キーワードによるテキスト検索、メタデータや画像、コンテナや添付ファイルの抽出など、いくつかの高度な機能をサポートしています。

Java の DOC からハイパーリンクを抽出します

GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、DOC ファイルからハイパーリンクを簡単に抽出できます。

  • 最初のドキュメントの Parser オブジェクトをインスタンス化します。
  • ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認します。
  • getHyperlinks メソッドを呼び出し、PageHyperlinkArea オブジェクト。
  • コレクションを反復処理して、ハイパーリンクのテキストと URL を取得します。

Java サンプルコードを使用して DOC ファイルからハイパーリンクを抽出する方法

// GroupDocs.Parser API を使用して DOC ファイルからハイパーリンクを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認する
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("ドキュメントはハイパーリンク抽出をサポートしていません。");
        return;
    }
    // ドキュメントからハイパーリンクを抽出する
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // ハイパーリンクを反復処理する
    for (PageHyperlinkArea h : hyperlinks) {
        // ハイパーリンクのテキストを印刷する
        System.out.println(h.getText());
        // ハイパーリンクの URL を出力する
        System.out.println(h.getUrl());
        System.out.println();
    }
}

システム要求

GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。

  • オペレーティング システム: Microsoft Windows、Linux、MacOS
  • 開発環境: NetBeans, Intellij IDEA, Eclipse, etc.
  • フレームワーク
  • GroupDocs.Parser for Java の最新バージョンを Maven からダウンロードします

GroupDocs.Parser for Java を使用する理由

  • サポートされているドキュメントからのプレーン テキスト抽出のサポート
  • ユーザー定義のテンプレートを使用したドキュメントの解析
  • 構造化テキスト抽出を完全にサポート
  • キーワードおよび正規表現によるテキスト検索
  • 書式設定されたテキスト、メタデータ、画像、コンテナ、添付ファイルを抽出します
  • サポートされている一部のドキュメント形式の目次を抽出します
  • PDF ドキュメントからのフォーム データを解析する
  • ドキュメントからハイパーリンクを抽出する

他のドキュメント形式からハイパーリンクを抽出する

Java ドキュメントは、ファイル形式と画像の解析とハイパーリンク抽出 API を使用します。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 日本