ハイパーリンクは、文書全体または文書内の特定の部分を指すテキスト、画像、またはアイコンです。ハイパーリンクを使用すると、ユーザーは Web ページまたはドキュメントに移動できます。多くの場合、ドキュメントからハイパーリンクを抽出し、それを使用して外部ドキュメントまたは Web ページにアクセスすることが必要になります。 GroupDocs.Parser for Java は、テキストおよびメタデータ抽出ソリューションを実装するための完全な機能を提供する魅力的なドキュメント テキスト抽出 API です。 PDF、メール、電子書籍、Microsoft Office 形式からのテキストとハイパーリンクの抽出をサポートしています: Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 形式など。ドキュメントの解析、プレーンテキストと構造化テキストの抽出、キーワードによるテキスト検索、メタデータや画像、コンテナや添付ファイルの抽出など、いくつかの高度な機能をサポートしています。
GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、DOC ファイルからハイパーリンクを簡単に抽出できます。
// GroupDocs.Parser API を使用して DOC ファイルからハイパーリンクを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認する
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("ドキュメントはハイパーリンク抽出をサポートしていません。");
return;
}
// ドキュメントからハイパーリンクを抽出する
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// ハイパーリンクを反復処理する
for (PageHyperlinkArea h : hyperlinks) {
// ハイパーリンクのテキストを印刷する
System.out.println(h.getText());
// ハイパーリンクの URL を出力する
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。
Java ドキュメントは、ファイル形式と画像の解析とハイパーリンク抽出 API を使用します。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)