ハイパーリンクは、文書全体または文書内の特定の部分を指すテキスト、画像、またはアイコンです。ハイパーリンクを使用すると、ユーザーは Web ページまたはドキュメントに移動できます。多くの場合、ドキュメントからハイパーリンクを抽出し、それを使用して外部ドキュメントまたは Web ページにアクセスすることが必要になります。 GroupDocs.Parser for Java は、テキストおよびメタデータ抽出ソリューションを実装するための完全な機能を提供する魅力的なドキュメント テキスト抽出 API です。 PDF、メール、電子書籍、Microsoft Office 形式からのテキストとハイパーリンクの抽出をサポートしています: Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 形式など。ドキュメントの解析、プレーンテキストと構造化テキストの抽出、キーワードによるテキスト検索、メタデータや画像、コンテナや添付ファイルの抽出など、いくつかの高度な機能をサポートしています。
GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、XHTML ファイルからハイパーリンクを簡単に抽出できます。
// GroupDocs.Parser API を使用して XHTML ファイルからハイパーリンクを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認する
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("ドキュメントはハイパーリンク抽出をサポートしていません。");
return;
}
// ドキュメントからハイパーリンクを抽出する
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// ハイパーリンクを反復処理する
for (PageHyperlinkArea h : hyperlinks) {
// ハイパーリンクのテキストを印刷する
System.out.println(h.getText());
// ハイパーリンクの URL を出力する
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。