GroupDocs.Parserは、Javaアプリケーション内のEPUBファイルからのハイパーリンク抽出を以下の基本ステップで簡素化します:
- Parserのインスタンスを使用して、EPUBファイルを開きます。
- ファイルフォーマットに対してハイパーリンク抽出が可能であることを確認します。
- 適切なメソッドを使用してすべてのハイパーリンクを抽出します。
- 結果をループ処理し、各リンクを必要に応じて処理します。
GroupDocs.Parserは、Javaアプリケーション内のEPUBファイルからのハイパーリンク抽出を以下の基本ステップで簡素化します:
// Parserを使用して、ハイパーリンクを含む可能性のあるファイルをロードします
try (Parser parser = new Parser("input.epub")) {
// ドキュメントフォーマットがハイパーリンク解析をサポートしているか確認します
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("そのファイルではハイパーリンクの抽出は利用できません");
return;
}
// ドキュメントからハイパーリンクデータを抽出し、使用します
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
for (PageHyperlinkArea h : hyperlinks) {
System.out.println(h.getText());
System.out.println(h.getUrl());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
ハイパーリンクを抽出するだけでなく、GroupDocs.Parserを使用することで、プレーンテキスト、埋め込まれたメディア、及び自動化されたワークフローで使用するための構造化データなど、他の有用なコンテンツを収集できます。
クリック可能なテキストや隠れたURLを含む、さまざまなドキュメントレイアウトからすべてのタイプのハイパーリンクをキャッチします。
埋め込まれたハイパーリンクを含むPDF、DOCX、XLSX、HTML、及び画像ファイルからリンクを抽出します。
ページ範囲、リンクタイプ、またはコンテンツフィルターのようなオプションを使用して、ハイパーリンクの抽出方法を調整します。
このサンプルは、リンク抽出設定を使用して、PDFファイルからすべてのリンクを抽出する方法を示しています。
// Parserクラスを使用してPDFを開きます
try (Parser parser = new Parser("input.docx"))
{
// このドキュメントのハイパーリンクサポートが有効になっていることを確認します
if (!parser.getFeatures().isHyperlinks()) {
return;
}
// リンクをフィルタリングするためのオプションを適用します
PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));
// パーサーを使用してハイパーリンクデータを取得します
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks(options);
// リンクを反復処理し、適切に処理します
for (PageHyperlinkArea h : hyperlinks) {
System.out.println(h.getText());
System.out.println(h.getUrl());
}
}