GroupDocs.Parserは、.NET開発者がXMLファイルからハイパーリンクを抽出するための簡単な手順を提供します:
- Parserインスタンスを使用してXMLファイルを読み込む。
- ドキュメントがハイパーリンク抽出をサポートしているか確認する。
- ドキュメントからハイパーリンクのリストを取得する。
- 結果をループ処理し、抽出したURLを扱う。
GroupDocs.Parserは、.NET開発者がXMLファイルからハイパーリンクを抽出するための簡単な手順を提供します:
// Parserクラスを使用してハイパーリンクを含むドキュメントを読み込む
using (Parser parser = new Parser("input.xml")) {
// ファイルがハイパーリンク抽出をサポートしているか確認する
if (!parser.Features.Hyperlinks)
{
Console.WriteLine("ファイルに対してハイパーリンク抽出は利用できません");
return;
}
// 抽出したハイパーリンクを取得し、処理する
IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();
foreach (PageHyperlinkArea h in hyperlinks)
{
Console.WriteLine(h.Text);
Console.WriteLine(h.Url);
}
}
ハイパーリンク抽出に加えて、GroupDocs.Parserはテキスト、メタデータ、画像、構造化データを抽出でき、強力なデータ処理ワークフローをサポートします。
PDF、Wordファイル、スプレッドシートなどのドキュメントから、URLとリンクアノテーションを迅速に抽出します。
複数のフォーマットで、標準のウェブURLと埋め込みドキュメントリンクの両方を検出して抽出します。
特定のセクションやページをスキャンするための抽出設定をカスタマイズし、パフォーマンスと精度を向上させます。
このコードサンプルは、カスタムオプションを使用してPDFファイルからすべてのハイパーリンクを抽出する方法を示します。
// PDFドキュメントでParserを初期化する
using (Parser parser = new Parser("input.docx"))
{
// ハイパーリンク抽出がサポートされているか確認する
if (!parser.Features.Hyperlinks)
{
return;
}
// 結果を絞り込むためにリンク抽出オプションを設定する
PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));
// ドキュメントからハイパーリンクデータを抽出する
IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks(options);
// 抽出したリンクのリストを処理する
foreach (PageHyperlinkArea h in hyperlinks)
{
Console.WriteLine(h.Text);
Console.WriteLine(h.Url);
}
}