GroupDocs.Parser for .NET

C#を使用したXMLからのハイパーリンク抽出

GroupDocs.Parserを使用して、PDF、Word、ExcelなどのドキュメントタイプからURLおよびハイパーリンクを検出し、抽出します。これを.NETアプリケーションで行います。

NuGetのダウンロード

無料トライアルを開始する

C#におけるXmlからハイパーリンクを抽出する手順

GroupDocs.Parserは、.NET開発者がXMLファイルからハイパーリンクを抽出するための簡単な手順を提供します：

Parserインスタンスを使用してXMLファイルを読み込む。
ドキュメントがハイパーリンク抽出をサポートしているか確認する。
ドキュメントからハイパーリンクのリストを取得する。
結果をループ処理し、抽出したURLを扱う。

コピー

// Parserクラスを使用してハイパーリンクを含むドキュメントを読み込む
using (Parser parser = new Parser("input.xml")) {

    // ファイルがハイパーリンク抽出をサポートしているか確認する
    if (!parser.Features.Hyperlinks)
    {
        Console.WriteLine("ファイルに対してハイパーリンク抽出は利用できません");
        return;
    }

    // 抽出したハイパーリンクを取得し、処理する
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();

    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}

dotnet add package GroupDocs.Parser

クリックしてコピー

コピーしました

さらなる例ドキュメンテーション

高度な文書解析機能

ハイパーリンク抽出に加えて、GroupDocs.Parserはテキスト、メタデータ、画像、構造化データを抽出でき、強力なデータ処理ワークフローをサポートします。

ドキュメントからのハイパーリンク検出

PDF、Wordファイル、スプレッドシートなどのドキュメントから、URLとリンクアノテーションを迅速に抽出します。

ウェブリンクと埋め込みリンクのサポート

複数のフォーマットで、標準のウェブURLと埋め込みドキュメントリンクの両方を検出して抽出します。

柔軟な解析オプション

特定のセクションやページをスキャンするための抽出設定をカスタマイズし、パフォーマンスと精度を向上させます。

リンクオプションを使用したPDFからのハイパーリンク抽出方法

このコードサンプルは、カスタムオプションを使用してPDFファイルからすべてのハイパーリンクを抽出する方法を示します。

C#

//  PDFドキュメントでParserを初期化する
using (Parser parser = new Parser("input.docx"))
{
    // ハイパーリンク抽出がサポートされているか確認する
    if (!parser.Features.Hyperlinks)
    {
        return;
    }

    // 結果を絞り込むためにリンク抽出オプションを設定する
    PageAreaOptions options = new PageAreaOptions(new Rectangle(new Point(380, 90), new Size(150, 50)));

    // ドキュメントからハイパーリンクデータを抽出する
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks(options);

    // 抽出したリンクのリストを処理する
    foreach (PageHyperlinkArea h in hyperlinks)
    {
        Console.WriteLine(h.Text);
        Console.WriteLine(h.Url);
    }
}