C#/VB API 経由でドキュメント、ページ、または特定のページ領域からハイパーリンクを抽出します。

GroupDocs.Parser .NET API を使用すると、ソフトウェア開発者はドキュメント、ページ、またはページ領域 PDF、DOC、DOCX、PPT、PPTX、EML、MSG からハイパーリンクを解析して抽出できます。 、XLS、XLSX、CSV、ODT、RTF、EPUB、その他多くのドキュメント。


無料トライアルをダウンロード

.NET API 経由で OTP ドキュメントからハイパーリンクを解析して抽出するにはどうすればよいですか?

ハイパーリンクは、文書全体または文書内の特定の部分を指すテキスト、画像、またはアイコンです。ハイパーリンクを使用すると、ユーザーは Web ページまたはドキュメントに移動できます。多くの場合、ドキュメントからハイパーリンクを抽出し、それを使用して外部ドキュメントまたは Web ページにアクセスすることが必要になります。 GroupDocs.Parser for .NET は、テキストおよびメタデータ抽出ソリューションを実装するための完全な機能を提供する魅力的なドキュメント テキスト抽出 API です。 PDF、メール、電子書籍、Microsoft Office 形式からのテキストとハイパーリンクの抽出をサポートしています: Word (DOC、DOCX)、PowerPoint (PPT、PPTX)、Excel ( XLS、XLSX)、LibreOffice 形式など。ドキュメントの解析、プレーンテキストと構造化テキストの抽出、キーワードによるテキスト検索、メタデータや画像、コンテナや添付ファイルの抽出など、いくつかの高度な機能をサポートしています。

.NET の OTP からハイパーリンクを抽出します

GroupDocs.Parser for .NET を使用すると、C# 開発者は、いくつかの簡単な手順を実装することで、OTP ファイルからハイパーリンクを簡単に抽出できます。

  • 最初のドキュメントの Parser オブジェクトをインスタンス化します。
  • ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認します。
  • GetHyperlinks メソッドを呼び出し、PageHyperlinkArea オブジェクト。
  • コレクションを反復処理して、ハイパーリンクのテキストと URL を取得します。

C# サンプルコードを使用して OTP ファイルからハイパーリンクを抽出する方法

// GroupDocs.Parser API を使用して OTP ファイルからハイパーリンクを抽出します
// Parserクラスのインスタンスを作成する
using (Parser parser = new Parser(filePath)) {
    // ドキュメントがハイパーリンク抽出をサポートしているかどうかを確認する
    if (!parser.Features.Hyperlinks) {
        Console.WriteLine("ドキュメントはハイパーリンク抽出をサポートしていません。");
        return;
    }
    // ドキュメントからハイパーリンクを抽出する
    IEnumerable<PageHyperlinkArea> hyperlinks = parser.GetHyperlinks();
    // ハイパーリンクを反復処理する
    foreach (PageHyperlinkArea h in hyperlinks) {
        // ハイパーリンクのテキストを印刷する
        Console.WriteLine(h.Text);
        // ハイパーリンクの URL を出力する
        Console.WriteLine(h.Url);
        Console.WriteLine();
    }
}

システム要求

GroupDocs.Parser for .NET API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。

  • オペレーティング システム: Microsoft Windows、Linux、MacOS
  • 開発環境: Microsoft Visual Studio, Xamarin, MonoDevelop
  • フレームワーク
  • GroupDocs.Parser for .NET の最新バージョンを Nuget からダウンロードします

GroupDocs.Parser for .NET を使用する理由

  • サポートされているドキュメントからのプレーン テキスト抽出のサポート
  • ユーザー定義のテンプレートを使用したドキュメントの解析
  • 構造化テキスト抽出を完全にサポート
  • キーワードおよび正規表現によるテキスト検索
  • 書式設定されたテキスト、メタデータ、画像、コンテナ、添付ファイルを抽出します
  • サポートされている一部のドキュメント形式の目次を抽出します
  • PDF ドキュメントからのフォーム データを解析する
  • ドキュメントからハイパーリンクを抽出する

他のドキュメント形式からハイパーリンクを抽出する

.NET ドキュメントは、ファイル形式と画像の解析とハイパーリンク抽出 API を使用します。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。

PDF

(Portable Document Format)

PPS

(PowerPoint Slide Show)

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

Back to top
 日本