Parser 対象 Net

Document Parser SDK .NET 用

.NET アプリに高速かつ正確なドキュメント解析を追加し、ドキュメントや画像からテキスト、画像、メタデータ、構造化データを抽出します。

NuGetのダウンロード無料トライアルを開始する

バージョン 24.9 がリリースされました

新機能を見る

// ソースファイルを Parser インスタンスに渡す
using (var parser = new Parser("source.pdf"))
{
    // ドキュメントテキストを TextReader に渡す
    using (var textReader = parser.GetText())
    {
        // ドキュメントテキストを処理する
        Console.WriteLine(textReader?.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

GroupDocs.Parser の概要

.NET アプリケーションで高精度のドキュメント解析を実行するための Document Parser SDK

ドキュメントからデータを抽出する

GroupDocs.Parser for .NET API を使用すると、Office ドキュメント、メール、添付ファイル、アーカイブなど、さまざまなファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールにより、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなどの様々なアプリケーションで、これらのファイルに含まれる貴重な情報へ効率的にアクセスし、処理できます。

ドキュメントを解析する

PDF フォームからハイパーリンク、テーブル、QR コード、バーコード、データなどのさまざまな要素を抽出します。また、カスタムテンプレートを使用してドキュメントから任意の情報を解析できます。

結果のカスタマイズ

.NET API を使用すると、RAW、構造化、HTML、Markdown などのさまざまな形式でデータを取得できます。また、API はドキュメントテキスト内の特定の単語やフレーズを検索する機能も提供します。

プラットフォームに依存しない

GroupDocs.Parser for .NET は以下のオペレーティングシステム、フレームワーク、パッケージマネージャーをサポートします

サポートされているファイル形式

GroupDocs.Parser for .NET は以下のファイル形式の操作をサポートします。

Microsoft Office 形式

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像 & その他の形式

ポータブル: PDF
画像: JPG, BMP, PNG, TIFF, GIF
その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

Web: HTML, MHTML
アーカイブ: ZIP, TAR, 7Z
電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for .NET の機能

弊社の .NET Document Parser SDK を使用して、PDF、Office ドキュメント、画像、その他の形式からデータを迅速かつ正確に抽出します。

テキストを抽出する

Office ドキュメント、PDF ファイル、画像などのさまざまなファイル形式からテキスト情報を抽出し、読みやすさと分析のしやすさを高めます。

画像を抽出する

Office ドキュメントや PDF ファイルなど、さまざまなソースから視覚コンテンツを取得し、便利にアクセス・活用できます。

QR コードをスキャンする

Office ドキュメント、PDF ファイル、またはビジュアルコンテンツ内にある QR コードを検出・デコードし、効率的に情報を取得します。

メール添付ファイルおよびアーカイブからデータを抽出する

メールメッセージ、ファイル添付、および圧縮データソースから貴重な情報を収集し、効果的な分析と活用を実現します。

テーブルを抽出

PDFドキュメントから表形式データを識別・抽出し、整理された分析と利用を可能にします。

ハイパーリンクを抽出

オフィス文書やPDFファイル内のハイパーリンクとメールアドレスを検索し抽出して、効率的にアクセスできるようにします。

PDFフォームを解析

PDFフォームは、ユーザーが入力できるフィールドを備えたデジタル文書で、情報を電子的に入力できます。.NET APIを使用してこれらのフォームからデータを抽出し、効率的に処理できます。

テンプレートでデータを解析

カスタムテンプレートを作成し、.NET APIと組み合わせてPDFファイルから特定の情報を解析することで、データ抽出プロセスを簡素化します。

ドキュメント内のテキストを検索

ドキュメント内の特定の単語やパターンを迅速に検索します。

コードサンプル

典型的な GroupDocs.Parser for .NET の操作例の一部

PDFドキュメントから画像を抽出

GroupDocs.Parser for .NET は C# 開発者が

ドキュメントから画像を簡単に抽出できるようにします：

C# で PDF ドキュメントから画像を抽出する

// Parser クラスのインスタンスを作成する style=color:#00f>using (var parser = new Parser("source.pptx")) { // 画像を抽出する var images = parser.GetImages(); // 何かが抽出されたか確認する if (images == null) { return; } // 画像を反復処理する foreach (PageImageArea image in images) { // ページインデックス、矩形、画像タイプを出力する Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", image.Page.Index, image.Rectangle, image.FileType)); } }

`画像からバーコードを抽出`

当社の .NET API を使用して画像からバーコードを抽出します：

`C# で画像からバーコードを抽出する`

// ソース画像を Parser にロードする
using (var parser = new Parser("source.jpg"))
{
    // ファイルがバーコード抽出に対応しているか確認する
    if (parser.Features.Barcodes)
    {
        // ファイルからバーコードを抽出する
        var barcodes = parser.GetBarcodes();

        // バーコードを反復処理する
        foreach (var barcode in barcodes)
        {
            // ページインデックスを出力する
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // バーコードの値を出力する
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

`始める準備はできていますか?`

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

NuGetのダウンロード
無料トライアルを開始する

`有用なリソース`

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。


ドキュメント
APIリファレンス
コードサンプル
無料サポート
有料のサポート