GroupDocs.Parser 概要

.NET アプリケーションでドキュメント解析を実行するための API

Illustration parser

ドキュメントからデータを抽出する

.NET API を使用すると、Office ドキュメント、電子メール、添付ファイル、アーカイブなどの幅広いファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールは、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなどのさまざまなアプリケーションで、これらのファイルに含まれる貴重な情報に効率的にアクセスして処理するのに役立ちます。

文書を解析する

PDF フォームからハイパーリンク、表、QR コード、バーコード、データなどのさまざまな要素を抽出します。また、カスタム テンプレートを使用してドキュメントから必要な情報を解析します。

結果のカスタマイズ

.NET API を使用すると、生、構造化、HTML、マークダウンなどのさまざまな形式でデータを取得できます。さらに、API は、ドキュメントのテキスト内の特定の単語や語句を見つけるための検索機能を提供します。

プラットフォームの独立性

GroupDocs.Parser for .NET 次のオペレーティング システム、フレームワーク、パッケージ マネージャーをサポートしています

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

サポートされているファイル形式

GroupDocs.Parser for .NET は、次の ファイル形式 での操作をサポートしています。

Microsoft Office 形式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像とその他の形式

  • Portable: PDF
  • 画像: JPG, BMP, PNG, TIFF, GIF
  • その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

  • ウェブ: HTML, MHTML
  • アーカイブ: ZIP, TAR, 7Z
  • 電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser の機能

PDF、Office ドキュメント、画像からデータを迅速かつ正確に抽出します。

Feature icon

テキストを抽出する

オフィス文書、PDF ファイル、画像などのさまざまなファイル形式からテキスト情報を抽出し、読みやすく分析しやすくします。

Feature icon

画像の抽出

オフィス文書や PDF ファイルなどのさまざまなソースからビジュアル コンテンツを取得して、アクセスして使用するのが便利です。

Feature icon

QRコードをスキャンする

オフィス文書、PDF ファイル、またはビジュアル コンテンツ内に存在する QR コードを検出してデコードし、効率的な情報検索を実現します。

Feature icon

電子メールの添付ファイルとアーカイブからデータを抽出する

電子メール メッセージ、添付ファイル、圧縮データ ソースから貴重な情報を収集し、効果的に分析して利用します。

Feature icon

テーブルの抽出

組織的な分析と使用のために、PDF ドキュメントから表形式のデータを特定して抽出します。

Feature icon

ハイパーリンクの抽出

オフィス文書または PDF ファイル内のハイパーリンクと電子メール アドレスを見つけて抽出し、効率的にアクセスできるようにします。

Feature icon

PDF フォームを解析する

PDF フォームは、ユーザーが情報を電子的に入力できるようにするための入力可能なフィールドを備えたデジタル ドキュメントです。 .NET API を利用してこれらのフォームからデータを抽出し、効率的に処理できます。

Feature icon

テンプレートによるデータの解析

カスタム テンプレートを作成し、それを .NET API で利用して、PDF ファイルからの特定の情報を解析し、データ抽出プロセスを簡素化します。

Feature icon

ドキュメント内のテキストを検索する

文書内の特定の単語やパターンをすばやく見つけます。

コードサンプル

典型的なオペレーションのいくつかのユースケース

PDF ドキュメントから画像を抽出する

.NET API を使用すると、C# 開発者はいくつかの簡単な手順を実装することで、ドキュメントから画像を簡単に抽出できます。

C# で PDF ドキュメントから画像を抽出する

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Extract images
    var images = parser.GetImages();

    // Check if images extraction is supported
    if (images != null)
    {
        var imageIndex = 0;

        // Iterate over images
        foreach (var image in images)
        {
            // Save the image to the file
            image.Save($"{++imageIndex}{image.FileType.Extension}");
        }
    }
}

画像からバーコードを抽出する

.NET API を使用すると、C# 開発者はいくつかの簡単な手順を実装することで、ドキュメントからバーコードを簡単に抽出できます。

画像からバーコードを抽出する

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Check if the file supports barcode extracting
    if (parser.Features.Barcodes)
    {
        // Extract barcodes from the file.
        var barcodes = parser.GetBarcodes();

        // Iterate over barcodes
        foreach (var barcode in barcodes)
        {
            // Print the page index
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Print the barcode value
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本