GroupDocs.Parser 概要

.NET アプリケーションで文書解析を実行するためのAPI

Illustration parser

文書からデータを抽出

GroupDocs.Parser for .NET APIを活用して、Office文書、Eメール、添付ファイル、アーカイブなど、広範囲のファイル形式からテキスト、メタデータ、画像を取得します。この強力なツールは、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなど、さまざまなアプリケーション内でこれらのファイルに含まれる貴重な情報に効率的にアクセスし処理するのに役立ちます。

文書を解析

ハイパーリンク、表、QRコード、バーコード、PDFフォームのデータなど、さまざまな要素を抽出します。また、カスタムテンプレートを使用して任意の情報を文書から解析します。

結果のカスタマイズ

.NET APIでは、生データ、構造化データ、HTML、またはMarkdownなど、さまざまな形式でデータを取得できます。さらに、文書のテキスト内に特定の単語やフレーズを見つけるための検索機能も提供しています。

プラットフォームの独立性

GroupDocs.Parser for .NET は次のオペレーティングシステム、フレームワーク、パッケージマネージャーをサポートしています。

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

サポートされているファイル形式

GroupDocs.Parser for .NET は次の ファイル形式に対応しています。

Microsoft Office形式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像およびその他の形式

  • ポータブル: PDF
  • 画像: JPG, BMP, PNG, TIFF, GIF
  • その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

  • ウェブ: HTML, MHTML
  • アーカイブ: ZIP, TAR, 7Z
  • e-Book: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for .NET の機能

PDF、Office文書、および画像から迅速かつ正確にデータを抽出します。

Feature icon

テキストの抽出

オフィス文書、PDFファイル、画像など、さまざまなファイル形式からテキスト情報を抽出します。

Feature icon

画像の抽出

オフィス文書やPDFファイルから視覚コンテンツを抽出し、便宜上アクセス可能にします。

Feature icon

QRコードのスキャン

オフィス文書やPDFファイル、または視覚コンテンツに存在するQRコードを検出してデコードします。

Feature icon

メール添付ファイルやアーカイブからデータを抽出

メールメッセージ、ファイル添付、圧縮データソースから貴重な情報を取得します。

Feature icon

表の抽出

PDF文書内の表形式のデータを識別して抽出し、整理された分析と利用を行います。

Feature icon

ハイパーリンクの抽出

オフィス文書やPDFファイル内のハイパーリンクやメールアドレスを見つけて抽出します。

Feature icon

PDFフォームを解析

PDFフォームはユーザーが情報を電子的に入力できるようにするための入力可能なフィールドを含むデジタル文書です。 .NET APIを使用して、これらのフォームからデータを抽出し、効率的に処理します。

Feature icon

テンプレートによるデータ解析

カスタムテンプレートを作成し、.NET APIを利用してPDFファイルから特定の情報を解析します。

Feature icon

文書内のテキストを検索

文書内で特定の言葉やパターンを迅速に見つけます。

コードサンプル

典型的な GroupDocs.Parser for .NET 操作のいくつかのユースケース

PDF文書から画像を抽出

GroupDocs.Parser for .NET は C# 開発者が 文書 から画像を抽出するのを簡単にします:

C# でPDF文書から画像を抽出

// Parser クラスのインスタンスを作成します。
using (var parser = new Parser("source.pptx"))
{
    // 画像を抽出します。
    var images = parser.GetImages();

    // 何かが抽出されたか確認します。
    if (images == null)
    {
        return;
    }
    // 画像を反復処理します。
    foreach (PageImageArea image in images)
    {
        // ページインデックス、矩形、画像タイプを出力します。
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", 
            image.Page.Index, image.Rectangle, image.FileType));
    }
}

画像からバーコードを抽出

私たちの .NET APIを使用して、画像から バーコード を抽出します:

C# で画像からバーコードを抽出

// Parser にソース画像を読み込みます。
using (var parser = new Parser("source.jpg"))
{
    // ファイルがバーコード抽出をサポートしているか確認します。
    if (parser.Features.Barcodes)
    {
        // ファイルからバーコードを抽出します。
        var barcodes = parser.GetBarcodes();

        // バーコードを反復処理します。
        foreach (var barcode in barcodes)
        {
            // ページインデックスを出力します。
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // バーコードの値を出力します。
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本