GroupDocs.Parser for .NET

C#を使用してDOCX文書を解析する

GroupDocs.Parserを使用して、PDF、Word、Excel、および画像ファイルからテキスト、メタデータ、テーブル、画像を効率的に抽出します。.NETプロジェクトで実施できます。

NuGetのダウンロード

無料トライアルを開始する

C#でDocxからデータを抽出する手順

GroupDocs.Parserを使用して、.NETアプリでDOCX文書からコンテンツを解析する手順は次のとおりです：

Parserインスタンスを使用してDOCX文書を読み込む。
テキスト、テーブル、メタデータなどの必要なコンテンツを抽出する。
抽出したデータが有効であることを確認する。
解析された出力を下流処理、自動化、またはビジネスシステムで使用する。

コピー

// Parserを使って文書を読み込む
using (Parser parser = new Parser("input.docx")) {

    // ファイルからすべてのテキストコンテンツを抽出する
    using (TextReader reader = parser.GetText()) 
    {
        // テキストが利用できない場合、結果はnullになります
        // 抽出したテキストをアプリケーションで使用する
        Console.WriteLine(reader == null ? 
            "このフォーマットではテキスト抽出がサポートされていません" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

クリックしてコピー

コピーしました

さらなる例ドキュメンテーション

包括的な文書解析機能

GroupDocs.Parserは、単なるテキスト読み込み以上のことができます—バーコード抽出、画像解析、メタデータアクセス、構造化データ処理をサポートし、高度な自動化とデータ分析を実現します。

多様なファイルコンテンツタイプのサポート

PDF、Word、Excel、HTMLなどの文書フォーマットからテキスト、画像、テーブル、フィールドを抽出します。

スキャンされたファイルとデジタルファイルの両方に対応

スキャンされた文書とデジタルファイルの両方からデータを解析し、OCRおよびレイアウトに配慮した抽出をサポートします。

柔軟な抽出パラメータ

ページ範囲の選択、領域ターゲティング、フィールド検出テンプレートなど、柔軟なオプションで解析ロジックを調整します。

テンプレートを使用してPDFを解析する方法

この例では、GroupDocs.Parserを使用して、定義済みの解析テンプレートからPDFから構造化データを抽出する方法を示します。

C#

//  Parserクラスを使用してPDFファイルを読み込む
using (Parser parser = new Parser("input.pdf"))
{
    // テンプレートごとに文書を解析する
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // フォーム抽出がサポートされているか確認する
    if (data == null)
    {
        return;
    }

    // 取得したフィールドを処理する
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // '詳細'テーブルの検出パラメータを作成する
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

GroupDocs.Parser for .NET APIについて

GroupDocs.Parserは、.NET開発者向けに設計された機能豊富な文書解析APIです。PDF、DOCX、XLSX、PPTXなどのポピュラーなフォーマットから、プレーンおよび構造化テキスト、メタデータ、画像、テーブル、バーコードを抽出することができます。すべて追加のソフトウェア依存関係なしで行えます。

詳細はこちら