GroupDocs.Parser for .NET

C#を使用してDOCX文書を解析する

GroupDocs.Parserを使用して、PDF、Word、Excel、および画像ファイルからテキスト、メタデータ、テーブル、画像を効率的に抽出します。.NETプロジェクトで実施できます。

C#でDocxからデータを抽出する手順

GroupDocs.Parserを使用して、.NETアプリでDOCX文書からコンテンツを解析する手順は次のとおりです:

  1. Parserインスタンスを使用してDOCX文書を読み込む。
  2. テキスト、テーブル、メタデータなどの必要なコンテンツを抽出する。
  3. 抽出したデータが有効であることを確認する。
  4. 解析された出力を下流処理、自動化、またはビジネスシステムで使用する。
// Parserを使って文書を読み込む
using (Parser parser = new Parser("input.docx")) {

    // ファイルからすべてのテキストコンテンツを抽出する
    using (TextReader reader = parser.GetText()) 
    {
        // テキストが利用できない場合、結果はnullになります
        // 抽出したテキストをアプリケーションで使用する
        Console.WriteLine(reader == null ? 
            "このフォーマットではテキスト抽出がサポートされていません" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
クリックしてコピー
コピーしました
さらなる例 ドキュメンテーション

包括的な文書解析機能

GroupDocs.Parserは、単なるテキスト読み込み以上のことができます—バーコード抽出、画像解析、メタデータアクセス、構造化データ処理をサポートし、高度な自動化とデータ分析を実現します。

文書コンテンツ抽出と解析機能

多様なファイルコンテンツタイプのサポート

PDF、Word、Excel、HTMLなどの文書フォーマットからテキスト、画像、テーブル、フィールドを抽出します。

スキャンされたファイルとデジタルファイルの両方に対応

スキャンされた文書とデジタルファイルの両方からデータを解析し、OCRおよびレイアウトに配慮した抽出をサポートします。

柔軟な抽出パラメータ

ページ範囲の選択、領域ターゲティング、フィールド検出テンプレートなど、柔軟なオプションで解析ロジックを調整します。

テンプレートを使用してPDFを解析する方法

この例では、GroupDocs.Parserを使用して、定義済みの解析テンプレートからPDFから構造化データを抽出する方法を示します。

C#

//  Parserクラスを使用してPDFファイルを読み込む
using (Parser parser = new Parser("input.pdf"))
{
    // テンプレートごとに文書を解析する
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // フォーム抽出がサポートされているか確認する
    if (data == null)
    {
        return;
    }

    // 取得したフィールドを処理する
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // '詳細'テーブルの検出パラメータを作成する
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

GroupDocs.Parser for .NET APIについて

GroupDocs.Parserは、.NET開発者向けに設計された機能豊富な文書解析APIです。PDF、DOCX、XLSX、PPTXなどのポピュラーなフォーマットから、プレーンおよび構造化テキスト、メタデータ、画像、テーブル、バーコードを抽出することができます。すべて追加のソフトウェア依存関係なしで行えます。
詳細はこちら
About illustration

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

データ抽出のためにサポートされているフォーマット

GroupDocs.Parserは、広範な文書および画像フォーマットでの解析を可能にします。データ抽出ワークフローに一般的に使用されるサポートされるファイルタイプを確認してください。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本