GroupDocs.Parser for .NET

C#を使用してDOCXからテーブルを抽出

GroupDocs.Parserを使用して、PDF、Word、Excelその他のファイル形式からテーブル構造を迅速に特定し、抽出します。あなたの.NETプロジェクトにおいて。

C#におけるDocxからテーブルを抽出する手順

GroupDocs.Parserを使用して、あなたの.NET環境内でDOCXファイルからテーブルを抽出するための手順を次の通りに従ってください:

  1. Parserインスタンスを初期化し、DOCX文書をロードします。
  2. 入力フォーマットがテーブル抽出をサポートしているか確認します。
  3. ファイルからテーブルコンテンツを抽出します。
  4. 出力のために構造化されたテーブルデータを使用します。
// Parserを使用してテーブルデータを含む文書を開く
using (Parser parser = new Parser("input.docx")) {

    // フォーマットがテーブル認識をサポートしているか確認する
    if (!parser.Features.Tables) {
        Console.WriteLine("テーブル解析をサポートしない文書を処理する");
        return;
    }

    // テーブル構造をどのように認識するかを定義する
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });

    // テーブルデータの抽出パラメータを指定する
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  ファイルコンテンツからテーブルを抽出する
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    //  検出された各テーブルをループする
    foreach (PageTableArea t in tables)
    {
    }
}
dotnet add package GroupDocs.Parser
クリックしてコピー
コピーしました
さらなる例 ドキュメンテーション

強力なデータ抽出機能

テーブル解析に加え、GroupDocs.Parserは、文書自動化を促進するために、テキストブロック、画像、メタデータ、およびその他の構造化データを抽出できます。

テーブル認識とコンテンツ抽出

正確なマルチフォーマットテーブル検出

DOCX、XLSX、PDF、HTMLなどのフォーマットから高精度でタブラー・データを抽出します。

ファイルからテーブル構造を解析

ドキュメントやスプレッドシートからフォーマットの損失なしに効率的にテーブルデータを取得します。

柔軟なテーブル抽出設定

レイアウト検出、列の整列、ヘッダー/フッターオプションを調整して出力を正確に制御します。

Excelスプレッドシートからテーブルを抽出する方法

このコードサンプルは、GroupDocs.Parserを使用してXLSXファイル内のテーブルデータを読み取り、イテレートする方法を示しています。

C#

//  Parser APIを使用してExcelファイルを開く
using (Parser parser = new Parser("input.xlsx"))
{
    // テーブルをファイルから抽出できない場合は終了する
    if (!parser.Features.Tables)
    {
        return;
    }

    // レイアウトルールを使用してタブラーコンテンツを特定する
    TemplateTableLayout layout = new TemplateTableLayout(
            new double[] { 50, 95, 275, 415, 485, 545 },
            new double[] { 325, 340, 365, 395 });

    // テーブルの抽出パラメータを設定する
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // テーブル抽出操作を実行する
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    // 検出された各テーブル構造をループする
    foreach (PageTableArea t in tables)
    {
        // テーブル内の各行をイテレートする
        for (int row = 0; row < t.RowCount; row++)
        {
            // 各行のセルをループする
            for (int column = 0; column < t.ColumnCount; column++)
            {
                // 現在のテーブルセルにアクセスする
                PageTableAreaCell cell = t[row, column];
                if (cell != null)
                {
                    // 各セルのテキストコンテンツを表示する
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
        }
    }
}

GroupDocs.Parser for .NET APIについて

GroupDocs.Parserは、.NET開発者向けに構築された包括的な文書解析APIです。PDF、DOCX、XLSX、PPTXなどの形式から、テキスト、テーブル、画像、ハイパーリンク、およびその他の構造化要素を正確に抽出できるように設計されています。サードパーティソフトウェアは必要ありません。
詳細はこちら
About illustration

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

テーブル抽出に対応したフォーマット

GroupDocs.Parserは、さまざまな文書タイプからテーブルデータを抽出できます。以下は、構造化されたテーブル解析に最も頻繁に使用されるフォーマットです。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本