.NET API 経由で DOC ファイルからテーブルを抽出するにはどうすればよいですか?

テーブルは行と列に配置されたセルの集合です。テーブルは、詳細または複雑なデータを保存および整理して、ユーザーが簡単に読み取ったり表示できるようにする上で非常に重要な役割を果たします。テーブルは、リストの作成、情報の比較、データの整列、情報のグループ化、データの傾向やパターンの強調表示など、さまざまな方法で使用できます。 GroupDocs.Parser for .NET は、ソフトウェアプログラマが、PDF、電子メール、電子ブック、Word (DOC、{ 318})、PowerPoint (PPT、PPTX)、Excel (XLS、XLSX)、メール (EML、MSG) 形式など。 .NET API には、ドキュメントからすべての表を抽出する、特定のページから表を抽出する、表のセルデータを取得する、表の行と列の合計数を取得する、行の高さを取得するなど、表を操作するための重要な機能がいくつか含まれています。テーブルなどのデータを印刷します。

.NET の DOC からテーブルを抽出します

GroupDocs.Parser for .NET を使用すると、C# 開発者は、いくつかの簡単な手順を実装することで、DOC ファイルからテーブルを簡単に抽出できます。

最初のドキュメントの Parser オブジェクトをインスタンス化します。
ドキュメントがテーブル抽出をサポートしているかどうかを確認します。
PageTableAreaOptions およびをインスタンス化します。 TemplateTableLayout テーブルのレイアウトを設定するクラス
GetTables メソッドを呼び出し、のコレクションを取得します。PageTableArea オブジェクト。

テーブル抽出の詳細

C# サンプルコードを使用して DOC ファイルからテーブルを抽出する方法

// GroupDocs.Parser API を使用して DOC ファイルからテーブルを抽出する
// Parserクラスのインスタンスを作成する
using (Parser parser = new Parser(filePath)) {
    // ドキュメントがテーブル抽出をサポートしているかどうかを確認する
    if (!parser.Features.Tables) {
        Console.WriteLine("ドキュメントはテーブル抽出をサポートしていません。");
        return;
    }
    // テーブルのレイアウトを作成する
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // テーブル抽出のオプションを作成する
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // ドキュメントから表を抽出します。
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // テーブルを反復処理する
    foreach (PageTableArea t in tables) {
        // 行を反復処理する
        for (int row = 0; row < t.RowCount; row++) {
            // 列を反復処理する
            for (int column = 0; column < t.ColumnCount; column++) {
                // 表のセルを取得する
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // 表のセルのテキストを印刷します
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}