C#.NET API 経由で Excel、Word、PDF、PowerPoint ドキュメントからテーブルを抽出します

GroupDocs.Parser .NET API を使用すると、プログラマは PDF、DOC、DOCX、PPT、PPTX、EML、MSG、XLS、XLSX、CSV からテーブルを抽出できます。 、ODT、RTF、および EPUB のドキュメントまたはページ。


無料トライアルをダウンロード

.NET API 経由で DOC ファイルからテーブルを抽出するにはどうすればよいですか?

テーブルは行と列に配置されたセルの集合です。テーブルは、詳細または複雑なデータを保存および整理して、ユーザーが簡単に読み取ったり表示できるようにする上で非常に重要な役割を果たします。テーブルは、リストの作成、情報の比較、データの整列、情報のグループ化、データの傾向やパターンの強調表示など、さまざまな方法で使用できます。 GroupDocs.Parser for .NET は、ソフトウェア プログラマが、PDF、電子メール、電子ブック、Word (DOC、{ 318})、PowerPoint (PPT、PPTX)、Excel (XLS、XLSX)、メール (EML、MSG) 形式など。 .NET API には、ドキュメントからすべての表を抽出する、特定のページから表を抽出する、表のセル データを取得する、表の行と列の合計数を取得する、行の高さを取得するなど、表を操作するための重要な機能がいくつか含まれています。テーブルなどのデータを印刷します。

.NET の DOC からテーブルを抽出します

GroupDocs.Parser for .NET を使用すると、C# 開発者は、いくつかの簡単な手順を実装することで、DOC ファイルからテーブルを簡単に抽出できます。

  • 最初のドキュメントの Parser オブジェクトをインスタンス化します。
  • ドキュメントがテーブル抽出をサポートしているかどうかを確認します。
  • PageTableAreaOptions および をインスタンス化します。 TemplateTableLayout テーブルのレイアウトを設定するクラス
  • GetTables メソッドを呼び出し、のコレクションを取得します。PageTableArea オブジェクト。

C# サンプルコードを使用して DOC ファイルからテーブルを抽出する方法

// GroupDocs.Parser API を使用して DOC ファイルからテーブルを抽出する
// Parserクラスのインスタンスを作成する
using (Parser parser = new Parser(filePath)) {
    // ドキュメントがテーブル抽出をサポートしているかどうかを確認する
    if (!parser.Features.Tables) {
        Console.WriteLine("ドキュメントはテーブル抽出をサポートしていません。");
        return;
    }
    // テーブルのレイアウトを作成する
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // テーブル抽出のオプションを作成する
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // ドキュメントから表を抽出します。
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // テーブルを反復処理する
    foreach (PageTableArea t in tables) {
        // 行を反復処理する
        for (int row = 0; row < t.RowCount; row++) {
            // 列を反復処理する
            for (int column = 0; column < t.ColumnCount; column++) {
                // 表のセルを取得する
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // 表のセルのテキストを印刷します
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

システム要求

GroupDocs.Parser for .NET API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。

  • オペレーティング システム: Microsoft Windows、Linux、MacOS
  • 開発環境: Microsoft Visual Studio, Xamarin, MonoDevelop
  • フレームワーク
  • GroupDocs.Parser for .NET の最新バージョンを Nuget からダウンロードします

GroupDocs.Parser for .NET を使用する理由

  • サポートされているドキュメントからのプレーン テキスト抽出のサポート
  • ユーザー定義のテンプレートを使用したドキュメントの解析
  • 構造化テキスト抽出を完全にサポート
  • キーワードおよび正規表現によるテキスト検索
  • 書式設定されたテキスト、メタデータ、画像、コンテナ、添付ファイルを抽出します
  • サポートされている一部のドキュメント形式の目次を抽出します
  • PDF ドキュメントからのフォーム データを解析する
  • ドキュメントからハイパーリンクを抽出する

他のドキュメント形式からのテーブルの抽出

.NET ファイル形式と画像のドキュメント解析とテーブル スキャン API。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 日本