GroupDocs.Parser for Java

Java を使用して XLSX からテーブルデータを取得する

GroupDocs.Parser を使用して、PDF、DOCX、XLSXなどの形式からテーブルをシームレスに検出して抽出します。

Java で Xlsx からテーブルを取得する方法

GroupDocs.Parser を使用して XLSX ドキュメントからテーブルを解析するには、Java 環境で以下の手順に従ってください。

  1. Parser のインスタンスを作成し、対象の XLSX ファイルを読み込む。
  2. ファイルが構造化されたテーブル抽出をサポートしていることを確認する。
  3. API を使用してドキュメントからテーブル要素を取得する。
  4. 抽出されたデータを分析、レポート、または自動化システムで活用する。
// Parser を使用してテーブル要素を含む入力ドキュメントを読み込む
try (Parser parser = new Parser("input.xlsx"))
{
    // ドキュメントタイプがテーブル認識を許可していることを確認する
    if (!parser.getFeatures().isTables()) {
        System.out.println("テーブルをサポートしていないファイルに対するロジックを追加する");
        return;
    }

    // テーブル構造を解釈するルールを定義する
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // テーブルを抽出するためのパラメータを設定する
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  読み込んだドキュメントでテーブル抽出を実行する
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  結果から抽出された各テーブルを処理する
    for (PageTableArea t : tables) 
    {
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
クリックしてコピー
コピーしました
さらなる例 ドキュメンテーション

高度なコンテンツ抽出ツール

テーブルの読み取りにとどまらず、GroupDocs.Parser はプレーンテキスト、視覚要素、埋め込まれたメタデータ、および構造化オブジェクトのキャプチャをサポートし、ドキュメント処理タスクを強化します。

構造化されたコンテンツと表形式データの抽出

形式を超えた正確なテーブル解析

PDF、Word、Excel、HTMLなどの標準ドキュメントタイプからのテーブル抽出を高い精度でサポートします。

多様なソースからの表形式構造の読み取り

スプレッドシート、文書、レポートからテーブルデータを取得し、構造と配置を保持します。

カスタマイズ可能なテーブル抽出設定

レイアウト検出を制御し、ヘッダーとフッターを管理し、柔軟な設定オプションで抽出を微調整します。

サンプル: Excel ドキュメントからテーブルを抽出

この例では、GroupDocs.Parser を使用して Excel (XLSX) ファイルのテーブルコンテンツを抽出しループする方法を示します。

Java

//  Parser を Excel ファイルで初期化する
try (Parser parser = new Parser("input.pdf"))
{
    // このドキュメントのテーブル抽出がサポートされていない場合は終了する
    if (!parser.getFeatures().isTables())
    {
        return;
    }

    // テーブルレイアウトを見つけるためのルールを適用する
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // テーブル抽出の設定を構成する
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // 抽出プロセスを呼び出す
    Iterable<PageTableArea> tables = parser.getTables(options);

    // 解析された全てのテーブル構造をループする
    for (PageTableArea t : tables)
    {
        // テーブルの各行を反復処理する
        for (int row = 0; row < t.getRowCount(); row++)
        {
            // 現在の行内の各セルを処理する
            for (int column = 0; column < t.getColumnCount(); column++) 
            {
                // 現在のセルの内容にアクセスして読み取る
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null)
                {
                    // 各テーブルセルのテキスト値を出力する
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
        }
    }
}

GroupDocs.Parser for Java API の紹介

GroupDocs.Parser は、Java プラットフォーム向けの多機能なコンテンツ抽出 API です。PDF、Word 文書、Excel シート、PowerPoint プレゼンテーションなどからテーブル、テキスト、グラフィック、リンク、構造化データを正確に解析することが可能で、サードパーティプラグインは必要ありません。
詳細はこちら
About illustration

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

テーブル抽出に対応するドキュメントタイプ

GroupDocs.Parser は、複数のファイルタイプで信頼できるテーブル検出を提供します。以下は、テーブル抽出に最も広くサポートされているドキュメント形式のリストです。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本