GroupDocs.Parser for Java

Javaを使用したXMLからのテキストの取得

PDF、Word、Excelなどのファイルから、あなたのJava開発プロジェクト内でGroupDocs.Parserを使用して、読みやすいまたは構造化されたテキストをシームレスに取得します。

Mavenのダウンロード

無料トライアルを開始する

Javaを使用してXmlからテキストを取得する方法

GroupDocs.Parserを使用してJavaプロジェクト内のXMLファイルからテキストを抽出するために、以下の手順に従ってください：

Parserクラスを使用してXMLドキュメントを読み込む。
ファイル内容からテキストを抽出する。
テキストが正常に取得されたか確認する。
検索、分析、自動化システムでテキストデータを使用する。

コピー

// ドキュメントでParserを初期化
try (Parser parser = new Parser("input.xml"))
{
    // すべてのテキストデータを読み取り、抽出
    try (TextReader reader = parser.getText())
    {
        // テキストコンテンツが欠落している場合はnullを返す
        // 抽出したテキストをワークフローに統合
        System.out.println(reader == null ? 
            "サポートされていないテキスト抽出フォーマットをスキップ" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

クリックしてコピー

コピーしました

さらなる例ドキュメンテーション

リッチテキスト抽出機能

GroupDocs.Parserは単純なテキスト抽出を超えて、コンテンツ処理タスクを強化するために画像、メタデータ、および構造化データの取得をサポートします。

さまざまなドキュメントフォーマットで動作

DOCX、XLSX、PPTX、PDF、HTMLなどから生のテキストと構造化されたテキストの両方をキャプチャします。

視覚およびテキストコンテンツからテキストを抽出

論理的な構造を維持しながら、スキャンしたドキュメント、スライド、スプレッドシート、その他のファイルタイプからテキストを解析します。

抽出プロセスの詳細な制御

ページ範囲、レイアウトゾーン、精度パラメータを設定して、テキスト解析を微調整します。

サンプル：PPTXドキュメントからのテキスト領域の抽出

このサンプルは、GroupDocs.Parserを使用してPowerPointプレゼンテーションからテキストブロックとその空間的座標を抽出する方法を示しています。

Java

//  Parser APIでPPTXファイルを読み込む
try (Parser parser = new Parser("input.pptx"))
{
    // すべての矩形テキストゾーンを取得
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // この機能がサポートされていない場合は終了
    if (areas == null)
    {
        return;
    }

    // ページごとにテキスト領域をループする
    for (PageTextArea a : areas)
    {
        // 各テキストブロックをページ番号と境界矩形で処理する
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

GroupDocs.Parser for Java APIのご紹介

GroupDocs.Parserは、Java開発者向けに設計された堅牢でスケーラブルなドキュメントパーサーです。PDF、DOCX、XLSX、PPTXなどのさまざまなフォーマットから、テキスト、テーブル、画像、構造化コンポーネントを正確に抽出する機能を提供します。外部ユーティリティに依存することなく。

詳細はこちら