GroupDocs.Parser for Java

Javaを使用したXMLからのテキストの取得

PDF、Word、Excelなどのファイルから、あなたのJava開発プロジェクト内でGroupDocs.Parserを使用して、読みやすいまたは構造化されたテキストをシームレスに取得します。

Javaを使用してXmlからテキストを取得する方法

GroupDocs.Parserを使用してJavaプロジェクト内のXMLファイルからテキストを抽出するために、以下の手順に従ってください:

  1. Parserクラスを使用してXMLドキュメントを読み込む。
  2. ファイル内容からテキストを抽出する。
  3. テキストが正常に取得されたか確認する。
  4. 検索、分析、自動化システムでテキストデータを使用する。
// ドキュメントでParserを初期化
try (Parser parser = new Parser("input.xml"))
{
    // すべてのテキストデータを読み取り、抽出
    try (TextReader reader = parser.getText())
    {
        // テキストコンテンツが欠落している場合はnullを返す
        // 抽出したテキストをワークフローに統合
        System.out.println(reader == null ? 
            "サポートされていないテキスト抽出フォーマットをスキップ" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
クリックしてコピー
コピーしました
さらなる例 ドキュメンテーション

リッチテキスト抽出機能

GroupDocs.Parserは単純なテキスト抽出を超えて、コンテンツ処理タスクを強化するために画像、メタデータ、および構造化データの取得をサポートします。

ドキュメントからテキストコンテンツを抽出して構造化

さまざまなドキュメントフォーマットで動作

DOCX、XLSX、PPTX、PDF、HTMLなどから生のテキストと構造化されたテキストの両方をキャプチャします。

視覚およびテキストコンテンツからテキストを抽出

論理的な構造を維持しながら、スキャンしたドキュメント、スライド、スプレッドシート、その他のファイルタイプからテキストを解析します。

抽出プロセスの詳細な制御

ページ範囲、レイアウトゾーン、精度パラメータを設定して、テキスト解析を微調整します。

サンプル:PPTXドキュメントからのテキスト領域の抽出

このサンプルは、GroupDocs.Parserを使用してPowerPointプレゼンテーションからテキストブロックとその空間的座標を抽出する方法を示しています。

Java

//  Parser APIでPPTXファイルを読み込む
try (Parser parser = new Parser("input.pptx"))
{
    // すべての矩形テキストゾーンを取得
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // この機能がサポートされていない場合は終了
    if (areas == null)
    {
        return;
    }

    // ページごとにテキスト領域をループする
    for (PageTextArea a : areas)
    {
        // 各テキストブロックをページ番号と境界矩形で処理する
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

GroupDocs.Parser for Java APIのご紹介

GroupDocs.Parserは、Java開発者向けに設計された堅牢でスケーラブルなドキュメントパーサーです。PDF、DOCX、XLSX、PPTXなどのさまざまなフォーマットから、テキスト、テーブル、画像、構造化コンポーネントを正確に抽出する機能を提供します。外部ユーティリティに依存することなく。
詳細はこちら
About illustration

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

テキスト抽出にサポートされるファイルタイプ

GroupDocs.Parserは、数多くのファイルおよび画像フォーマットからテキストコンテンツを引き出すことが可能です。以下は、サポートされる最も一般的なタイプです。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本