ファイル Java API からテキストを抽出するにはどうすればよいですか?

GroupDocs.Parser for Java は、テキスト、画像、メタデータ抽出 API であり、50 を超える一般的なドキュメントタイプをサポートし、生の構造化および書式設定されたテキストを解析する機能を備えたビジネスアプリケーションの構築を支援します。また、事前定義されたテンプレートを使用したドキュメントの解析もサポートしており、請求書やその他の一般的なドキュメントから複雑なデータを迅速かつ正確に抽出できます。 GroupDocs.Parser for Java を使用すると、Word 処理ドキュメント、Excel スプレッドシート、PowerPoint プレゼンテーション、OneNote、PDF ファイル、ZIP アーカイブを含む、すべての一般的な形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。

GroupDocs.Parser API は、ファイルテキスト抽出機能を必要とする企業ソリューションに最適です。これらの API は、Java runtime: J2SE 6.0 and above を含むすべての主要なオペレーティングシステムおよびプラットフォームで十分にサポートされています。

Java のドキュメントからテキストを抽出します

GroupDocs.Parser for Java を使用すると、Java 開発者はいくつかの簡単な手順を実装することで、ドキュメントからテキストを簡単に抽出できます。

最初のドキュメントの Parser オブジェクトをインスタンス化します。
getText メソッドを呼び出し、を取得します。TextReader オブジェクト;
リーダーが null ではないかどうかを確認します (ドキュメントのテキスト抽出がサポートされています)。
リーダーからのテキストを読みます。

テキスト抽出の詳細については、こちらをご覧ください。

Java サンプルコードを使用してドキュメントからテキストを抽出する方法

// GroupDocs.Parser API を使用してドキュメントからテキストを抽出する
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(filePath)) {
    // テキストをリーダーに抽出する
    try (TextReader reader = parser.getText()) {
        // ドキュメントからテキストを印刷する
        // テキスト抽出がサポートされていない場合、リーダーは null になります
        System.out.println(reader == null ? "テキスト抽出はサポートされていません" : reader.readToEnd());
    }
}