PDF ファイル Java API からテキストを抽出するにはどうすればよいですか?

GroupDocs.Parser for Java は、テキスト、画像、メタデータ抽出 API であり、50 を超える一般的なドキュメントタイプをサポートし、生の構造化および書式設定されたテキストを解析する機能を備えたビジネスアプリケーションの構築を支援します。また、事前定義されたテンプレートを使用したドキュメントの解析もサポートしており、請求書やその他の一般的なドキュメントから複雑なデータを迅速かつ正確に抽出できます。 GroupDocs.Parser for Java を使用すると、Word 処理ドキュメント、Excel スプレッドシート、PowerPoint プレゼンテーション、OneNote、PDF ファイル、ZIP アーカイブを含む、すべての一般的な形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。

GroupDocs.Parser API は、ファイルテキスト抽出機能を必要とする企業ソリューションに最適です。これらの API は、Java runtime: J2SE 6.0 and above を含むすべての主要なオペレーティングシステムおよびプラットフォームで十分にサポートされています。

Java の PDF からテキストを抽出します

GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、PDF ファイルからテキストを簡単に抽出できます。

最初のドキュメントの Parser オブジェクトをインスタンス化します。
getText メソッドを呼び出し、を取得します。TextReader オブジェクト;
リーダーが null ではないかどうかを確認します (ドキュメントのテキスト抽出がサポートされています)。
リーダーからのテキストを読みます。

テキスト抽出の詳細については、こちらをご覧ください。

Java サンプルコードを使用して PDF ファイルからテキストを抽出する方法

// GroupDocs.Parser API を使用して PDF ファイルからテキストを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(filePath)) {
    // テキストをリーダーに抽出する
    try (TextReader reader = parser.getText()) {
        // ドキュメントからテキストを印刷する
        // テキスト抽出がサポートされていない場合、リーダーは null になります
        System.out.println(reader == null ? "テキスト抽出はサポートされていません" : reader.readToEnd());
    }
}