Java の PDF からテキストを抽出します

数行の Java コードを使用して、PDF からテキストを抽出します。


無料トライアルをダウンロード

PDF ファイル Java API からテキストを抽出するにはどうすればよいですか?

GroupDocs.Parser for Java は、テキスト、画像、メタデータ抽出 API であり、50 を超える一般的なドキュメント タイプをサポートし、生​​の構造化および書式設定されたテキストを解析する機能を備えたビジネス アプリケーションの構築を支援します。また、事前定義されたテンプレートを使用したドキュメントの解析もサポートしており、請求書やその他の一般的なドキュメントから複雑なデータを迅速かつ正確に抽出できます。 GroupDocs.Parser for Java を使用すると、Word 処理ドキュメント、Excel スプレッドシート、PowerPoint プレゼンテーション、OneNote、PDF ファイル、ZIP アーカイブを含む、すべての一般的な形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。

GroupDocs.Parser API は、ファイル テキスト抽出機能を必要とする企業ソリューションに最適です。これらの API は、Java runtime: J2SE 6.0 and above を含むすべての主要なオペレーティング システムおよびプラットフォームで十分にサポートされています。

Java の PDF からテキストを抽出します

GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、PDF ファイルからテキストを簡単に抽出できます。

  • 最初のドキュメントの Parser オブジェクトをインスタンス化します。
  • getText メソッドを呼び出し、を取得します。TextReader オブジェクト;
  • リーダーが null ではないかどうかを確認します (ドキュメントのテキスト抽出がサポートされています)。
  • リーダーからのテキストを読みます。

テキスト抽出の詳細については、こちらをご覧ください。

Java サンプルコードを使用して PDF ファイルからテキストを抽出する方法

// GroupDocs.Parser API を使用して PDF ファイルからテキストを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(filePath)) {
    // テキストをリーダーに抽出する
    try (TextReader reader = parser.getText()) {
        // ドキュメントからテキストを印刷する
        // テキスト抽出がサポートされていない場合、リーダーは null になります
        System.out.println(reader == null ? "テキスト抽出はサポートされていません" : reader.readToEnd());
    }
}

システム要求

GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。

  • オペレーティング システム: Microsoft Windows、Linux、MacOS
  • 開発環境: NetBeans, Intellij IDEA, Eclipse, etc.
  • フレームワーク
  • GroupDocs.Parser for Java の最新バージョンを Maven からダウンロードします

GroupDocs.Parser for Java を使用する理由

  • サポートされているドキュメントからのプレーン テキスト抽出のサポート
  • ユーザー定義のテンプレートを使用したドキュメントの解析
  • 構造化テキスト抽出を完全にサポート
  • キーワードおよび正規表現によるテキスト検索
  • 書式設定されたテキスト、メタデータ、画像、コンテナ、添付ファイルを抽出します
  • サポートされている一部のドキュメント形式の目次を抽出します
  • PDF ドキュメントからのフォーム データを解析する
  • ドキュメントからハイパーリンクを抽出する

ライブデモ - PDF オンラインからテキストを抽出

GroupDocs.Parser ライブ デモ Web サイトにアクセスして、今すぐ PDF ファイルからテキストを抽出します。 ライブデモには次のようなメリットがあります。

APIをダウンロードする必要はありません

コードを書く必要はありません

ソースファイルをアップロードするだけです

ファイルを保存するためのダウンロードリンクを取得する

他のドキュメント形式からテキストを抽出する

Java ファイル形式と画像のドキュメント解析とテキスト抽出 API。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

XLAM

(Excel Macro-Enabled Add-In)

XLS

(Microsoft Excel Spreadsheet (Legacy))

Back to top
 日本