GroupDocs.Parser for Java は、テキスト、画像、メタデータ抽出 API であり、50 を超える一般的なドキュメント タイプをサポートし、生の構造化および書式設定されたテキストを解析する機能を備えたビジネス アプリケーションの構築を支援します。また、事前定義されたテンプレートを使用したドキュメントの解析もサポートしており、請求書やその他の一般的なドキュメントから複雑なデータを迅速かつ正確に抽出できます。 GroupDocs.Parser for Java を使用すると、Word 処理ドキュメント、Excel スプレッドシート、PowerPoint プレゼンテーション、OneNote、PDF ファイル、ZIP アーカイブを含む、すべての一般的な形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。
GroupDocs.Parser API は、ファイル テキスト抽出機能を必要とする企業ソリューションに最適です。これらの API は、Java runtime: J2SE 6.0 and above を含むすべての主要なオペレーティング システムおよびプラットフォームで十分にサポートされています。
GroupDocs.Parser for Java を使用すると、Java 開発者は、いくつかの簡単な手順を実装することで、PDF ファイルからテキストを簡単に抽出できます。
// GroupDocs.Parser API を使用して PDF ファイルからテキストを抽出します
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(filePath)) {
// テキストをリーダーに抽出する
try (TextReader reader = parser.getText()) {
// ドキュメントからテキストを印刷する
// テキスト抽出がサポートされていない場合、リーダーは null になります
System.out.println(reader == null ? "テキスト抽出はサポートされていません" : reader.readToEnd());
}
}
GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。
GroupDocs.Parser ライブ デモ Web サイトにアクセスして、今すぐ PDF ファイルからテキストを抽出します。 ライブデモには次のようなメリットがあります。
APIをダウンロードする必要はありません
コードを書く必要はありません
ソースファイルをアップロードするだけです
ファイルを保存するためのダウンロードリンクを取得する
Java ファイル形式と画像のドキュメント解析とテキスト抽出 API。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。
(PowerPoint Slide Show)
(Microsoft PowerPoint 97-2003)
(Open XML presentation Format)
(Rich Text Format)
(LaTeX Source Document)
(The 7th Guest Video File)
(Visio Macro-Enabled Drawing)
(Visio Drawing)
(Visio Macro-Enabled Stencil File)
(Visio Stencil File)
(Visio Macro-Enabled Drawing Template)
(Visio Drawing Template)
(Visio Stencil XML File)
(Anim8or 3D Model)
(Excel Macro-Enabled Add-In)
(Microsoft Excel Spreadsheet (Legacy))