GroupDocs.Parser for Java は、テキスト、画像、メタデータ抽出 API であり、50 を超える一般的なドキュメント タイプをサポートし、生の構造化および書式設定されたテキストを解析する機能を備えたビジネス アプリケーションの構築を支援します。また、事前定義されたテンプレートを使用したドキュメントの解析もサポートしており、請求書やその他の一般的なドキュメントから複雑なデータを迅速かつ正確に抽出できます。 GroupDocs.Parser for Java を使用すると、Word 処理ドキュメント、Excel スプレッドシート、PowerPoint プレゼンテーション、OneNote、PDF ファイル、ZIP アーカイブを含む、すべての一般的な形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。
GroupDocs.Parser API は、ファイル テキスト抽出機能を必要とする企業ソリューションに最適です。これらの API は、Java runtime: J2SE 6.0 and above を含むすべての主要なオペレーティング システムおよびプラットフォームで十分にサポートされています。
GroupDocs.Parser for Java を使用すると、Java 開発者はいくつかの簡単な手順を実装することで、ドキュメントからテキストを簡単に抽出できます。
// GroupDocs.Parser API を使用してドキュメントからテキストを抽出する
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(filePath)) {
// テキストをリーダーに抽出する
try (TextReader reader = parser.getText()) {
// ドキュメントからテキストを印刷する
// テキスト抽出がサポートされていない場合、リーダーは null になります
System.out.println(reader == null ? "テキスト抽出はサポートされていません" : reader.readToEnd());
}
}
GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。
GroupDocs.Parser ライブ デモ Web サイトにアクセスして、今すぐドキュメントからテキストを抽出します。 ライブデモには次のようなメリットがあります。
APIをダウンロードする必要はありません
コードを書く必要はありません
ソースファイルをアップロードするだけです
ファイルを保存するためのダウンロードリンクを取得する
Java ファイル形式と画像のドキュメント解析とテキスト抽出 API。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。
(Microsoft Word Binary Format)
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)