Java のドキュメントからテキストを抽出します

数行の Java コードを使用してドキュメントからテキストを抽出します。


無料トライアルをダウンロード

ファイル Java API からテキストを抽出するにはどうすればよいですか?

GroupDocs.Parser for Java は、テキスト、画像、メタデータ抽出 API であり、50 を超える一般的なドキュメント タイプをサポートし、生​​の構造化および書式設定されたテキストを解析する機能を備えたビジネス アプリケーションの構築を支援します。また、事前定義されたテンプレートを使用したドキュメントの解析もサポートしており、請求書やその他の一般的なドキュメントから複雑なデータを迅速かつ正確に抽出できます。 GroupDocs.Parser for Java を使用すると、Word 処理ドキュメント、Excel スプレッドシート、PowerPoint プレゼンテーション、OneNote、PDF ファイル、ZIP アーカイブを含む、すべての一般的な形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。

GroupDocs.Parser API は、ファイル テキスト抽出機能を必要とする企業ソリューションに最適です。これらの API は、Java runtime: J2SE 6.0 and above を含むすべての主要なオペレーティング システムおよびプラットフォームで十分にサポートされています。

Java のドキュメントからテキストを抽出します

GroupDocs.Parser for Java を使用すると、Java 開発者はいくつかの簡単な手順を実装することで、ドキュメントからテキストを簡単に抽出できます。

  • 最初のドキュメントの Parser オブジェクトをインスタンス化します。
  • getText メソッドを呼び出し、を取得します。TextReader オブジェクト;
  • リーダーが null ではないかどうかを確認します (ドキュメントのテキスト抽出がサポートされています)。
  • リーダーからのテキストを読みます。

テキスト抽出の詳細については、こちらをご覧ください。

Java サンプルコードを使用してドキュメントからテキストを抽出する方法

// GroupDocs.Parser API を使用してドキュメントからテキストを抽出する
// Parserクラスのインスタンスを作成する
try (Parser parser = new Parser(filePath)) {
    // テキストをリーダーに抽出する
    try (TextReader reader = parser.getText()) {
        // ドキュメントからテキストを印刷する
        // テキスト抽出がサポートされていない場合、リーダーは null になります
        System.out.println(reader == null ? "テキスト抽出はサポートされていません" : reader.readToEnd());
    }
}

システム要求

GroupDocs.Parser for Java API は、すべての主要なプラットフォームとオペレーティング システムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。

  • オペレーティング システム: Microsoft Windows、Linux、MacOS
  • 開発環境: NetBeans, Intellij IDEA, Eclipse, etc.
  • フレームワーク
  • GroupDocs.Parser for Java の最新バージョンを Maven からダウンロードします

GroupDocs.Parser for Java を使用する理由

  • サポートされているドキュメントからのプレーン テキスト抽出のサポート
  • ユーザー定義のテンプレートを使用したドキュメントの解析
  • 構造化テキスト抽出を完全にサポート
  • キーワードおよび正規表現によるテキスト検索
  • 書式設定されたテキスト、メタデータ、画像、コンテナ、添付ファイルを抽出します
  • サポートされている一部のドキュメント形式の目次を抽出します
  • PDF ドキュメントからのフォーム データを解析する
  • ドキュメントからハイパーリンクを抽出する

ライブデモ - オンラインで文書からテキストを抽出

GroupDocs.Parser ライブ デモ Web サイトにアクセスして、今すぐドキュメントからテキストを抽出します。 ライブデモには次のようなメリットがあります。

APIをダウンロードする必要はありません

コードを書く必要はありません

ソースファイルをアップロードするだけです

ファイルを保存するためのダウンロードリンクを取得する

他のドキュメント形式からテキストを抽出する

Java ファイル形式と画像のドキュメント解析とテキスト抽出 API。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。

DOC

(Microsoft Word Binary Format)

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 日本