GroupDocs.Parser for Java

Java での RTF 文書からのデータ抽出

GroupDocs.Parser を使用して、PDF、Word、Excel、画像ベースの文書からテキスト、メタデータ、表、グラフィックスなどの構造化コンテンツをシームレスに抽出します。Java アプリで利用できます。

Mavenのダウンロード

無料トライアルを開始する

Java を使用した Rtf からのデータ抽出方法

GroupDocs.Parser を使用して、Java プロジェクトの RTF 文書から有用な情報を抽出するには、次の手順に従ってください：

Parser オブジェクトで RTF ファイルを開きます。
パーサーを使用して必要なデータ（テキスト、表、メタデータなど）を取得します。
出力が正確かつ完全であることを確認します。
パースされたコンテンツをデータフロー、ビジネスプロセス、またはアプリケーションに統合します。

コピー

// Parser を初期化し、入力文書を設定します。
try (Parser parser = new Parser("input.rtf"))
{
    // 文書から利用可能なすべてのテキストコンテンツを取得します。
    try (TextReader reader = parser.getText())
    {
        // テキストが見つからない場合、戻り値は null になります。
        // 抽出したコンテンツをソリューションに組み込みます。
        System.out.println(reader == null ? 
            "このフォーマットはテキスト抽出をサポートしていない場合があります。" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

クリックしてコピー

コピーしました

さらなる例ドキュメンテーション

多機能な文書パース機能

GroupDocs.Parser は単なるテキスト抽出以上の機能を持ち、バーコード、メタデータ、画像、表、その他のデータの完全なパースをサポートし、インテリジェントな自動化とデータ駆動型アプリケーションを推進します。

複数のファイル形式からの抽出

PDF、Word、Excel、PowerPoint、HTMLなど、広く使用されているファイルタイプからテキスト、表、メディアなどのデータにアクセスします。

デジタルおよびスキャンソースからのコンテンツパース

ネイティブデジタルファイルとスキャン画像の両方からコンテンツを処理し、必要に応じてOCRを使用して埋め込まれたテキストを解釈します。

柔軟な設定オプション

特定の抽出ニーズを満たすために、ページ選択、レイアウトゾーン、カスタムフィールドテンプレートの設定でパースを調整します。

データ抽出テンプレートを使用したPDFのパース

このサンプルは、GroupDocs.Parser を使用してカスタムテンプレートからPDFの構造化フィールドを抽出する方法を示しています。

Java

//  Parser クラスを使用してPDFを開きます。
try (Parser parser = new Parser("input.pdf"))
{
    // 定義されたデータを抽出するためにパーステンプレートを適用します。
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // テンプレートベースの抽出が可能か確認します。
    if (data == null) {
        return;
    }

    // 抽出されたデータフィールドを操作します。
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // '詳細' セクションを抽出するための検出設定を定義します。
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

GroupDocs.Parser for Java とは？

GroupDocs.Parser は、Java 開発者向けに構築された堅牢な API で、先進的な文書パース機能を提供します。PDF、DOCX、XLSX、PPTX などの多くのフォーマットからテキスト、画像、表、構造化フィールド、バーコードを抽出および処理できます。追加のライブラリをインストールする必要はありません。

詳細はこちら