GroupDocs.Parser for .NET

C# を使用して PDF からテキストを抽出する

GroupDocs.Parser を使って、PDF、Word、Excel、およびその他のファイルタイプから読みやすく構造化されたテキストを迅速に抽出します。.NET ソリューション内での利用が可能です。

NuGetのダウンロード

無料トライアルを開始する

C# で Pdf からテキストを抽出する手順

GroupDocs.Parser を使用して .NET アプリ内の PDF ドキュメントからクリーンで構造化されたテキストを抽出するための手順は次のとおりです:

Parser インスタンスを使用して PDF ドキュメントを開きます。
ファイルコンテンツからテキストを抽出します。
結果を確認してテキスト抽出が成功したことを確認します。
抽出されたテキストをビジネスロジック、インデクシング、またはデータパイプラインで利用します。

コピー

// Parser にドキュメントを読み込む
using (Parser parser = new Parser("input.pdf")) {

    // ファイルからすべてのテキストコンテンツを抽出する
    using (TextReader reader = parser.GetText()) 
    {
        // テキストが取得できない場合、結果は null になります
        // 抽出されたテキストをアプリケーションで使用する
        Console.WriteLine(reader == null ? 
            "この形式ではテキスト抽出はサポートされていません" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

クリックしてコピー

コピーしました

さらなる例ドキュメンテーション

包括的なコンテンツ抽出機能

プレーンテキストに加えて、GroupDocs.Parser は、内容分析、変換、自動化をサポートするために、画像、構造化要素、およびメタデータを抽出することができます。

さまざまなファイルタイプからのテキスト抽出

PDF、DOCX、XLSX、PPTX、HTML などの形式からプレーンまたは構造化テキストを取得できます。

ドキュメントとビジュアルからのテキスト処理

スキャンした画像、プレゼンテーション、スプレッドシート、デジタルドキュメントからテキストを抽出し、構造を保持します。

高度なテキスト抽出設定

テキストの検出方法をカスタマイズします—ページ範囲、レイアウト領域を定義し、最大精度に向けて出力を調整します。

PPTX ファイルからテキストエリアを抽出する方法

このコードサンプルでは、GroupDocs.Parser を使用して PowerPoint ファイルからテキストコンテンツとエリア座標を取得する方法を示します。

C#

//  Parser で PowerPoint プレゼンテーションを読み込みます。
using (Parser parser = new Parser("input.pptx"))
{
    // ドキュメントからすべてのテキストエリアの矩形を抽出します。
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // テキストエリア抽出ができない場合は終了します。
    if (areas == null)
    {
        return;
    }

    // 各ページのテキストエリアをループ処理します。
    foreach (PageTextArea a in areas)
    {
        // ページインデックス、エリア矩形、およびテキスト値にアクセスします。
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}