GroupDocs.Parser for .NET

C# を使用して PDF からテキストを抽出する

GroupDocs.Parser を使って、PDF、Word、Excel、およびその他のファイルタイプから読みやすく構造化されたテキストを迅速に抽出します。.NET ソリューション内での利用が可能です。

C# で Pdf からテキストを抽出する手順

GroupDocs.Parser を使用して .NET アプリ内の PDF ドキュメントからクリーンで構造化されたテキストを抽出するための手順は次のとおりです:

  1. Parser インスタンスを使用して PDF ドキュメントを開きます。
  2. ファイルコンテンツからテキストを抽出します。
  3. 結果を確認してテキスト抽出が成功したことを確認します。
  4. 抽出されたテキストをビジネスロジック、インデクシング、またはデータパイプラインで利用します。
// Parser にドキュメントを読み込む
using (Parser parser = new Parser("input.pdf")) {

    // ファイルからすべてのテキストコンテンツを抽出する
    using (TextReader reader = parser.GetText()) 
    {
        // テキストが取得できない場合、結果は null になります
        // 抽出されたテキストをアプリケーションで使用する
        Console.WriteLine(reader == null ? 
            "この形式ではテキスト抽出はサポートされていません" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
クリックしてコピー
コピーしました
さらなる例 ドキュメンテーション

包括的なコンテンツ抽出機能

プレーンテキストに加えて、GroupDocs.Parser は、内容分析、変換、自動化をサポートするために、画像、構造化要素、およびメタデータを抽出することができます。

テキスト認識と構造化ドキュメント解析

さまざまなファイルタイプからのテキスト抽出

PDF、DOCX、XLSX、PPTX、HTML などの形式からプレーンまたは構造化テキストを取得できます。

ドキュメントとビジュアルからのテキスト処理

スキャンした画像、プレゼンテーション、スプレッドシート、デジタルドキュメントからテキストを抽出し、構造を保持します。

高度なテキスト抽出設定

テキストの検出方法をカスタマイズします—ページ範囲、レイアウト領域を定義し、最大精度に向けて出力を調整します。

PPTX ファイルからテキストエリアを抽出する方法

このコードサンプルでは、GroupDocs.Parser を使用して PowerPoint ファイルからテキストコンテンツとエリア座標を取得する方法を示します。

C#

//  Parser で PowerPoint プレゼンテーションを読み込みます。
using (Parser parser = new Parser("input.pptx"))
{
    // ドキュメントからすべてのテキストエリアの矩形を抽出します。
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // テキストエリア抽出ができない場合は終了します。
    if (areas == null)
    {
        return;
    }

    // 各ページのテキストエリアをループ処理します。
    foreach (PageTextArea a in areas)
    {
        // ページインデックス、エリア矩形、およびテキスト値にアクセスします。
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

GroupDocs.Parser for .NET API について

GroupDocs.Parser は、.NET 開発者向けの高性能なドキュメント解析 API です。PDF、DOCX、XLSX、PPTX など、多数のファイル形式からテキスト、画像、テーブル、および構造化コンテンツを抽出することを容易にし、サードパーティライブラリに依存することなく利用できます。
詳細はこちら
About illustration

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

テキスト抽出に対応している形式

GroupDocs.Parser は幅広いドキュメントおよび画像タイプからのテキスト抽出を可能にします。以下に一般的にサポートされている形式を示します。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本