製品
/ GroupDocs.Parser
/ .NET
/ .NET の PDF からテキストを抽出します

C# の PDF からテキストを抽出します

数行の .NET コードを使用して、PDF からテキストを抽出します。

無料トライアルをダウンロード

GroupDocs.Parser
for .NET

ダウンロード学び買う

PDF ファイル .NET API からテキストを抽出するにはどうすればよいですか?

GroupDocs.Parser for .NET は、C#、ASP.NET、その他の .NET テクノロジーを使用して開発されたビジネスアプリケーション用のテキスト、メタデータ、画像抽出 API です。サポートされている形式のファイルからの生の、書式設定および構造化されたテキストとメタデータの抽出をサポートします。 GroupDocs.Parser for .NET を通じて、アプリケーションは、Word 処理ドキュメント、Excel スプレッドシート、PowerPoint プレゼンテーション、OneNote、PDF ファイル、ZIP アーカイブなどの一般的な形式のパスワードで保護されたドキュメントの解析を実行することもできます。。

GroupDocs.Parser API は、ファイルテキスト抽出機能を必要とする企業ソリューションに最適です。これらの API は、Frameworks: .NET Framework, .NET Standard, .NET Core, Mono を含むすべての主要なオペレーティングシステムおよびプラットフォームで十分にサポートされています。

.NET の PDF からテキストを抽出します

GroupDocs.Parser for .NET を使用すると、C# 開発者は、いくつかの簡単な手順を実装することで、PDF ファイルからテキストを簡単に抽出できます。

最初のドキュメントの Parser オブジェクトをインスタンス化します。
GetTextメソッドを呼び出し、を取得します。TextReader オブジェクト。
リーダーが null ではないかどうかを確認します (ドキュメントのテキスト抽出がサポートされています)。
リーダーからのテキストを読みます。

テキスト抽出の詳細については、こちらをご覧ください。

C# サンプルコードを使用して PDF ファイルからテキストを抽出する方法

// GroupDocs.Parser API を使用して PDF ファイルからテキストを抽出します
// Parserクラスのインスタンスを作成する
using (Parser parser = new Parser(filePath)) {
    // テキストをリーダーに抽出する
    using (TextReader reader = parser.GetText()) {
        // ドキュメントからテキストを印刷する
        // テキスト抽出がサポートされていない場合、リーダーは null になります
        Console.WriteLine(reader == null ? "テキスト抽出はサポートされていません" : reader.ReadToEnd());
    }
}

システム要求

GroupDocs.Parser for .NET API は、すべての主要なプラットフォームとオペレーティングシステムでサポートされています。以下のコードを実行する前に、次の前提条件がシステムにインストールされていることを確認してください。

オペレーティングシステム: Microsoft Windows、Linux、MacOS
開発環境: Microsoft Visual Studio, Xamarin, MonoDevelop
フレームワーク
GroupDocs.Parser for .NET の最新バージョンを Nuget からダウンロードします

GroupDocs.Parser for .NET を使用する理由

サポートされているドキュメントからのプレーンテキスト抽出のサポート
ユーザー定義のテンプレートを使用したドキュメントの解析
構造化テキスト抽出を完全にサポート
キーワードおよび正規表現によるテキスト検索
書式設定されたテキスト、メタデータ、画像、コンテナ、添付ファイルを抽出します
サポートされている一部のドキュメント形式の目次を抽出します
PDF ドキュメントからのフォームデータを解析する
ドキュメントからハイパーリンクを抽出する

ライブデモ - PDF オンラインからテキストを抽出

GroupDocs.Parser ライブデモ Web サイトにアクセスして、今すぐ PDF ファイルからテキストを抽出します。ライブデモには次のようなメリットがあります。

APIをダウンロードする必要はありません

コードを書く必要はありません

ソースファイルをアップロードするだけです

ファイルを保存するためのダウンロードリンクを取得する

他のドキュメント形式からテキストを抽出する

.NET ファイル形式と画像のドキュメント解析とテキスト抽出 API。以下に示すように、いくつかの一般的なファイル形式のデータを抽出します。

(PowerPoint Slide Show)

(Microsoft PowerPoint 97-2003)

(Open XML presentation Format)

(Rich Text Format)

(LaTeX Source Document)

(The 7th Guest Video File)

(Visio Macro-Enabled Drawing)

(Visio Drawing)

(Visio Macro-Enabled Stencil File)

(Visio Stencil File)

(Visio Macro-Enabled Drawing Template)

(Visio Drawing Template)

(Visio Stencil XML File)

(Anim8or 3D Model)

(Excel Macro-Enabled Add-In)

(Microsoft Excel Spreadsheet (Legacy))