Text aus PDF in C# extrahieren

Extrahieren Sie Text aus PDF mit ein paar Zeilen .NET-Code.


Download kostenlose Testversion

Wie extrahiere ich einen Text aus der PDF-API der Datei .NET?

GroupDocs.Parser for .NET ist eine Text-, Metadaten- und Bildextraktor-API für Geschäftsanwendungen, die mit C#, ASP.NET und anderen .NET Technologien entwickelt wurden. Es unterstützt die Extraktion von rohem, formatiertem und strukturiertem Text sowie Metadaten aus den Dateien unterstützter Formate. Bis GroupDocs.Parser for .NET können Ihre Anwendungen auch das Parsen passwortgeschützter Dokumente für gängige Formate wie Word Verarbeitungsdokumente, Excel Tabellenkalkulationen, PowerPoint Präsentationen, OneNote, PDF Dateien und ZIP Archive durchführen .

Die GroupDocs.Parser API ist die richtige Wahl für Unternehmenslösungen, die eine Funktion zum Extrahieren von Dateitext benötigen. Diese APIs werden auf allen wichtigen Betriebssystemen und Plattformen, einschließlich Frameworks: .NET Framework, .NET Standard, .NET Core, Mono, gut unterstützt.

Text aus PDF in .NET extrahieren

GroupDocs.Parser for .NET erleichtert C#-Entwicklern das Extrahieren eines Textes aus einer PDF-Datei durch die Implementierung einiger einfacher Schritte.

  • Instanziieren Sie das Parser-Objekt für das ursprüngliche Dokument.
  • Rufen Sie die Methode GetText auf und erhalten Sie TextReader Objekt;
  • Überprüfen Sie, ob der Reader nicht null ist (Textextraktion wird für das Dokument unterstützt);
  • Lesen Sie einen Text vom Leser.

So extrahieren Sie Text aus der Datei PDF mithilfe des Beispielcodes C#

// Extrahieren Sie Text aus der Datei PDF mit der API GroupDocs.Parser
// Erstellen Sie eine Instanz der Parser-Klasse
using (Parser parser = new Parser(filePath)) {
    // Extrahieren Sie einen Text in den Reader
    using (TextReader reader = parser.GetText()) {
        // Drucken Sie einen Text aus dem Dokument
        // Wenn die Textextraktion nicht unterstützt wird, ist ein Leser null
        Console.WriteLine(reader == null ? "Textextraktion wird nicht unterstützt" : reader.ReadToEnd());
    }
}

System Anforderungen

GroupDocs.Parser for .NET APIs werden auf allen wichtigen Plattformen und Betriebssystemen unterstützt. Bevor Sie den folgenden Code ausführen, stellen Sie bitte sicher, dass die folgenden Voraussetzungen auf Ihrem System installiert sind.

  • Betriebssysteme: Microsoft Windows, Linux, MacOS
  • Entwicklungsumgebungen: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Rahmenwerke
  • Laden Sie die neueste Version von GroupDocs.Parser for .NET von Nuget herunter.

Warum GroupDocs.Parser for .NET verwenden?

  • Unterstützung für die Extraktion von Klartext aus allen unterstützten Dokumenten
  • Parsen von Dokumenten über benutzerdefinierte Vorlagen
  • Vollständige Unterstützung der strukturierten Textextraktion
  • Textsuche über Schlüsselwörter sowie reguläre Ausdrücke
  • Extrahieren Sie formatierten Text, Metadaten, Bilder, Container und Anhänge
  • Extrahieren Sie das Inhaltsverzeichnis für einige unterstützte Dokumentformate
  • Analysieren Sie Formulardaten aus PDF-Dokumenten
  • Extrahieren Sie Hyperlinks aus dem Dokument

Live-Demos – Extrahieren Sie Text aus PDF Online

Extrahieren Sie jetzt Text aus der Datei PDF, indem Sie die Website GroupDocs.Parser Live Demos besuchen. Die Live-Demo bietet folgende Vorteile.

Sie müssen die GroupDocs-API nicht herunterladen

Es muss kein Code geschrieben werden

Laden Sie einfach die Quelldatei hoch, um eine sofortige Anzeige zu erhalten

Holen Sie sich den Download-Link, um die Datei auf Ihrem Computer zu speichern

Extrahieren Sie Text aus anderen Dokumentformaten

.NET API zum Parsen und Extrahieren von Dokumenten für Dateiformate und Bilder. Extrahieren Sie Daten für einige der gängigen Dateiformate, wie unten aufgeführt.

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

XLAM

(Excel Macro-Enabled Add-In)

XLS

(Microsoft Excel Spreadsheet (Legacy))

Back to top
 Deutsch