GroupDocs.Parser for .NET

Text aus PDF mit C# extrahieren

Extrahieren Sie schnell lesbaren und strukturierten Text aus PDFs, Word, Excel und anderen Dateitypen mit GroupDocs.Parser in Ihren .NET-Lösungen.

Schritte zur Textextraktion aus Pdf in C#

Sie können mit GroupDocs.Parser sauberen und strukturierten Text aus PDF-Dokumenten in .NET-Apps extrahieren, indem Sie die folgenden Schritte befolgen:

  1. Öffnen Sie das PDF-Dokument mit einer Parser-Instanz.
  2. Extrahieren Sie den Text aus dem Dateiinhalt.
  3. Überprüfen Sie das Ergebnis, um zu bestätigen, dass die Textextraktion erfolgreich war.
  4. Verwenden Sie den extrahierten Text in Ihrer Geschäftslogik, Indizierung oder Datenpipelines.
// Laden Sie Ihr Dokument in Parser
using (Parser parser = new Parser("input.pdf")) {

    // Extrahieren Sie den gesamten Textinhalt aus der Datei
    using (TextReader reader = parser.GetText()) 
    {
        // Wenn der Text nicht verfügbar ist, ist das Ergebnis null
        // Verwenden Sie den extrahierten Text in Ihrer Anwendung
        Console.WriteLine(reader == null ? 
            "Die Textextraktion wird für dieses Format nicht unterstützt" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
Klicken zum Kopieren
Kopiert
Weitere Beispiele Dokumentation

Umfangreiche Funktionen zur Inhaltsextraktion

Zusätzlich zu einfachem Text kann GroupDocs.Parser Bilder, strukturierte Elemente und Metadaten extrahieren, um die Inhaltsanalyse, -transformation und -automatisierung zu unterstützen.

Texterkennung und strukturiertes Dokumentenparsen

Textextraktion über verschiedene Dateitypen hinweg

Erhalten Sie einfachen oder strukturierten Text aus Formaten wie PDF, DOCX, XLSX, PPTX, HTML und anderen Formaten.

Text aus Dokumenten und visuellen Inhalten verarbeiten

Extrahieren Sie Text aus gescannten Bildern, Präsentationen, Tabellenkalkulationen und digitalen Dokumenten, während Sie die Struktur beibehalten.

Erweiterte Konfiguration der Textextraktion

Passen Sie an, wie Text erkannt wird – definieren Sie Seitenbereiche, Layoutregionen und optimieren Sie die Ausgabe für maximale Genauigkeit.

So extrahieren Sie Textbereiche aus einer PPTX-Datei

Dieses Codebeispiel zeigt, wie Sie Textinhalte zusammen mit Bereichskoordinaten aus einer PowerPoint-Datei mit GroupDocs.Parser abrufen.

C#

//  Laden Sie die PowerPoint-Präsentation mit Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Extrahieren Sie alle Textbereichsrechtecke aus dem Dokument
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Beenden Sie, wenn die Extraktion der Textbereiche nicht verfügbar ist
    if (areas == null)
    {
        return;
    }

    // Durchlaufen Sie die Textbereiche jeder Seite
    foreach (PageTextArea a in areas)
    {
        // Zugriff auf Seitenindex, Bereichsrechteck und Textwert
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

Über die GroupDocs.Parser for .NET API

GroupDocs.Parser ist eine leistungsstarke API zum Parsen von Dokumenten für Entwickler von .NET. Sie vereinfacht die Extraktion von Text, Bildern, Tabellen und strukturierten Inhalten aus mehreren Dateiformaten, darunter PDF, DOCX, XLSX, PPTX und mehr – ohne auf Drittanbieterbibliotheken angewiesen zu sein.
Mehr erfahren
About illustration

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Unterstützte Formate für die Textextraktion

GroupDocs.Parser ermöglicht die Textextraktion aus einer Vielzahl von Dokumenten und Bildtypen. Erkunden Sie die unten aufgeführten häufig unterstützten Formate.

Tipps zur temporären Lizenz

1
Melden Sie sich mit Ihrer geschäftlichen E-Mail-Adresse an. Kostenlose E-Mail-Dienste sind nicht zulässig.
2
Klicken Sie im zweiten Schritt auf die Schaltfläche Provisorische Lizenz anfordern.
 Deutsch