Extraer texto de PDF en C#

Extraiga texto de PDF con unas pocas líneas de código .NET.


Descargue prueba gratis

¿Cómo extraer un texto de PDF archivos .NET API?

GroupDocs.Parser for .NET es una API de extracción de texto, metadatos e imágenes para aplicaciones comerciales desarrolladas con C#, ASP.NET y otras tecnologías .NET. Admite la extracción de texto sin procesar, formateado y estructurado, así como metadatos de los archivos de formatos admitidos. A través de GroupDocs.Parser for .NET, sus aplicaciones también pueden analizar documentos protegidos con contraseña para formatos populares, como Word documentos de procesamiento, Excel hojas de cálculo, PowerPoint presentaciones, OneNote, PDF archivos y ZIP archivos. .

GroupDocs.Parser La API es una opción adecuada para soluciones corporativas que necesitan la función de extracción de texto de archivos. Estas API son compatibles con todos los principales sistemas operativos y plataformas, incluido Frameworks: .NET Framework, .NET Standard, .NET Core, Mono.

Extraer texto de PDF en .NET

GroupDocs.Parser for .NET facilita a los desarrolladores de C# extraer un texto de un archivo PDF mediante la implementación de unos sencillos pasos.

  • Crear una instancia del objeto Parser para el documento inicial;
  • Llame al método GetText y obtenga TextReader objeto;
  • Compruebe si el lector no es null (la extracción de texto es compatible con el documento);
  • Leer un texto del lector.

Más información sobre la extracción de texto

Cómo extraer texto del archivo PDF usando el código de ejemplo C#

// Extrae texto del archivo PDF usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
using (Parser parser = new Parser(filePath)) {
    // Extraer un texto en el lector
    using (TextReader reader = parser.GetText()) {
        // Imprimir un texto del documento
        // Si no se admite la extracción de texto, un lector es nulo
        Console.WriteLine(reader == null ? "No se admite la extracción de texto." : reader.ReadToEnd());
    }
}

Requisitos del sistema

GroupDocs.Parser for .NET Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.

  • Sistemas operativos: Microsoft Windows, Linux, MacOS
  • Entornos de desarrollo: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Marcos
  • Descarga la última versión de GroupDocs.Parser for .NET desde Nuget

Por qué usar GroupDocs.Parser for .NET

  • Compatibilidad con la extracción de texto sin formato de cualquier documento compatible
  • Análisis de documentos a través de plantillas definidas por el usuario
  • Totalmente compatible con la extracción de texto estructurado
  • Búsqueda de texto por palabra clave y expresión regular
  • Extraiga texto formateado, metadatos, imágenes, contenedores y archivos adjuntos
  • Extraiga la tabla de contenido para algunos formatos de documentos compatibles
  • Analizar datos de formulario de PDF documentos
  • Extraer hipervínculos del documento

Demostraciones en vivo: extraiga texto de PDF en línea

Extraiga el texto del archivo PDF ahora mismo visitando el sitio web GroupDocs.Parser Live Demos. La demostración en vivo tiene los siguientes beneficios.

No es necesario descargar la API

No es necesario escribir ningún código

Simplemente cargue el archivo fuente

Obtener enlace de descarga para guardar el archivo

Extraer texto de otros formatos de documentos

.NET API de análisis y extracción de texto de documentos para formatos de archivo e imágenes. Extraiga datos para algunos de los formatos de archivo populares como se indica a continuación.

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

XLAM

(Excel Macro-Enabled Add-In)

XLS

(Microsoft Excel Spreadsheet (Legacy))

Back to top
 Español