GroupDocs.Parser para .NET es una API de extracción de texto, metadatos e imágenes para aplicaciones comerciales desarrolladas con C#, ASP.NET y otras tecnologías .NET. Admite la extracción de texto sin procesar, formateado y estructurado, así como metadatos de los archivos de formatos admitidos. A través de GroupDocs.Parser para .NET, sus aplicaciones también pueden analizar documentos protegidos con contraseña para formatos populares, como documentos de procesamiento de Word, hojas de cálculo de Excel, presentaciones de PowerPoint, OneNote, archivos PDF y archivos ZIP.
Cuente estadísticamente la ocurrencia de palabras en archivos únicos o múltiples
Extraiga texto y metadatos de hojas de cálculo y plantillas de presentación de Excel
Extraiga contenido de texto de un archivo o secuencia sin instalar el lector de documentos
Obtenga texto formateado de un documento usando el modo de extracción de texto rápido o estándar
Detecte el tipo de medio de documentos XML protegidos con contraseña y extraiga texto de ellos
Obtenga texto formateado programáticamente desde correos electrónicos y archivos adjuntos
Sacar texto de una o varias páginas de un documento de OneNote
Extraiga datos de PDF, MS Word, Excel y documentos de presentación
Extraiga datos de los formularios PDF y extraiga texto de un archivo PDF simple o un documento de cartera PDF
Obtenga texto formateado de una presentación de PowerPoint o elimine el texto de una diapositiva específica
Reúna texto sin formato o con formato de celdas, filas y columnas de la hoja de cálculo de Excel
Extraiga texto sin procesar o con formato HTML de un documento de Word
El formateador HTML admite formato de párrafo, hipervínculo, fuente, encabezados, listas y tablas
Extraiga una sola oración o texto completo de archivos EPUB, CHM, Markdown y FB2
Extracto del índice de la base de datos, PDF, EPUB, CHM y documentos de procesamiento de textos
Saque el texto con su estructura de contenido intacta y extraiga el texto resaltado de los documentos
Obtenga el área de texto de los documentos para el análisis y extraiga los metadatos de los formatos de documentos admitidos
Obtenga todas las imágenes o las seleccionadas de los formatos admitidos y gire las imágenes extraídas
Extraiga texto de archivos dentro de archivos comprimidos y contenedores OST y detecte tipos de archivos de elementos de contenedores ZIP
Obtener datos del contenedor de correo electrónico (Exchange Web Server, POP3, IMAP)
Busque texto simple, palabra completa y expresión regular dentro de los documentos
Prepare la plantilla del documento, extraiga datos del documento y analice campos y tablas de datos
Buscar y extraer expresiones resaltadas en documentos
Obtener texto con el formateador de texto sin formato (simple y ASCII) o con el formateador Markdown
Markdown Formatter admite formato de fuente, hipervínculos, encabezados, listas y tablas
Aplicar formato personalizado con bordes, ángulos e intersecciones para dar formato a texto sin formato
Mueva el diseño de la tabla y detecte las tablas en un área rectangular por separadores de columnas
Extract Text from Shapes, WordArt Objects & Text Boxes within oficina de Microsoft File Formats
Extraer imágenes to Files – Save to JPG, PNG, GIF, BMP, PNG or WEBP Formats
Usar GroupDocs.Parser para .NET API para extraer texto de un documento es simple y se logra con solo unas pocas líneas de código:
using(Parser parser = new Parser("sample.docx"))
{
// Extraer texto en el lector
using(TextReader reader = parser.GetText())
{
// Imprimir texto del documento
// Si no se admite la extracción de texto, el lector es nulo
Console.WriteLine(reader == null ? "Text extraction isn't supported." : reader.ReadToEnd());
}
}