GroupDocs.Parser Descripción general

API para realizar análisis de documentos en .NET aplicaciones

Illustration parser

Extraer datos de documentos

.NET La API le permite recuperar texto, metadatos e imágenes de una amplia gama de formatos de archivo, como documentos de Office, correos electrónicos, archivos adjuntos y archivos. Esta poderosa herramienta lo ayuda a acceder y procesar de manera eficiente información valiosa contenida en estos archivos para diversas aplicaciones como análisis de datos, indexación de motores de búsqueda o sistemas de administración de contenido.

Analizar documentos

Extraiga varios elementos como hipervínculos, tablas, códigos QR, códigos de barras y datos de PDF formularios. Analice también cualquier información deseada de los documentos utilizando plantillas personalizadas.

Personalización de resultados

.NET API le permite recuperar datos en varios formatos, como sin formato, estructurado, HTML o Markdown. Además, API ofrece una función de búsqueda para localizar palabras o frases específicas dentro del texto de los documentos.

Independencia de plataforma

GroupDocs.Parser for .NET es compatible con los siguientes sistemas operativos, marcos y administradores de paquetes

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Formatos de archivo admitidos

GroupDocs.Parser for .NET admite operaciones con los siguientes formatos de archivo.

Microsoft Office formatos

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imágenes y otros formatos

  • Portable: PDF
  • Imágenes: JPG, BMP, PNG, TIFF, GIF
  • Otros formatos de oficina: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Otros formatos

  • Web: HTML, MHTML
  • Archivo: ZIP, TAR, 7Z
  • Libros electrónicos: CHM, EPUB, FB2, MOBI

GroupDocs.Parser características

Extraiga datos de PDFs, documentos de Office e imágenes de forma rápida y precisa.

Feature icon

Extraer texto

Extraiga información textual de varios formatos de archivo, como documentos de Office, PDF archivos e imágenes para facilitar la lectura y el análisis.

Feature icon

Extraer imágenes

Recupere contenido visual de diversas fuentes, como documentos de Office y archivos PDF para acceder y utilizar cómodamente.

Feature icon

Escanear códigos QR

Detecte y decodifique códigos QR presentes en documentos de Office, PDF archivos o contenido visual para una recuperación eficiente de la información.

Feature icon

Extraiga datos de archivos adjuntos y archivos de correo electrónico

Recopile información valiosa de mensajes de correo electrónico, archivos adjuntos y fuentes de datos comprimidos para un análisis y utilización eficaces.

Feature icon

Extraer tablas

Identifique y extraiga datos tabulares de PDF documentos para su análisis y uso organizados.

Feature icon

Extraer hipervínculos

Localice y extraiga hipervínculos y direcciones de correo electrónico dentro de documentos de Office o archivos PDF para un acceso eficiente.

Feature icon

Analizar PDF formularios

PDF Los formularios son documentos digitales que presentan campos que se pueden completar para la interacción del usuario, lo que les permite ingresar información electrónicamente. .NET Se puede utilizar API para extraer datos de estos formularios para un procesamiento eficiente.

Feature icon

Analizar datos por plantillas

Cree plantillas personalizadas y utilícelas con .NET API para analizar información específica de PDF archivos, simplificando los procesos de extracción de datos.

Feature icon

Buscar un texto en documentos

Localice rápidamente palabras o patrones específicos dentro de los documentos.

Ejemplo de código

Algunos casos prácticos de operaciones GroupDocs.Parser for .NET típicas

Extraer imágenes de PDF documentos

.NET La API facilita a los desarrolladores de C# la extracción de imágenes de documentos mediante la implementación de unos sencillos pasos.

Extraiga imágenes de PDF documentos en C#

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Extract images
    var images = parser.GetImages();

    // Check if images extraction is supported
    if (images != null)
    {
        var imageIndex = 0;

        // Iterate over images
        foreach (var image in images)
        {
            // Save the image to the file
            image.Save($"{++imageIndex}{image.FileType.Extension}");
        }
    }
}

Extraer códigos de barras de imágenes

.NET La API facilita a los desarrolladores de C# la extracción de códigos de barras de documentos mediante la implementación de unos sencillos pasos.

Extraer códigos de barras de imágenes

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Check if the file supports barcode extracting
    if (parser.Features.Barcodes)
    {
        // Extract barcodes from the file.
        var barcodes = parser.GetBarcodes();

        // Iterate over barcodes
        foreach (var barcode in barcodes)
        {
            // Print the page index
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Print the barcode value
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}
 Español