GroupDocs.Parser for .NET

C#를 사용한 PDF 문서 파싱

GroupDocs.Parser를 통해 PDF, Word, Excel 및 이미지 파일에서 효율적으로 텍스트, 메타데이터, 테이블 및 이미지를 추출하세요.

NuGet 다운로드

무료 평가판 시작

C#에서 Pdf 데이터를 추출하는 단계

GroupDocs.Parser를 사용하여 .NET 앱에서 PDF 문서의 내용을 파싱하려면 다음 단계를 따르세요:

Parser 인스턴스를 사용하여 PDF 문서를 로드합니다.
텍스트, 테이블 또는 메타데이터와 같은 원하는 내용을 추출합니다.
추출된 데이터가 유효한지 확인합니다.
파싱한 출력을 후속 처리, 자동화 또는 비즈니스 시스템에서 사용합니다.

복사

// Parser에 문서를 로드하세요.
using (Parser parser = new Parser("input.pdf")) {

    // 파일에서 모든 텍스트 콘텐츠를 추출하세요.
    using (TextReader reader = parser.GetText()) 
    {
        // 텍스트를 사용할 수 없는 경우 결과는 null입니다.
        // 추출된 텍스트를 애플리케이션에서 사용하세요.
        Console.WriteLine(reader == null ? 
            "이 형식에 대한 텍스트 추출은 지원되지 않습니다." : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

클릭하여 복사

복사되었습니다

더 많은 예시 문서화

종합적인 문서 파싱 기능

GroupDocs.Parser는 단순 텍스트 읽기를 넘어 바코드 추출, 이미지 파싱, 메타데이터 접근 및 구조화된 데이터 처리를 지원하여 고급 자동화 및 데이터 분석을 가능하게 합니다.

다양한 파일 콘텐츠 유형 지원

PDF, Word, Excel, HTML과 같은 문서 형식에서 텍스트, 이미지, 테이블 및 필드를 포함한 데이터를 추출합니다.

스캔된 파일과 디지털 파일 모두 작업 가능

스캔한 문서와 디지털 파일 모두에서 데이터를 파싱하며, OCR 및 레이아웃 인식 추출을 지원합니다.

구성 가능한 추출 매개변수

페이지 범위 선택, 영역 타겟팅 및 필드 감지 템플릿과 같은 유연한 옵션으로 파싱 로직을 조정합니다.

템플릿을 사용한 PDF 파싱 방법

이 예제에서는 GroupDocs.Parser을 사용하여 미리 정의된 파싱 템플릿으로 PDF에서 구조화된 데이터를 추출하는 방법을 보여줍니다.

C#

//  Parser 클래스로 PDF 파일을 로드하세요.
using (Parser parser = new Parser("input.pdf"))
{
    // 템플릿에 따라 문서를 파싱하세요.
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // 양식 추출 여부를 확인하세요.
    if (data == null)
    {
        return;
    }

    // 얻은 필드를 처리하세요.
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // 'Details' 테이블을 위한 탐지기 매개변수를 생성하세요.
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

GroupDocs.Parser for .NET API 소개

GroupDocs.Parser는 .NET 개발자를 위해 설계된 기능이 풍부한 문서 파싱 API입니다. PDF, DOCX, XLSX, PPTX와 같은 인기 있는 형식에서 평문 및 구조화된 텍스트, 메타데이터, 이미지, 테이블 및 바코드를 추출할 수 있으며, 추가 소프트웨어 의존성 없이 작동합니다.

더 알아보기