GroupDocs.Parser 개요

.NET 애플리케이션에서 문서 파싱을 수행하기 위한 API

Illustration parser

문서에서 데이터 추출

GroupDocs.Parser for .NET API는 Office 문서, 이메일, 첨부 파일 및 아카이브와 같은 다양한 파일 형식에서 텍스트, 메타데이터 및 이미지를 검색할 수 있게 해줍니다. 이 강력한 도구는 데이터 분석, 검색 엔진 인덱싱 또는 콘텐츠 관리 시스템과 같은 다양한 애플리케이션에서 파일에 포함된 소중한 정보에 효율적으로 접근하고 처리하는 데 도움을 줍니다.

문서 파싱

하이퍼링크, 테이블, QR 코드, 바코드 및 PDF 양식에서 데이터를 추출합니다. 또한 사용자 정의 템플릿을 사용하여 문서에서 원하는 정보를 파싱합니다.

결과 사용자 정의

.NET API는 원시, 구조화된, HTML 또는 Markdown과 같은 다양한 형식으로 데이터를 검색할 수 있게 해줍니다. 추가로, API는 문서 텍스트 내에서 특정 단어 또는 구문을 찾기 위한 검색 기능을 제공합니다.

플랫폼 독립성

GroupDocs.Parser for .NET는 다음 운영 체제, 프레임워크 및 패키지 관리자를 지원합니다.

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

지원되는 파일 형식

GroupDocs.Parser for .NET는 다음 파일 형식으로 작업을 지원합니다.

Microsoft Office 형식

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

이미지 및 기타 형식

  • 휴대용: PDF
  • 이미지: JPG, BMP, PNG, TIFF, GIF
  • 기타 오피스 형식: ODT, OTT, OTS, ODS, ODP, OTP, ODG

기타 형식

  • 웹: HTML, MHTML
  • 아카이브: ZIP, TAR, 7Z
  • e-북: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for .NET 기능

PDF, Office 문서 및 이미지를 신속하고 정확하게 데이터 추출

Feature icon

텍스트 추출

Office 문서, PDF 파일 및 이미지와 같은 다양한 파일 형식에서 텍스트 정보를 추출하여 가독성과 분석을 용이하게 합니다.

Feature icon

이미지 추출

Office 문서, PDF 파일 등 다양한 출처에서 비주얼 콘텐츠를 리트리브하여 편리하게 사용할 수 있게 합니다.

Feature icon

QR 코드 스캔

Office 문서, PDF 파일 또는 비주얼 콘텐츠에 존재하는 QR 코드를 감지하고 해독하여 정보를 효율적으로 리트리브합니다.

Feature icon

이메일 첨부文件 및 압축 파일에서 데이터 추출

이메일 메시지, 파일 첨부 파일 및 압축 데이터 소스에서 귀중한 정보를 수집하여 효과적으로 분석하고 활용합니다.

Feature icon

테이블 추출

PDF 문서에서 테이블 데이터를 확인하고 추출하여 체계적인 분석 및 사용을 지원합니다.

Feature icon

하이퍼링크 추출

Office 문서 또는 PDF 파일 내에 있는 하이퍼링크 및 이메일 주소를 찾아서 효율적으로 접근합니다.

Feature icon

PDF 양식 파싱

PDF 양식은 사용자 상호작용을 위한 작성 가능한 필드가 포함된 디지털 문서입니다. .NET API를 사용하여 이러한 양식에서 데이터를 효율적으로 추출할 수 있습니다.

Feature icon

템플릿으로 데이터 파싱

.NET API와 함께 사용할 사용자 정의 템플릿을 생성하고 PDF 파일에서 특정 정보를 파싱하여 데이터 추출 프로세스를 간소화합니다.

Feature icon

문서에서 텍스트 검색

문서 내에서 특정 단어 또는 패턴을 신속하게 찾습니다.

코드 샘플

전형적인 GroupDocs.Parser for .NET 작업 사례 몇 가지

PDF 문서에서 이미지 추출

GroupDocs.Parser for .NET은 C# 개발자가 문서에서 이미지를 추출할 수 있도록 쉽게 만들어줍니다:

C#에서 PDF 문서의 이미지 추출

// Parser 클래스의 인스턴스를 생성하세요.
using (var parser = new Parser("source.pptx"))
{
    // 이미지를 추출하세요.
    var images = parser.GetImages();

    // 추출된 여부 확인하기
    if (images == null)
    {
        return;
    }
    // 이미지를 순회하기
    foreach (PageImageArea image in images)
    {
        // 페이지 인덱스, 사각형 및 이미지 유형을 출력하기
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", 
            image.Page.Index, image.Rectangle, image.FileType));
    }
}

이미지에서 바코드 추출

우리의 .NET API를 사용하여 이미지에서 바코드를 추출하세요:

C#에서 이미지의 바코드 추출

// Parser에 소스 이미지를 로드하세요.
using (var parser = new Parser("source.jpg"))
{
    // 파일이 바코드 추출을 지원하는지 확인하세요.
    if (parser.Features.Barcodes)
    {
        // 파일에서 바코드를 추출하세요.
        var barcodes = parser.GetBarcodes();

        // 바코드를 순회하기
        foreach (var barcode in barcodes)
        {
            // 페이지 인덱스를 출력하기
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // 바코드 값을 출력하기
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

시작할 준비가 되셨나요?

GroupDocs.Parser를 무료로 다운로드하거나 전체 액세스를 위한 평가판 라이센스를 받으세요!

유용한 리소스

경험을 향상시키기 위해 문서, 코드 샘플 및 커뮤니티 지원을 탐색하십시오.

임시 라이센스 팁

1
직장 이메일로 가입하세요. 무료 메일 서비스는 허용되지 않습니다.
2
두 번째 단계에서 임시 라이센스 받기 버튼을 사용하세요.
 한국인