GroupDocs.Parser for .NET

C#를 사용하여 RTF에서 텍스트 추출

GroupDocs.Parser를 이용하여 PDF, Word, Excel 및 기타 파일 형식에서 읽기 가능하고 구조화된 텍스트를 신속하게 추출하십시오.

NuGet 다운로드

무료 평가판 시작

C#에서 Rtf의 텍스트 추출 단계

GroupDocs.Parser를 사용하여 .NET 앱에서 RTF 문서에서 깨끗하고 구조화된 텍스트를 추출하려면 다음 단계를 따르세요:

Parser 인스턴스를 사용하여 RTF 문서를 엽니다.
파일 내용에서 텍스트를 추출합니다.
결과를 확인하여 텍스트 추출이 성공적으로 이루어졌는지 확인합니다.
비즈니스 로직, 색인 생성 또는 데이터 파이프라인에서 추출된 텍스트를 사용합니다.

복사

// Parser 인스턴스를 사용하여 문서를 로드하십시오.
using (Parser parser = new Parser("input.rtf")) {

    // 파일에서 모든 텍스트 내용을 추출하십시오.
    using (TextReader reader = parser.GetText()) 
    {
        // 텍스트를 찾을 수 없는 경우 결과는 null이 됩니다.
        // 추출된 텍스트를 애플리케이션에서 사용하십시오.
        Console.WriteLine(reader == null ? 
            "이 형식은 텍스트 추출을 지원하지 않습니다." : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

클릭하여 복사

복사되었습니다

더 많은 예시 문서화

포괄적인 콘텐츠 추출 기능

일반 텍스트 외에도 GroupDocs.Parser는 이미지, 구조화된 요소 및 메타데이터를 추출하여 콘텐츠 분석, 변환 및 자동화를 지원합니다.

다양한 파일 형식에서의 텍스트 추출

PDF, DOCX, XLSX, PPTX, HTML 등 다양한 형식에서 일반 텍스트 또는 구조화된 텍스트를 가져올 수 있습니다.

문서와 비주얼의 텍스트 처리

구조를 유지하면서 스캔한 이미지, 프레젠테이션, 스프레드시트 및 디지털 문서에서 텍스트를 추출할 수 있습니다.

고급 텍스트 추출 구성

텍스트 감지를 사용자 정의하십시오—페이지 범위, 레이아웃 영역을 정의하고 최대 정확성을 위해 출력을 조정합니다.

PPTX 파일에서 텍스트 영역 추출 방법

이 코드 샘플은 GroupDocs.Parser를 사용하여 PowerPoint 파일에서 텍스트 내용 및 영역 좌표를 가져오는 방법을 보여줍니다.

C#

//  Parser를 사용하여 PowerPoint 프레젠테이션을 로드합니다.
using (Parser parser = new Parser("input.pptx"))
{
    // 문서에서 모든 텍스트 영역 사각형을 추출합니다.
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // 텍스트 영역 추출이 불가능한 경우 종료합니다.
    if (areas == null)
    {
        return;
    }

    // 각 페이지의 텍스트 영역을 순회합니다.
    foreach (PageTextArea a in areas)
    {
        // 페이지 인덱스, 영역 사각형 및 텍스트 값을 접근합니다.
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}