GroupDocs.Parser를 사용하여 .NET 앱에서 RTF 문서에서 깨끗하고 구조화된 텍스트를 추출하려면 다음 단계를 따르세요:
- Parser 인스턴스를 사용하여 RTF 문서를 엽니다.
- 파일 내용에서 텍스트를 추출합니다.
- 결과를 확인하여 텍스트 추출이 성공적으로 이루어졌는지 확인합니다.
- 비즈니스 로직, 색인 생성 또는 데이터 파이프라인에서 추출된 텍스트를 사용합니다.
GroupDocs.Parser를 사용하여 .NET 앱에서 RTF 문서에서 깨끗하고 구조화된 텍스트를 추출하려면 다음 단계를 따르세요:
// Parser 인스턴스를 사용하여 문서를 로드하십시오.
using (Parser parser = new Parser("input.rtf")) {
// 파일에서 모든 텍스트 내용을 추출하십시오.
using (TextReader reader = parser.GetText())
{
// 텍스트를 찾을 수 없는 경우 결과는 null이 됩니다.
// 추출된 텍스트를 애플리케이션에서 사용하십시오.
Console.WriteLine(reader == null ?
"이 형식은 텍스트 추출을 지원하지 않습니다." : reader.ReadToEnd());
}
}
일반 텍스트 외에도 GroupDocs.Parser는 이미지, 구조화된 요소 및 메타데이터를 추출하여 콘텐츠 분석, 변환 및 자동화를 지원합니다.
PDF, DOCX, XLSX, PPTX, HTML 등 다양한 형식에서 일반 텍스트 또는 구조화된 텍스트를 가져올 수 있습니다.
구조를 유지하면서 스캔한 이미지, 프레젠테이션, 스프레드시트 및 디지털 문서에서 텍스트를 추출할 수 있습니다.
텍스트 감지를 사용자 정의하십시오—페이지 범위, 레이아웃 영역을 정의하고 최대 정확성을 위해 출력을 조정합니다.
이 코드 샘플은 GroupDocs.Parser를 사용하여 PowerPoint 파일에서 텍스트 내용 및 영역 좌표를 가져오는 방법을 보여줍니다.
// Parser를 사용하여 PowerPoint 프레젠테이션을 로드합니다.
using (Parser parser = new Parser("input.pptx"))
{
// 문서에서 모든 텍스트 영역 사각형을 추출합니다.
IEnumerable<PageTextArea> areas = parser.GetTextAreas();
// 텍스트 영역 추출이 불가능한 경우 종료합니다.
if (areas == null)
{
return;
}
// 각 페이지의 텍스트 영역을 순회합니다.
foreach (PageTextArea a in areas)
{
// 페이지 인덱스, 영역 사각형 및 텍스트 값을 접근합니다.
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
}