GroupDocs.Parser for .NET

แยกวิเคราะห์เอกสาร TXT โดยใช้ C#

ดึงข้อมูล ข้อมูลเมตา ตาราง และรูปภาพจากไฟล์ PDF Word Excel และไฟล์รูปภาพอย่างมีประสิทธิภาพโดยใช้ GroupDocs.Parser ในโปรเจกต์ .NET ของคุณ.

ดาวน์โหลด NuGet

เริ่มทดลองใช้ฟรี

ขั้นตอนในการดึงข้อมูลจาก Txt ใน C#

ปฏิบัติตามขั้นตอนเหล่านี้เพื่อแยกเนื้อหาจากเอกสาร TXT ในแอป .NET ของคุณโดยใช้ GroupDocs.Parser:

โหลดเอกสาร TXT โดยใช้อินสแตนซ์ของ Parser.
ดึงเนื้อหาที่ต้องการเช่น ข้อความ ตาราง หรือข้อมูลเมตา.
ตรวจสอบว่าข้อมูลที่ดึงมาใช้ได้.
ใช้ผลลัพธ์ที่แยกวิเคราะห์ในกระบวนการต่อไป ระบบอัตโนมัติ หรือระบบธุรกิจของคุณ.

คัดลอก

// โหลดเอกสารของคุณเข้าสู่ Parser
using (Parser parser = new Parser("input.txt")) {

    // ดึงข้อมูลข้อความทั้งหมดจากไฟล์
    using (TextReader reader = parser.GetText()) 
    {
        // หากข้อความไม่สามารถดึงได้ ผลลัพธ์จะเป็น null
        // ใช้ข้อความที่ดึงได้ในแอปของคุณ
        Console.WriteLine(reader == null ? 
            "การดึงข้อมูลข้อความไม่รองรับสำหรับรูปแบบนี้" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

คลิกเพื่อคัดลอก

คัดลอกแล้ว

ตัวอย่างเพิ่มเติม เอกสารประกอบ

ความสามารถในการแยกวิเคราะห์เอกสารที่ครอบคลุม

GroupDocs.Parser รองรับมากกว่าเพียงการอ่านข้อความ — ยังสนับสนุนการดึงข้อมูลบาร์โค้ด การแยกรูปภาพ การเข้าถึงข้อมูลเมตา และการประมวลผลข้อมูลแบบมีโครงสร้างเพื่อการทำงานอัตโนมัติและการวิเคราะห์ข้อมูลที่ทันสมัย.

ความสามารถในการดึงข้อมูลและการแยกวิเคราะห์เอกสาร

รองรับประเภทเนื้อหาของไฟล์ที่หลากหลาย

ดึงข้อมูลรวมถึงข้อความ รูปภาพ ตาราง และฟิลด์จากรูปแบบเอกสารเช่น PDF Word Excel HTML และอื่น ๆ.

ทำงานกับไฟล์สแกนและดิจิทัล

แยกข้อมูลจากเอกสารที่ถูกสแกนและไฟล์ที่สร้างขึ้นโดยดิจิทัล มีการสนับสนุน OCR และการแยกข้อมูลที่รู้จักรูปแบบ.

พารามิเตอร์การแยกวิเคราะห์ที่ปรับแต่งได้

ปรับตรรกะการแยกวิเคราะห์ด้วยตัวเลือกที่ยืดหยุ่นเช่น การเลือกช่วงหน้า การกำหนดเป้าหมายพื้นที่ และแม่แบบการตรวจจับฟิลด์.

วิธีการแยกวิเคราะห์ PDF โดยใช้แม่แบบ

ตัวอย่างนี้แสดงวิธีการดึงข้อมูลที่มีโครงสร้างจาก PDF โดยใช้แม่แบบการแยกวิเคราะห์ที่กำหนดไว้ล่วงหน้าด้วย GroupDocs.Parser.

C#

//  โหลดไฟล์ PDF ด้วยคลาส Parser
using (Parser parser = new Parser("input.pdf"))
{
    // แยกวิเคราะห์เอกสารตามแม่แบบ
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // ตรวจสอบว่าการดึงข้อมูลฟอร์มได้รับการสนับสนุนหรือไม่
    if (data == null)
    {
        return;
    }

    // ประมวลผลฟิลด์ที่ได้รับ
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // สร้างพารามิเตอร์ตรวจจับสำหรับตาราง 'รายละเอียด'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

เกี่ยวกับ API GroupDocs.Parser for .NET

GroupDocs.Parser เป็น API การแยกวิเคราะห์เอกสารที่มีฟีเจอร์ครบครันที่ออกแบบมาสำหรับนักพัฒนา .NET สามารถดึงข้อมูลข้อความแบบธรรมดาและมีโครงสร้าง ข้อมูลเมตา รูปภาพ ตาราง และบาร์โค้ดจากรูปแบบที่นิยม เช่น PDF, DOCX, XLSX, PPTX และอื่น ๆ — ทั้งหมดนี้โดยไม่ต้องพึ่งพาซอฟต์แวร์เพิ่มเติม.

เรียนรู้เพิ่มเติม