GroupDocs.Parser for .NET

ดึงข้อความจาก PDF โดยใช้ C#

ดึงข้อความที่อ่านได้และมีโครงสร้างจากไฟล์ PDF, Word, Excel และประเภทไฟล์อื่นๆ โดยใช้ GroupDocs.Parser ในโซลูชัน .NET ของคุณ.

ดาวน์โหลด NuGet

เริ่มทดลองใช้ฟรี

ขั้นตอนการดึงข้อความจาก Pdf ใน C#

คุณสามารถดึงข้อความที่สะอาดและมีโครงสร้างจากเอกสาร PDF ในแอพ .NET โดยใช้ GroupDocs.Parser ตามขั้นตอนเหล่านี้:

เปิดเอกสาร PDF โดยใช้ตัวอย่าง Parser.
ดึงข้อความจากเนื้อหาของไฟล์.
ตรวจสอบผลลัพธ์เพื่อยืนยันว่าการดึงข้อความสำเร็จ.
ใช้ข้อความที่ดึงออกมาในตรรกะธุรกิจ, การจัดทำดัชนี, หรือข้อมูลท่อ.

คัดลอก

// โหลดเอกสารของคุณเข้าสู่ Parser
using (Parser parser = new Parser("input.pdf")) {

    // ดึงเนื้อหาข้อความทั้งหมดจากไฟล์
    using (TextReader reader = parser.GetText()) 
    {
        // หากไม่พบข้อความ ผลลัพธ์จะเป็น null
        // ใช้ข้อความที่ดึงออกมาในแอปพลิเคชันของคุณ
        Console.WriteLine(reader == null ? 
            "การดึงข้อความไม่รองรับสำหรับรูปแบบนี้" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

คลิกเพื่อคัดลอก

คัดลอกแล้ว

ตัวอย่างเพิ่มเติม เอกสารประกอบ

คุณสมบัติการแยกเนื้อหาที่ครอบคลุม

นอกจากข้อความธรรมดาแล้ว GroupDocs.Parser ยังสามารถดึงภาพ, องค์ประกอบที่มีโครงสร้าง, และข้อมูลเมตาเพื่อสนับสนุนการวิเคราะห์เนื้อหา, การแปลง, และการทำงานอัตโนมัติ.

การรู้จำข้อความและการแยกเอกสารที่มีโครงสร้าง

การดึงข้อความจากไฟล์หลายประเภท

รับข้อความที่เป็นแบบธรรมดาหรือมีโครงสร้างจากรูปแบบต่างๆ เช่น PDF, DOCX, XLSX, PPTX, HTML และรูปแบบอื่นๆ.

ประมวลผลข้อความจากเอกสารและภาพ

ดึงข้อความจากภาพที่สแกน, ภาพนิ่ง, แผ่นงาน, และเอกสารดิจิทัล โดยยังคงรักษาโครงสร้าง.

การตั้งค่าการดึงข้อความขั้นสูง

ปรับแต่งวิธีการตรวจจับข้อความ—กำหนดช่วงหน้ากระดาษ, พื้นที่เลย์เอาต์, และปรับผลลัพธ์เพื่อความแม่นยำสูงสุด.

วิธีการดึงพื้นที่ข้อความจากไฟล์ PPTX

ตัวอย่างโค้ดนี้แสดงวิธีการเรียกคืนเนื้อหาข้อความพร้อมด้วยพิกัดพื้นที่จากไฟล์ PowerPoint โดยใช้ GroupDocs.Parser.

C#

//  โหลดการนำเสนอ PowerPoint ด้วย Parser
using (Parser parser = new Parser("input.pptx"))
{
    // ดึงสี่เหลี่ยมผืนผ้าของพื้นที่ข้อความทั้งหมดจากเอกสาร
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // ออกจากระบบหากการดึงพื้นที่ข้อความไม่สามารถใช้ได้
    if (areas == null)
    {
        return;
    }

    // วนรอบแต่ละพื้นที่ข้อความของแต่ละหน้า
    foreach (PageTextArea a in areas)
    {
        // เข้าถึงดัชนีหน้า, สี่เหลี่ยมผืนผ้าของพื้นที่, และค่าข้อความ
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

เกี่ยวกับ API GroupDocs.Parser for .NET

GroupDocs.Parser เป็น API การแยกเอกสารที่มีประสิทธิภาพสูงสำหรับนักพัฒนา .NET มันทำให้การดึงข้อความ, รูปภาพ, ตาราง, และเนื้อหาที่มีโครงสร้างจากหลายประเภทไฟล์รวมถึง PDF, DOCX, XLSX, PPTX และอื่นๆ เป็นเรื่องง่าย—โดยไม่ต้องพึ่งพาไลบรารีของบุคคลที่สาม.

เรียนรู้เพิ่มเติม