[IR] คำถามเกียวกับการทำ Cluster Pruning

คำถาม: การทำ Cluster Pruning ใน Lecture 6 หน้า 33-37 โดยการกำหนดค่า b1 และ b2 นั้น เมื่อ b1 และ b2 มากขึ้นจะทำให้เกิดอะไรขึ้นต่อการคำนวณคำตอบ: มาดูคำแต่ละคำกันก่อนว่า คือ อะไร ? Cluster Pruning คือ อะไร ? Cluster Pruning คือ การเตรียมข้อมูล ซึ่งก็คือ document ต่างๆ ในระบบ(ทำตั้งแต่ช่วงสร้าง Dictionary เลย) เพื่อที่จะแบ่งกลุ่ม document ที่คล้ายๆกัน ให้อยู่กลุ่มเดียวกัน เพื่ิอที่จะช่วงลดเวลา ในการค้นหา โดยจะกำหนดให้มี หมายเหตุ ความสัมพันธ์ของ Leader กับ Follower จะมีความสัมพันธ์แบบ 1 ต่อ 1 (b1=1) การทำงาน เมื่อมี Query ? ค่า b1 และ b2 คือ อะไร ? ค่า b1 และ b2 คือ อะไร ปัญหาของการกำหนดค่า b1 และ b2 Document แต่ละอันมันเหมือนกันขนาดไหน ? เราจะรู้ได้อย่างไรว่า document แต่ละอันมันเหมือนกันขนาดไหน ที่จะเอามาแบ่งกลุ่ม สามารถหาได้ โดยการคำนวณ หาค่า cosine คำตอบของเรากรณีที่ b1 และ b2 มากขึ้น