[IR] สรุปจาก Quiz ที่1

ข้อที่หนึ่ง ข้อใดต่อไปนี้ไม่จัดเป็นระบบ IR A: ค้นหาคำว่า “computer” จาก E-mailB: ค้นหาคำว่า “computer” จาก GoogleC: ค้นหาคำว่า “computer” จาก windows explorer ตอบ ข้อ C เพราะงานในด้าน IR นั้นจะยุ่งกับข้อมูลในส่วนของ unstructure data(ข้อมูลทีไม่ได้จัดเก็บเป็นระบบ เช่น ไฟล์ word, e-mail) เอามาทำเป็น index และทำส่วนรองรับการค้นหาจากผู้ใช้ แต่ในกรณีของข้อ C: ค้นหาคำว่า “computer” จาก windows explorer ไม่นับว่าเป็นระบบ IR เพราะใน windows explorer มีการจัดเก็บข้อมูลอย่างเป็นระบบ(Structure data)เป็น folder และ sub-folder เป็นต้น ข้อที่สอง การจัดเก็บ Term ลงในส่วนของ Inverted Index เรียกว่าอะไร A: postingB: dictionaryC: token ตอบ ข้อ B เพราะ dictionary เป็นที่จัดเก็บของ Term แต่ละแบบ โดยในแต่ละ Term จะที posting list ในการบ่งบอกว่า Term นี้ ค้นพบที่ document อะไร ข้อที่สาม การทำ Stem จะไม่ลดค่า precision จริง หรือไม่ ตอบ เท็จ เพราะคำที่ผ่านการ Stem จะถูกทำให้เป็นรากศัพท์ ซึ่งจะนำ Term หลายๆเทอมมารวมกันเก็บลงใน posting list เดียวกัน จึงส่งผลให้เมื่อมีการ retrieve…
