Tag document frequency

[IR] สรุปจาก Quiz ที่1

ข้อที่หนึ่ง ข้อใดต่อไปนี้ไม่จัดเป็นระบบ IR A: ค้นหาคำว่า “computer” จาก E-mail B: ค้นหาคำว่า “computer” จาก Google C: ค้นหาคำว่า “computer” จาก windows explorer ตอบ ข้อ C เพราะงานในด้าน IR นั้นจะยุ่งกับข้อมูลในส่วนของ unstructure data(ข้อมูลทีไม่ได้จัดเก็บเป็นระบบ เช่น ไฟล์ word, e-mail) เอามาทำเป็น index และทำส่วนรองรับการค้นหาจากผู้ใช้ แต่ในกรณีของข้อ C: ค้นหาคำว่า “computer” จาก windows…

[IR] ข้อสงสัยของ Frequency แบบต่างๆ

จากที่เรียนมาจะมี 3 คำ ได้แก่ term frequency คือ จำนวนเทอมนั้นๆ ในเอกสาร document frequency คือ จำนวนเอกสารที่มี term ที่สนใจปรากฏอยู่ (ไม่ว่าในเอกสารนั้นจะมีคำจำนวนมากมาย ก็จะนับเป็นหนึ่งเท่านั้น) collection frequency คือ จำนวนครั้งที่ term นั้นปรากฏทั้งหมดรวมในทุกๆเอกสาร หรือในระบบ(Collection) ตัวอย่าง สมมุติมี document แค่ 2 อันในระบบ(collection) doc1: I like a dog doc2: You like a cat…