Category Information Retrieval

Information retrieval, CP444, SWU

Artefact vs. Artifact

พอดีได้อ่านบทความนึงที่เกี่ยวกับ Software Engineering เจอคำศัพท์ที่น่าสนใจครับ “Artefact” คำนี้ไม่คุ้นเลยย ตอนที่ใช้ Hudson กับ Jenkins เจอแค่คำนี้ “Artifact” แล้ว 2 คำนี้มันแตกต่างกันอย่างไรหละ ในแง่ของภาษาเขียนกันก่อน Artefact – เป็น British Spelling Artifact – เป็น American Spelling ในแง่ของความหมายหละ เหมือนกันครับ an object shaped by human workmanship, especially one of historical or archaeological interest …

[IR] สรุปจาก Quiz ที่1

ข้อที่หนึ่ง ข้อใดต่อไปนี้ไม่จัดเป็นระบบ IR A: ค้นหาคำว่า “computer” จาก E-mail B: ค้นหาคำว่า “computer” จาก Google C: ค้นหาคำว่า “computer” จาก windows explorer ตอบ ข้อ C เพราะงานในด้าน IR นั้นจะยุ่งกับข้อมูลในส่วนของ unstructure data(ข้อมูลทีไม่ได้จัดเก็บเป็นระบบ เช่น ไฟล์ word, e-mail) เอามาทำเป็น index และทำส่วนรองรับการค้นหาจากผู้ใช้ แต่ในกรณีของข้อ C: ค้นหาคำว่า “computer” จาก windows…

[IR] คำถามเกียวกับการทำ Cluster Pruning

คำถาม: การทำ Cluster Pruning ใน Lecture 6 หน้า 33-37 โดยการกำหนดค่า b1 และ b2 นั้น เมื่อ b1 และ b2 มากขึ้นจะทำให้เกิดอะไรขึ้นต่อการคำนวณ คำตอบ: มาดูคำแต่ละคำกันก่อนว่า คือ อะไร Cluster คือ การแบ่งกลุ่ม โดยที่เรายังไม่รู้ว่าจะได้กี่กลุ่ม Pruning คือ การจัดทอน ลดจำนวน (ลดโดยการจัดเป็นกลุ่ม ทอนข้อมูลจำนวนมหาศาล ให้ลดลง) Cluster Pruning คือ การเตรียมข้อมูล ซึ่งก็คือ document…

[IR] ข้อสงสัยของ Frequency แบบต่างๆ

จากที่เรียนมาจะมี 3 คำ ได้แก่ term frequency คือ จำนวนเทอมนั้นๆ ในเอกสาร document frequency คือ จำนวนเอกสารที่มี term ที่สนใจปรากฏอยู่ (ไม่ว่าในเอกสารนั้นจะมีคำจำนวนมากมาย ก็จะนับเป็นหนึ่งเท่านั้น) collection frequency คือ จำนวนครั้งที่ term นั้นปรากฏทั้งหมดรวมในทุกๆเอกสาร หรือในระบบ(Collection) ตัวอย่าง สมมุติมี document แค่ 2 อันในระบบ(collection) doc1: I like a dog doc2: You like a cat…