Tag Information Retrieval

Artefact vs. Artifact

พอดีได้อ่านบทความนึงที่เกี่ยวกับ Software Engineering เจอคำศัพท์ที่น่าสนใจครับ “Artefact” คำนี้ไม่คุ้นเลยย ตอนที่ใช้ Hudson กับ Jenkins เจอแค่คำนี้ “Artifact” แล้ว 2 คำนี้มันแตกต่างกันอย่างไรหละ ในแง่ของภาษาเขียนกันก่อน ในแง่ของความหมายหละ ในแง่ของความนิยม ในแง่ของ Software หลังจากที่รู้แล้วว่า มันเป็นการเขียนคำคนละแบบสไตล์ British กับ American ลองมาดูในแง่ของ Software บ้าง – ผมเจอการนิยามที่น่าสนใจ ดังนี้ Artifact และ Software Artifact (ผมขอใช้ Artifact นะ แต่สำหรับคำที่ผมตัดมาจากต้นฉบับของไม่แก้ไขนะครับ) จบสักทีกับการลองนั่ง research เล่นๆครับ

[IR] สรุปจาก Quiz ที่1

ข้อที่หนึ่ง ข้อใดต่อไปนี้ไม่จัดเป็นระบบ IR A: ค้นหาคำว่า “computer” จาก E-mailB: ค้นหาคำว่า “computer” จาก GoogleC: ค้นหาคำว่า “computer” จาก windows explorer ตอบ ข้อ C เพราะงานในด้าน IR นั้นจะยุ่งกับข้อมูลในส่วนของ unstructure data(ข้อมูลทีไม่ได้จัดเก็บเป็นระบบ เช่น ไฟล์ word, e-mail) เอามาทำเป็น index และทำส่วนรองรับการค้นหาจากผู้ใช้ แต่ในกรณีของข้อ C: ค้นหาคำว่า “computer” จาก windows explorer ไม่นับว่าเป็นระบบ…

[IR] คำถามเกียวกับการทำ Cluster Pruning

คำถาม: การทำ Cluster Pruning ใน Lecture 6 หน้า 33-37 โดยการกำหนดค่า b1 และ b2 นั้น เมื่อ b1 และ b2 มากขึ้นจะทำให้เกิดอะไรขึ้นต่อการคำนวณคำตอบ: มาดูคำแต่ละคำกันก่อนว่า คือ อะไร ? Cluster Pruning คือ อะไร ? Cluster Pruning คือ การเตรียมข้อมูล ซึ่งก็คือ document ต่างๆ ในระบบ(ทำตั้งแต่ช่วงสร้าง Dictionary เลย) เพื่อที่จะแบ่งกลุ่ม document…

[IR] ข้อสงสัยของ Frequency แบบต่างๆ

จากที่เรียนมาจะมี 3 คำ ได้แก่ ตัวอย่าง สมมุติมี document แค่ 2 อันในระบบ (collection) doc1: I like a dog doc2: You like a cat and a bird หมายเหตุ ค่า Frequency จะนับทุกเทอม โดยจะไม่ได้ทำ Stem (ลดรูป) และตัด Stopword ออกไป