[IR] สรุปจาก Quiz ที่1

ข้อที่หนึ่ง ข้อใดต่อไปนี้ไม่จัดเป็นระบบ IR A: ค้นหาคำว่า “computer” จาก E-mailB: ค้นหาคำว่า “computer” จาก GoogleC: ค้นหาคำว่า “computer” จาก windows explorer ตอบ ข้อ C เพราะงานในด้าน IR นั้นจะยุ่งกับข้อมูลในส่วนของ unstructure data(ข้อมูลทีไม่ได้จัดเก็บเป็นระบบ เช่น ไฟล์ word, e-mail) เอามาทำเป็น index และทำส่วนรองรับการค้นหาจากผู้ใช้ แต่ในกรณีของข้อ C: ค้นหาคำว่า “computer” จาก windows explorer ไม่นับว่าเป็นระบบ IR เพราะใน windows explorer มีการจัดเก็บข้อมูลอย่างเป็นระบบ(Structure data)เป็น folder และ sub-folder เป็นต้น ข้อที่สอง การจัดเก็บ Term ลงในส่วนของ Inverted Index เรียกว่าอะไร A: postingB: dictionaryC: token ตอบ ข้อ B เพราะ dictionary เป็นที่จัดเก็บของ Term แต่ละแบบ โดยในแต่ละ Term จะที posting list ในการบ่งบอกว่า Term นี้ ค้นพบที่ document อะไร ข้อที่สาม การทำ Stem จะไม่ลดค่า precision จริง หรือไม่ ตอบ เท็จ เพราะคำที่ผ่านการ Stem จะถูกทำให้เป็นรากศัพท์ ซึ่งจะนำ Term หลายๆเทอมมารวมกันเก็บลงใน posting list เดียวกัน จึงส่งผลให้เมื่อมีการ retrieve…

[IR] คำถามเกียวกับการทำ Cluster Pruning

คำถาม: การทำ Cluster Pruning ใน Lecture 6 หน้า 33-37 โดยการกำหนดค่า b1 และ b2 นั้น เมื่อ b1 และ b2 มากขึ้นจะทำให้เกิดอะไรขึ้นต่อการคำนวณคำตอบ: มาดูคำแต่ละคำกันก่อนว่า คือ อะไร ? Cluster Pruning คือ อะไร ? Cluster Pruning คือ การเตรียมข้อมูล ซึ่งก็คือ document ต่างๆ ในระบบ(ทำตั้งแต่ช่วงสร้าง Dictionary เลย) เพื่อที่จะแบ่งกลุ่ม document ที่คล้ายๆกัน ให้อยู่กลุ่มเดียวกัน เพื่ิอที่จะช่วงลดเวลา ในการค้นหา โดยจะกำหนดให้มี หมายเหตุ ความสัมพันธ์ของ Leader กับ Follower จะมีความสัมพันธ์แบบ 1 ต่อ 1 (b1=1) การทำงาน เมื่อมี Query ? ค่า b1 และ b2 คือ อะไร ? ค่า b1 และ b2 คือ อะไร ปัญหาของการกำหนดค่า b1 และ b2 Document แต่ละอันมันเหมือนกันขนาดไหน ? เราจะรู้ได้อย่างไรว่า document แต่ละอันมันเหมือนกันขนาดไหน ที่จะเอามาแบ่งกลุ่ม สามารถหาได้ โดยการคำนวณ หาค่า cosine คำตอบของเรากรณีที่ b1 และ b2 มากขึ้น

[IR] ข้อสงสัยของ Frequency แบบต่างๆ

จากที่เรียนมาจะมี 3 คำ ได้แก่ ตัวอย่าง สมมุติมี document แค่ 2 อันในระบบ (collection) doc1: I like a dog doc2: You like a cat and a bird หมายเหตุ ค่า Frequency จะนับทุกเทอม โดยจะไม่ได้ทำ Stem (ลดรูป) และตัด Stopword ออกไป

[Internship True]วันที่ 28-29

ในสองวันนี้ ก่อนจบการฝึกงานที่ยาวนานกว่าสองเดือน(ไม่ได้ทำกับทีม แต่ไปทำกับ Outsource) ผมได้รวมงานของผมที่ทำกับงานของพี่ โดยไฟล์ในส่วนที่พี่ทำใหม่นั้นจะมีการเปลี่ยนแปลงเท่าที่สังเกตมา 2 อย่าง ได้แก่่

[Internship True]วันที่ 27

วันนี้ศึกษาการนำเสนอข้อมูลด้วยกราฟเพิ่มเติม(จากที่อาจารย์สอน เราก็ไม่ได้อะไรเลย อ.มัว แต่ไปรับงานนอก) โดยจากข้อมูลที่ได้มา แต่ต้องการที่จะเอาข้อมูลในส่วนของ filter, transmitted และ received โดยกราฟที่ได้ทดลองและศึกษา ได้แก่  ที่มาข้อมูลเรื่องแผนภูมิ: ชนิดข้องแผนภูมิต่างๆใน Microsoft Office (เนื้อหาดีมาก ^__^)

[Internship True]วันที่ 26

วุ่นๆกับการลงทะเบียนเรียนเทอมหน้า ที่ตอนจะลงวิชาเรียนจะต้องมาหาข้อสรุปมติ แต่ทำไมตอนจับกลุ่มโปรเจค ไม่เห็นมีแบบนี้บ้าง และก็โยนปัญหามาทางเรา ต่อมาจัดการวิชาเลือกเสรี เพราะโพสไปในเว็บบอร์ดสาขาที่ไม่มีคนจะมาโพสเพิ่ม อยากจะเป็นฝ่ายรับอย่างเดียว มีปัญหาอะไร โยนมาทางเราอีก ซวยอีกโดนบ่นในทวิตอีก ทำดีแล้วโดนด่า สู้ทำตัวแบบบางคนจะดีกว่า เห็นแก่ตัวเยอะๆ ช่วยงานบ้าง เสนอ idea แต่ไม่ต้องทำ

[Internship True]วันที่ 25

จากงานที่ได้รับมอบหมายให้ปรับปรุง ก็จะมีการทำงานย่อยๆ 2 ส่วน ได้แก่ ปัญหาที่พบ โดยหลักๆแล้วจะเป็นการยัดข้อมูลที่ได้ลงตัว Combobox ส่วนการ Query ดึงข้อมูลจาก DB นั้นไม่มีปัญหา และในที่สุดก็สามารถที่จะดึงมาแสดงผลใน Combobox ได้ T_T

[Internship True]วันที่ 24

เมื่อก่อนที่ได้ Code พี่มาศึกษา เราต้องไล่แกะ Code และมาเขียนเองหมดเลย แต่ตอนนี้พี่เค้าแนะนำ Tool ตัวหนึ่งมาใช้ ชื่อว่า aBator ที่จะช่วยให้ใช้งาน ibatis ได้สะดวกขึ้น โดยจะมีการ Gen Class ต่างๆ, DAO และ sqlMap มาใช้เลยรวมถึง sql พื้นฐานต่างๆด้วย ทำให้เราสบายขึ้นเยอะ การใช้ aBator ในการ gen ไฟล์ที่เกี่ยวข้องในการใช้ ibatis กับ Spring

[Internship True]วันที่ 23

วันนี้ก็มีการประชุมดูงานกัน และก็จะมีการปรับปรุงแก้ไขในส่วนของเว็บ คือ จะเพิ่มตัว Filter ขึ้นมาอีกอันนึง โดยจะเป็นตัว Node เพื่อที่จะสามารถจะดูข้อมูลได้ละเอียดยิ่งขึ้น และก็จะมีการหาค่า stat เพื่อเอามาเทียบข้อมูลของเมื่อวานกับวันนี้(นั่งฟังแต่ไม่เข้าใจ:P) โดยในส่วนนี้พี่ Outsource จะเป็นคนทำ และก็จะมารวมงานอีกทีตอนท้าย แต่ที่งง คือ ที่นี่ไม่ใช้ตัว Subversion(SVN) ในการช่วยให้การเขียนโปรแกรม จากคนหลายคนทำงานได้ง่ายยิ่งขึ้น และมีการตรวจสอบ version ได้ เพราะใน Eclipse ก็มีตัว plug-in support อยู่แล้ว ^__^

[Internship True]วันที่ 21-22

ตอนนี้ก็ได้ทำเว็บจนเสร็จและ และพี่ที่ดูแลก็ OK เพราะ ต้องรอความต้องการของหัวหน้าจริงๆว่าจะให้แสดงอะไรบ้าง สิ่งที่ควรรู้คร่าวๆ เกี่ยวกับ iReport ลองทำรายงานด้วย iReport