[IR] ข้อสงสัยของ Frequency แบบต่างๆ

จากที่เรียนมาจะมี 3 คำ ได้แก่

  • term frequency คือ จำนวนเทอมนั้นๆ ในเอกสาร
  • document frequency คือ จำนวนเอกสารที่มี term ที่สนใจปรากฏอยู่ (ไม่ว่าในเอกสารนั้นจะมีคำจำนวนมากมาย ก็จะนับเป็นหนึ่งเท่านั้น)
  • collection frequency คือ จำนวนครั้งที่ term นั้นปรากฏทั้งหมดรวมในทุกๆเอกสาร หรือในระบบ(Collection)

ตัวอย่าง สมมุติมี document แค่ 2 อันในระบบ(collection)

doc1: I like a dog
doc2: You like a cat and a bird
  • term frequency (doc1)
    I = 1
    a = 1
    like = 1
    dog = 1
    
  • term frequency (doc2)
    you = 1
    a = 2
    like = 1
    cat = 1
    and = 1
    
  • document frequency
    I = 1
    a = 2
    like = 2
    dog = 1
    cat = 1
    you = 1
    
  • collection frequency
    I = 1
    a = 3 
    like = 2
    dog = 1
    cat = 1
    you = 1
    
หมายเหตุ ค่า Frequency จะนับทุกเทอม โดยจะไม่ได้ทำ Stem (ลดรูป) และตัด Stopword ออกไป

Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.