[IR] ข้อสงสัยของ Frequency แบบต่างๆ

จากที่เรียนมาจะมี 3 คำ ได้แก่

  • term frequency คือ จำนวนเทอมนั้นๆ ในเอกสาร
  • document frequency คือ จำนวนเอกสารที่มี term ที่สนใจปรากฏอยู่ (ไม่ว่าในเอกสารนั้นจะมีคำจำนวนมากมาย ก็จะนับเป็นหนึ่งเท่านั้น)
  • collection frequency คือ จำนวนครั้งที่ term นั้นปรากฏทั้งหมดรวมในทุกๆเอกสาร หรือในระบบ(Collection)

ตัวอย่าง สมมุติมี document แค่ 2 อันในระบบ (collection)

doc1: I like a dog
doc2: You like a cat and a bird
  • term frequency (doc1)
I = 1
a = 1
like = 1
dog = 1
  • term frequency (doc2)
you = 1
a = 2
like = 1
cat = 1
and = 1
  • document frequency
I = 1
a = 2 << !!
like = 2
dog = 1
cat = 1
you = 1
  • collection frequency
I = 1
a = 3 << !!
like = 2
dog = 1
cat = 1
you = 1

หมายเหตุ ค่า Frequency จะนับทุกเทอม โดยจะไม่ได้ทำ Stem (ลดรูป) และตัด Stopword ออกไป


Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.