จากที่เรียนมาจะมี 3 คำ ได้แก่
- term frequency คือ จำนวนเทอมนั้นๆ ในเอกสาร
- document frequency คือ จำนวนเอกสารที่มี term ที่สนใจปรากฏอยู่ (ไม่ว่าในเอกสารนั้นจะมีคำจำนวนมากมาย ก็จะนับเป็นหนึ่งเท่านั้น)
- collection frequency คือ จำนวนครั้งที่ term นั้นปรากฏทั้งหมดรวมในทุกๆเอกสาร หรือในระบบ(Collection)
ตัวอย่าง สมมุติมี document แค่ 2 อันในระบบ(collection)
doc1: I like a dog doc2: You like a cat and a bird
- term frequency (doc1)
I = 1 a = 1 like = 1 dog = 1
- term frequency (doc2)
you = 1 a = 2 like = 1 cat = 1 and = 1
- document frequency
I = 1 a = 2 like = 2 dog = 1 cat = 1 you = 1
- collection frequency
I = 1 a = 3 like = 2 dog = 1 cat = 1 you = 1
หมายเหตุ ค่า Frequency จะนับทุกเทอม โดยจะไม่ได้ทำ Stem (ลดรูป) และตัด Stopword ออกไป
Discover more from naiwaen@DebuggingSoft
Subscribe to get the latest posts sent to your email.