Encoding / Embedding เหมือน หรือต่างกันยังไง

ช่วงนี้ลองทำพวก RAG มันจะเจอหลายคำแล้วมีคำที่มาใหม่ แล้วจะงงๆ Encoding / Embedding เลยขอมาลอง Recap ไว้ดีกว่า

จุดที่เหมือนกันของ Encoding / Embedding

  • การเข้ารหัสข้อมูล พวกข้อความ รูปภาพ เสียง โดยต้องการสร้างมาตรฐานการจัดเก็บที่กลาง เพื่อความสะดวกในการใช้งานของเครืองคอมพิวเตอร์
  • ก็เลยจัดกลุ่มเดียวกันได้นั่นเองครับ โดยตัว Embedding พิเศษกว่านิดหน่อยเรียกว่าเป็น SubSet ก็ได้ สปอยไหมนะ ลองมาดูอธิบายเต็มๆกันต่อดีกว่า
ผมเอา Blog โยนเข้า Nano Banana 2 ให้มันสร้างขึ้่นมานะ บางคำอาจจะเขียนผิด ลองหลายรอบแล้วยังผิด

Encoding

Encoding - เป็นการเข้ารหัสข้อมูล สร้างมาตรฐานการจัดเก็บที่กลาง เพื่อความสะดวกในการใช้งาน โดยมีจุดเด่นรูปแบบ 1 ต่อ 1 แปลงไปแล้วสามารถแปลงกลับมา (Decode) เป็นข้อมูลเดิมได้สมบูรณ์ โดยมีอัลกอริทึ่มที่สำคัญ อาทิ เช่น

  • ASCII, UTF-8 (แปลงตัวอักษรเป็นเลขฐานสอง)
  • Base64 (แปลงไฟล์รูปภาพ/ไฟล์ดิบเป็นข้อความเพื่อส่งในอีเมล)
  • One-Hot Encoding หรือ Label Encoding อันนี้เอาไว้ใช้ Machine Learning (เช่น เปลี่ยน "สีแดง, สีเขียว, สีน้ำเงิน" เป็น "0, 1, 2")

Embedding

เป็นรูปแบบหนึงของการทำ Encoding ที่สปอยไว่ โดยเจ้า Embedding แปลงข้อมูลให้เป็น Dense Vector ชุดข้อมูลตัวเลขที่แทนข้อมูลชุดที่สนใจ เป็นมาตรฐานกลางสำหรับการทำพวก AI (Machine Learning/Deep Learning) มีจุดเด่นสามารถหาความสัมพันธ์ของข้อมูลได้ แต่แปลงกลับตรงๆ แบบ 1 ต่อ 1 ไม่ได้ เน้นรักษาความหมาย และสามารถเอาเทคนิคทางคณิตศาสตร์หาหาความเชื่อมโยงได้

ตัวอย่าง คำอย่าง "กสิกรรม" / "เกษตรกรรม" / "Farming" จัดให้อยู่ใน Vector Space เดียวกัน โดย กสิกรรม /เกษตรกรรม อยู่ใกล้ๆกัน และ Farming ขยับออกมาคนละภาษา ถ้าเป็นคำว่า่ Far จะอยู่ไลกออกไปอีก

อัลกอริทึ่มที่พบบ่อยๆ

  • Word/Text Embedding: (เช่น Word2Vec, BERT, OpenAI Embedding) แปลงคำหรือประโยคเพื่อให้ AI เข้าใจความหมาย เช่น รู้ว่า "ยอดเยี่ยม" กับ "เจ๋ง" ความหมายใกล้กัน
  • Image Embedding: แปลงรูปภาพเป็นตัวเลขเพื่อใช้ในการค้นหารูปภาพที่คล้ายกัน (Image Search) หรือการจำใบหน้า (Face Recognition)

พอเรารู้ Semantic เอาไป Apply กับตัว Semantic Search / Similarity Search / RAG / Clustering


Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.