สำหรับ Blog นี้มาขยายความต่อจากที่ไปงาน จดๆจากงาน National Coding Day 2026 แล้วมีเรื่อง Model Dense / MoE เลยมาเขียนแยกขยายความนิดหน่อยดีกว่า
ก่อนอื่น เราต้องมารู้กันก่อนว่าใน LLM มันวัดฉลาด จากตัว Parameter มองว่าจำนวนเซลล์สมองของคนเรานี่แหละ ถ้ามันมีเยอะ แสดงว่ามันฉลาดขึ้น แต่แลกมากับการใช้พลังงานที่มากขึ้น เช่นกัน
แล้วที่นี้การเอาตัว Parameter มันมี Pattern เหมือนกัน จะมองว่าเป็นพิมพ์เขียวก็ได้นะ ว่าจะวาง Architecture ด้านในยังไง มีหลายแบบเลยสำหรับอันนี้ลองมาเขียนสรุป LLM Dense กับ MoE ต่างกันยัง เผื่อเอามาเลือกใช้งานกันครับ
- Dense - ใช้ทุก Parameter ตอนทำงาน ต่อยอดมาจากงานวิจัย Transformer
- MoE (Mixture of Experts) - มีการจัด Parameter ภายใน Model แยกตามผู้เชี่ยวชาญในแต่ละเรื่อง โดยตอนทำงานจริงใช้ Parameter เท่าที่จำเป็นเท่านั้น แนวคิดนี้มานานแล้วนะตาม Paper นี้เลย
| เงื่อนไข | Dense Architecture | MoE Architecture |
|---|---|---|
| Active Parameter | All Parameter | Some Parameter ตาม Expert ที่วางไว้ด้านใน (subset of expert) |
| Inference Speed | พอใช้ทุก Parameter ต้องใช้ HW เยอะมาก ข้อมูลยิ้งใช้ อาจจะช้าลงได้ นอกจาก คงที่ คาดการณ์เวลา Computer ได้ | เร็วกว่า ถ้ามันเรื่องใช้ Expert ที่เข้าเคส เพราะใช้ Parameter น้อยกว่า ขึ้นกับ hop ที่เรียกใช้ ต้องมาผ่าน Routing และ Expert แต่ละตัวใน Model |
| VRAM Req | ตามจำนวน Parameter | ตามจำนวน Parameter ใช้จริงตาม Expert |
| Specialization | ค่า Weight ของ Parameter จะเท่าๆกัน เพราะใช้หมด | Specialist ตาม Export ที่ Train / Finetune |
| Routing | - | มี Parameter ส่วนหนึ่งที่ทำหน้าที่เป็น Router เพื่อบอกว่างานไหน ควรให้ Expert เข้ามาทำงาน |
และ ถ้าลองหาเพิ่มเติมไม่ได้มีแค่ Dense กับ MoE ยังมีแบบ SSM (Mamba) - จัดการ Context ยาวๆ / Speculative เน้นให้ตอบไว้
Discover more from naiwaen@DebuggingSoft
Subscribe to get the latest posts sent to your email.



