LLM Architecture Dense vs MoE ต่างกันยังไง ?

สำหรับ Blog นี้มาขยายความต่อจากที่ไปงาน จดๆจากงาน National Coding Day 2026 แล้วมีเรื่อง Model Dense / MoE เลยมาเขียนแยกขยายความนิดหน่อยดีกว่า

ก่อนอื่น เราต้องมารู้กันก่อนว่าใน LLM มันวัดฉลาด จากตัว Parameter มองว่าจำนวนเซลล์สมองของคนเรานี่แหละ ถ้ามันมีเยอะ แสดงว่ามันฉลาดขึ้น แต่แลกมากับการใช้พลังงานที่มากขึ้น เช่นกัน

แล้วที่นี้การเอาตัว Parameter มันมี Pattern เหมือนกัน จะมองว่าเป็นพิมพ์เขียวก็ได้นะ ว่าจะวาง Architecture ด้านในยังไง มีหลายแบบเลยสำหรับอันนี้ลองมาเขียนสรุป LLM Dense กับ MoE ต่างกันยัง เผื่อเอามาเลือกใช้งานกันครับ

  • Dense - ใช้ทุก Parameter ตอนทำงาน ต่อยอดมาจากงานวิจัย Transformer
  • MoE (Mixture of Experts) - มีการจัด Parameter ภายใน Model แยกตามผู้เชี่ยวชาญในแต่ละเรื่อง โดยตอนทำงานจริงใช้ Parameter เท่าที่จำเป็นเท่านั้น แนวคิดนี้มานานแล้วนะตาม Paper นี้เลย
เงื่อนไขDense ArchitectureMoE Architecture
Active ParameterAll ParameterSome Parameter ตาม Expert ที่วางไว้ด้านใน (subset of expert)
Inference Speedพอใช้ทุก Parameter ต้องใช้ HW เยอะมาก ข้อมูลยิ้งใช้ อาจจะช้าลงได้

นอกจาก คงที่ คาดการณ์เวลา Computer ได้
เร็วกว่า ถ้ามันเรื่องใช้ Expert ที่เข้าเคส เพราะใช้ Parameter น้อยกว่า

ขึ้นกับ hop ที่เรียกใช้ ต้องมาผ่าน Routing และ Expert แต่ละตัวใน Model
VRAM Reqตามจำนวน Parameterตามจำนวน Parameter ใช้จริงตาม Expert
Specializationค่า Weight ของ Parameter จะเท่าๆกัน
เพราะใช้หมด
Specialist ตาม Export ที่ Train / Finetune
Routing-มี Parameter ส่วนหนึ่งที่ทำหน้าที่เป็น Router เพื่อบอกว่างานไหน ควรให้ Expert เข้ามาทำงาน

และ ถ้าลองหาเพิ่มเติมไม่ได้มีแค่ Dense กับ MoE ยังมีแบบ SSM (Mamba) - จัดการ Context ยาวๆ / Speculative เน้นให้ตอบไว้


Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.