LLM Architecture Dense Vs MoE ต่างกันยังไง ?

สำหรับ Blog นี้มาขยายความต่อจากที่ไปงาน จดๆจากงาน National Coding Day 2026 แล้วมีเรื่อง Model Dense / MoE เลยมาเขียนแยกขยายความนิดหน่อยดีกว่า

ก่อนอื่น เราต้องมารู้กันก่อนว่าใน LLM มันวัดฉลาด จากตัว Parameter มองว่าจำนวนเซลล์สมองของคนเรานี่แหละ ถ้ามันมีเยอะ แสดงว่ามันฉลาดขึ้น แต่แลกมากับการใช้พลังงานที่มากขึ้น เช่นกัน

แล้วที่นี้การเอาตัว Parameter มันมี Pattern เหมือนกัน จะมองว่าเป็นพิมพ์เขียวก็ได้นะ ว่าจะวาง Architecture ด้านในยังไง มีหลายแบบเลยสำหรับอันนี้ลองมาเขียนสรุป LLM Dense กับ MoE ต่างกันยัง เผื่อเอามาเลือกใช้งานกันครับ

Dense - ใช้ทุก Parameter ตอนทำงาน ต่อยอดมาจากงานวิจัย Transformer
MoE (Mixture of Experts) - มีการจัด Parameter ภายใน Model แยกตามผู้เชี่ยวชาญในแต่ละเรื่อง โดยตอนทำงานจริงใช้ Parameter เท่าที่จำเป็นเท่านั้น แนวคิดนี้มานานแล้วนะตาม Paper นี้เลย

เงื่อนไข	Dense Architecture	MoE Architecture
Active Parameter	All Parameter	Some Parameter ตาม Expert ที่วางไว้ด้านใน (subset of expert)
Inference Speed	พอใช้ทุก Parameter ต้องใช้ HW เยอะมาก ข้อมูลยิ้งใช้ อาจจะช้าลงได้ นอกจาก คงที่ คาดการณ์เวลา Computer ได้	เร็วกว่า ถ้ามันเรื่องใช้ Expert ที่เข้าเคส เพราะใช้ Parameter น้อยกว่า ขึ้นกับ hop ที่เรียกใช้ ต้องมาผ่าน Routing และ Expert แต่ละตัวใน Model
VRAM Req	ตามจำนวน Parameter	ตามจำนวน Parameter ใช้จริงตาม Expert
Specialization	ค่า Weight ของ Parameter จะเท่าๆกัน เพราะใช้หมด	Specialist ตาม Export ที่ Train / Finetune
Routing	-	มี Parameter ส่วนหนึ่งที่ทำหน้าที่เป็น Router เพื่อบอกว่างานไหน ควรให้ Expert เข้ามาทำงาน

และ ถ้าลองหาเพิ่มเติมไม่ได้มีแค่ Dense กับ MoE ยังมีแบบ SSM (Mamba) - จัดการ Context ยาวๆ / Speculative เน้นให้ตอบไว้

Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.

LLM Architecture Dense vs MoE ต่างกันยังไง ?

Like this:

Related

Discover more from naiwaen@DebuggingSoft

Share this:

Like this:

Related

Discover more from naiwaen@DebuggingSoft

Related Posts

Update n8n 1.106.3 > 2.9.4 มีอะไรเปลี่ยนแปลงบ้าง

Let’s try using Microsoft SQL Server MCP server with Claude Desktop

ลองมาทำ Data Dictionary โดยใช้ Claude Desktop + MCP Server กัน