วันนี้กลับมางานในฝั่ง Google ครับ ผมน่าจะไปครั้งสุดท้ายตอนปี 2016 เห็นมันจัดใกล้แถว BTS วงเวียนใหญ่ พอดีเข้ามาทำงานช่วงเช้า บ่ายๆ ก็เลยลองมาฟังครับ หัวข้อที่จดๆในงาน มีตามนี้ครับ
Table of Contents
Spark the Next Big Thing: AI at Google Cloud Next '2025
Speaker Virot Chiraphadhanakul
ใน Session นี้ Speaker มา Recap จากงาน Google Cloud Next'25 (Las Vegas) โดยงานนี้สองมุม
📌 มุมของผู้บริหาร ไปเพื่อที่จะได้เห็นภาพว่าของที่กำลังจะลงทุน มันเอามาใช้งาน เพิ่มโอกาสทางธุรกิจยังไง มีเล่า Use Case โดยมี Blog สรุปว่าแต่ละองค์กรเค้าเอา AI ไป Adapt ยังไง
📌 และส่วนของ Tech ครับ
ปีนี้เน้นส่วน Agents เลย โดย Cloud ของ Google มีความพร้อม 4 ด้าน

📌 AI Hypercomputer - ส่วน Infra ที่มี Data Center + ออกแบบชิป TPU เอง
📌 Research & Models - อย่าง LLM มาจาก Research ของ Google - Attention is All You Need (ลองหาตามมีด้วย)
📌 Vertex AI เป็น Machine Learning Platform + AI Backend + Model อย่าง Gemini ด้วย
- ตอนนี้ Gemini 2.5 จะได้คะแนนดีที่สุดใน Benchmark ในส่วนของ chatbot arena / Humanity’s Last Exam และของ LLM Performance on Thai O-NET Tests (ของคุณไท)
- Gemini 2.5 มีหลายรุ่นนะ
- Pro ตัวใหญ่ Quality + Thinking Model + Reasoning
- Flash ตัวเล็ก มี Thinking + Reasoning มาให้ด้วย และมี Cost ที่คุ้มกว่าเจ้าอื่นๆ (อิงจาก LLM Performance on Thai O-NET Tests + ภาพด้านล่าง

การเลือกใช้ Model ต้อง Balance Cost / Quality / Speed กันนะ (สามเหลี่ยม PM) โดยเจ้า Gemini 2.5
- เรากำหนดได้นะ Mode
- Thinking Budget เท่าไหร่ ?
- นอกจากนี้แล้ว แม้ว่า AI มี Context Windows เยอะมาก อย่าง Gemini ได้ 1 ล้าน Token ทำได้
- มันเก่งขึ้นจริง แต่ Cost จะเพิ่มขึ้นด้วย
- แต่มีหลายเทคนิคมาช่วย เช่น การทำ RAG มาช่วย เอาที่เกี่ยวมาให้ AI คิด จะลด Cost ได้ชัดเจนเลย

Basic: การทำ Word Embedding เป็นพื้นฐานของ RAG ดูจากได้ https://medium.com/@hari4om/word-embedding-d816f643140
- LIVE API - โต้ตอบ
- Use Case เช่น งานSupport มีเล่า Demo Shoptify พอ Model มันเป็น Multi-Model มันจะเห็นภาพScreen / เสียง ทำให้เข้าใจ Context มากขึ้น และพูดคุย เอาข้อมูลทั้งหมดมาแนะนำเราได้
- ส่วนงาน Dev โดยจากเดิมการยิง API จะเป็นใช้ Web Socket นะ - นอกจากมีเปิดตัว Model ต่างครบทุกด้านทั้ง Text / ภาพ / เสียง / VDO
- Translation ปรับปรุงการแปล.
- Lyira - Text to Music
- Veo3 - Generate Video+เสียง //ตอนนี้เห็นเต็ม TikTok
- ตัว Embedding ที่ช่วยให้เข้าใจมากขึ้น มี Sematic Insight จะตีความคำว่าแมว / ภาพแมว / เสียงแมว / clipแมว มันทำ Vector มาอยู่ในระนาบเดียวกัน มองว่ามันเป็น แมว ได้แล้วนั่นเอง หรือ รููปแมว กับสุนัข และบ้าน จะแยกกลุ่มได้ชัดเจน อย่างสัดว์เลี้ยง กับ สิ่งก่อสร้าง

- Use Case ของ Etsy เอา AI Model ด้าน Media มาช่วยแนะนำสินค้าเป็นอย่างไร
- อีก Use Case เคสเอา Gemini ทำ Story Board และเอา VEO3 มาสร้าง Vdo เสียงพากย์ หรือจะสั่งจากเสียงใช้ Chirp 3 ลองทำได้จาก Google AI Studio (แต่ใช้เงินเยอะ แต่ถูกกว่ายกกองไปถ่ายจริงๆ)
ยังมีส่วนของ Platform
- Vertex AI มีตัว Agent Development Kit มาช่วยเริ่มต้น Dev + Deploy
- Model Garden เป็น Host Model Google / Open Source (Gemma / LLAMA / Deepseek) หรือ ใช้ Model ของค่ายอืน (เช่น Claude) แต่ Infra GCP อารมณ์แบบ Foundry ของอีกค่าย
- Model Builder เราสร้าง Model ใช้เอง
- Agent Builder ส่วนที่ช่วยให้ Dev สร้าง Agent ได้ง่าย
💡 ทำ Agent to Agent ได้ง่ายผ่านตัว ADK มี Protocal กลาง
💡 พวก MCP มันช่วยต่อ Tools API เสริมตัว ADK
📌 ส่วนของ Agent เป็นส่วนที่มาใหม่ในปีนี้เลย เน้นไปในส่วน End Users ใช้งานอย่างตัว
- Google Agentspace - ให้ End User เอา Agent ไปใช้งาน โดยมี
- Built-In Connector เชื่อมกับระบบต่างๆ
- Google Expert Agent มาใช้ โดยเด่นๆ Deep Research Agent / Idea Generation Agent (สุมหัว weight idea + เอาแนวคิดทีผสมกันแล้วว่าดีมาให้)
- Customer Built Agents ทำเองตาม Business Flow รวมถึงอนาคตจะมีตัว Market Place - AgentSpace Agent Designer เอาพนักงานทำ Agent ใช้เอง สร้างตาม Workflow ที่ต้องการได้ อีกชนกะ Copilot Studio ของอีกค่าย
นอกจากนี้ มีประเด็นให้เราทิ้งท้ายว่า เราเอา Agent มาทำอะไร หรือ ทำตาม Step ที่เราตั้งไว้ (Workflow) และต้องมี Human In the Loops ไหม
Ref: https://blog.langchain.com/how-to-think-about-agent-frameworks
AI Agents
Speaker Aye Hninn Khine
- LLM มีวิวัฒนาการอย่างไร

- แล้ว AI Agent คือ อะไร
📌 Model ที่สิทธิเข้าไปจัดการของรอบข้าง (Environment) ได้รับรู้สภาพในตอนนั้น แล้วตัดสินใจ เช่น เราสั่ง pizza มองว่าได้ตัวร้าน pizza เป็น agent ทำของให้เรา ส่วนเป็นวิธีการไหน แล้วแต่ agent นะ เราอาจจะมี promptไปคุมอีกที
📌 ตัวที่ช่วยให้ Model จัดการของรอบข้าง (Environment) จะเรียกว่า Tools
📌 RAG ยังไม่เป็น Agent มันเอาข้อมูลใน KM มาตอบให้ชัดเจนขึ้น ลด Hallucination
📌 AI Agent มี Flow ตามนี้
INPUT --> LLM --> OUTPUT --> CALL TOOLS TAKE ACTION
ถ้าเราให้ AI ทำการบ้าน + ส่งการบ้าน อันนี้เป็น Agent มีทั้งส่วน LLM ทำการบ้าน และ มี Tools เอาผลที่ได้จาก LLM ส่งการบ้าน
📌 AI Agent Archtitiecture

- Orchestration ตัวจัด memory / state ว่าจะทำอะไร แล้วต่อยังไง
- Model - Foundation LLM Model ซึ่ง Run ที่ไหนก็ได้ อาจจะเป็น Cloud / Ollama เป็นต้น
- Tools ระบบรอบข้างที่เกี่ยวข้องมองเป็นเครื่องมือให้ AI ใช้ เลือกให้เหมาะกับ Requirement ที่ได้ เช่น ราคาตลาด / ข้อมูลสภาพอากาศ เป็นต้น
- Runtime - สั่งทำงาน
สำหรับการทำงานเพิ่มเติม Speaker แนะนำ Blog https://huyenchip.com/2025/01/07/agents.html สั้นๆ

- Plannner - ตัว LLM Model คิดแผนมาว่าจะทำอะไร ้เช่น แตก Task ย่อย 1 2 3 4 .. / Function calling เป็นต้น
- Evaluator - เอา plan บางอันไปลองก่อนเอา Feedback มาเก็บไว้ใช้ต่อ จะได้ไม่รอกัน
- Executor สั่ง Tools ทำงาน
- Type of AI Agent
📌 ReAct Plan (Reasoning + Acting) วางแผล และเอา Output ที่ได้มาปรับ คิด เอา feedback มาปรับปรุง
📌 CodeAgent มาที่วางแผนมาเขียนเป็น Code ให้เลย
📌 SingleAgent - Agent ทำหน้าที่ 1 อย่าง
📌 Multi-Agent - Agent ทำงานเป็นทีม

- ตอนนี้มี AI Agent Framework อันไหนที่ใช้งานบ้าง

- Workshop / DEMO
📌 มี Demo ของ SmolAgents ให้เล่นกัน https://colab.research.google.com/drive/1LSy4AA8QrpAIv6cbMHEpb6mGEF6guWtL?usp=sharing
📌 แต่ต้องมี Hugging face Token (Read/ Write) / Google Studio API ใช้ Gemini พวก App Password สำหรับส่งเมล์
📌 ของให้เล่น ดังนี้
- เอา Agent เพียวมาถาม กับอีกตัวเอาของเดิมมาแหละ แต่เอาข้อมูลจาก DuckDuckGo (Search Engine) มาทำเป็น Grouding ช่วยตรวจความถูกต้องจองข้อมูล
- Agent that analyzes images with a proprietory model using LiteLLM
- Agent that solves your assignment, and submits it to your professor via an email อันนี้ดูใกล้กับงานที่ทำงาน มีขั้นตอนแบบ Agent มันเปลี่ยนบริบทแล้วใช้ได้ สรุป Requirement ลูกค้าแล้วเมล์มาหน่อย / หาวิธีแก้ Production Issue แล้วสรุปแนวทางแก้ไขมาใน mail
- Data Analyst that analyzes cricket matches (IPL)
นอกจากนี้แล้วเราได้ยังสร้าง Agent ได้จาก Vertex AI
- Google AI Studio ส่งสำหรับ Dev PoC
- Vertex AI ทำ Backend สำหรับ Prod และตอนนี้มี Version แบบ Low Code ด้วย

From Zero to Interactive with Google ADK
Speaker Natavit Rojcharoenpreeda

📌 Google ADK เป็น Agent Development Kit Framework ของ Google ออกแบบมา Open Eco System optimize มาให้กับ Model ของ Google แต่ก็ใช้กับค่ายอื่นๆก็ได้นะ
- ADK Concept
📌 Agents
- Base Agent ส่วนเตรียมไว้ให้ Extend ต่อ
- LLM Based - Model เพียสๆ
- Workflow Based - Business Logic + Model
- Sequential Agent - ทำเป็นลำดับ
- Parallel Agent - ทำพร้อมกัน
- Loop Agent - ทำวนไป จนกว่าจะเข้า Condition หรือ max retry - Custom Logic - กำหนดวิธีคิดเอง
นอกจากนี้แล้ว เวลาเรา Agents มันทำงานร่วมกัน (Multi Agents) จะ Agent อีกตัวมองเป็นผู้จัดการมาค่อยจ่ายงาน (Root / Steering Agent) ก่อนส่งต่อให้ Agent ที่เหมาะสมตามที่ได้บอกใน AgentSkill / AgentCard (อารมณ์แบบ Resume/CV)
📌 Tools เป็นส่วนที่ให้ Agents จัดการ Enviromemnt ภายนอกได้ โดยมี
- Built-In ของ Google เช่น Search / Mail
- Third-Party Tools อย่าง Serper/ LangChain / CrewAI.
- Function Tools ให้มันยิงมาหา Code หรือ API เรา
- MCP Tools
- OpenAPI Tools ถ้ามี Spec อย่างพวก Swagger / OpenAPI โยนไฟล์ yaml ให่มันไปบอกว่า เรามี Endpoint อะไรให้ใช้งาน
ส่วนของ Tools ต้องบอกความสามารถว่าทำอะไรได้ โดยการ Comment
import requests # define a function to get exchange rate def get_fx_rate(base: str, target: str): """ Fetches the current exchange rate between two currencies. Args: base: The base currency (e.g., "SGD"). target: The target currency (e.g., "JPY"). Returns: The exchange rate information as a json response, or None if the rate could not be fetched. """ base_url = "https://hexarate.paikama.co/api/rates/latest" api_url = f"{base_url}/{base}?target={target}" response = requests.get(api_url) if response.status_code == 200: return response.json()
📌 Agent 2 Agent เป็นให้ตัว Agent มาทำงานร่วมกันได้ โดยมองภาพใหญ่ ส่วนตัว MCP ส่วนเสริมให้ Agent เข้าถึง Enviroment ได้มากขึ้น


- Workshop
📌 goo.gle/adk-foundation - ลองสร้าง Agent ขึ้นมา มันตอบได้ตาม Model เราถามคำถาม Classic ไป ฝั่งซ้ายมี Tools ช่วย Debug / Trace ว่าเราทำอะไร

📌goo.gle/adk-using-tools จากอันแรก ถ้าเพิ่มความฉลาดต้องใส่ Tools เข้าไป
- Tools Funtion Calling
- Tools Google Search > Agents Google Search
- ตอน Run จะ Error
- ต้องปรับเป็น Agent อันนี้ Google กลัวว่าตัว Tools Search มันจะกลายเป็นตัวแบกของ Agent เลยให้แยก


- Tools Third Party -
langchain
📌goo.gle/adk-mcp-a2a - ลองเอา Agent มาทำร่วม MCP

- fastmcp เป็น lib สร้าง mcp server
- A2A จะมี metadata มองว่าเป็น resume ก็ได้ว่า Agent มีความสามารถอะไร เวลาคุยกันเราก็อ่าน Spec ตรงนี้นอกจาก ใน Framework นี้จะเป็นตัว Class AgentSkill / Class AgentCard //ลองมาถึงตรงนี้คล้าย Sematic Kernel
Google's ADK and the A2A Protocol: Introduction
Speaker Natdhanai Praneenatthavee
- เราทำ Agent ไปเพื่ออะไร ?
📌จากงาน Nvidia CES Speech + Ad Toy Data Rookie มีบอก Trend ว่า Agent ช่วยให้เราทำงานต่างๆได้ง่าย ช่วย Automate ได้ง่าย รวมถึงทำ One Person Business ได้ง่ายขึ้นด้วย จากเดิมจ้างคน เราใช้ Agent หรือ เอามาเสริมในจุดอื่นได้
📌แต่มีอีกมุมตัวการ Layoff คนบางส่วน ถ้า AI แทนได้ ดังนั้นเราต้องพัฒนา Skill ให้ได้
📌ตอนนี้จาก Research ของ Accenture พบว่า Agent มีบทบาทมากขึ้นในอนาคต

สำหรับที่ Speaker มองว่าเด่นๆ
- Gemini cli
- Jules - Coding Agent แบบ Copilot
- Google Agent Development Kit
- Agent 2 Agent
สำหรับ A2A บางส่วนคล้ายกับ Session ก่อนหน้า เลยจะขอละไว้
📌A2A How It Work

- Framework + CLI ทำ Agent มีมาตรฐานกลาง A2A Protocal ในการเชื่อมกับ Agent อื่นๆ และรองรับ MCP ด้วย
- การทำงานแยกเป็น Client / Server (Remote) ทำกัน 4 มุม Capability Discovery / Task Management / Collaboration / Negolation
- End User ส่วงคำขอ
- Client รับคำขอจาก User และเป็นตัวแทนในการสื่อสาร
- Server รับ Request จาก Client มาจัดการต่อ และส่งต่อให้ Agent ย่อยๆที่เกี่ยวข้อง
📌Computer Vision เป็นศาสตร์การเข้าใจภาพ มัน คือ อะไร เป็นของอะไร ซึ่งตัวนี้ เอามาเสริมเป็นความสามารถนึงของ Agent ได้ โดยกว่าจะได้เป็น Computer Vision ตอนนี้
- Classic OpenCV
- Neural Network
- Deep Learning จากแนวคิด CNNs / Transformer
- AI - LLM ที่เราสามารถเอา Base Model และเสริมด้วยเทคนิค Zero Shot / Few Shot เข้าได้ paper ของ Spekaer ที่ทำงานในส่วนนี่
- Workshop
- Resource
Google-Cloud-Next-2025
- Required
- Google AI Key (จาก Google AI Studio / VertexAI)
- Gmail App Password - Workshop1:
- Google Colab เอาไว้ลอง
- Gemini-Flash + CV Example (Object Detection / OCR พื้นที่ที่ต้องการ + ภาษาไทย) มีตัวอย่าง Prompt พร้อม - Workshop2(Fix): เอาที่ลองจาก Workshop1 (Colab) มาแยกเป็น Agent ย่อยๆ dev code ที่เครื่องเรา
- OCR - Extract Text
- Send Mail
และมีตัว root agent ค่อยประสานการทำงาน ผมฟังนึกถึงพวก node ใน n8n ที่เคยลองเลยมีลองคล้ายกัน และอย่างนี้ดีนะ ทำให้เห็นว่าใช้ UI อื่น แทน Default Chat ด้วยนะ


Bi-directional Streaming with Gemini Live API
Speaker Kamolphan Liwprasert
- Bi-directional Streaming with Gemini Live API คือ อะไร ?
📌Recap เวลานี้ Gemini มีอะไรใช้ให้บ้าง
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash-lite
ตัว Gemini 2.5 Pro / flash จะมี Native audio output (text to speech) เสียงเป็นธรรมชาติคล้ายคนมากขึ้น ลองได้จาก ai.dev (Google AI Studio) ส่วน Stream
Bi-directional Streaming with Gemini Live API ย่อ Live API
📌Live API คือ อะไร ?
- ความสามารถในการ Stream เสียงเรา ขาไป (text > speeach) และ กลับ (speeach to text)
- ตอบแบบ Realtime เป็นธรรมชาติมาก
- เราพูด Interrupt มันได้นะ มันจะพังเราและเอ๊ะๆ ตอบได้ระดับนึง
- ใช้งานกับ Use-Case MultiModel ได้
มี demo เยอะ เหมือนกัน เช่น https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb กดเปิดใน Google Colba ได้เลย
สำหรับในมุม Coding

- เปลี่ยนจาก REST API (http) มาใช้ Web Socket เปิดช่องทางพิเศษให้ Server Client คุยกันบนทางพืเศษเลย
- จาก https:// > wss:// (web socker secure)
- สำหรับ ws กับ webrtc
- มี doc ลองดูตาม https://google.github.io/adk-docs/streaming/dev-guide/part1/
- Workshop / DEMO
- Repo: https://github.com/fonylew/language-buddy อาจจะต้องกำหนด Google Credential ก่อน Run
- ดูใน Live นะเข้าใจมากกว่า มันคุยโต้ตอบ
Speaker มี Course มาแนะนำด้วยครับ https://www.kaggle.com/learn-guide/5-day-genai
Evolution of Gemma 3n for Deploying Local Models on Every Device
Speaker Witthawin Sripheanpol
- What is Gemma

- gemini ทำโดย deepmind บ ที่ทำ alpha go
- gemma เป็นเวอร์ชัน open source model ของ gemini
- ตัว Gemma Design for local device เน้นเล็ก แต่ฉลาดอยู่
- ตัว Gemma 3 มีปรับให้ Model ใหญ่ขึ้นมี parameter มากขึ้น
- พอเป็น opensource มีเอาไปต่อยอดหลายแบบ เช่น medgemmea / shieldgemma เอาไปเป็น GuardRail เอากันตอบอะไรแปลก / dolphingemma (how dolphins communicate) //จะมี catgemma ไหมนะ เป็นต้น
- Evolution From Gemma > Gemma3 > Gemma3n

- Gemma3 - multimodal และ ขนาดเล็ก
- Gemma3n - เน้น Env ที่เล็กลงไปอีก อย่างพวก iot / mobile device
📌 Model Code อ่านยังไง ?

- 3 - Verion
- n - บอก nano สำหรับ modile
- it - instruction tuning เก่ง chat
- X - ขนาดของ Model บอกจำนวน RAM ที่ใช้
- e - effective parameter ตอนออกแบบ Model เลยแบ่งว่าส่วนในใช้ GPU / CPU เรียกว่าลด Resource ได้เยอะเลย

ทำไมถึงต้องทำแบบนี้ เพราะ Mobile มีส่วนของ vRam น้อย เลยต้องแบ่งส่วนของ Model สำหรับ Process ใน ว่าส่วนในใช้ GPU / CPU เรียกว่าลด Resource ได้เยอะเลย งานไหนใช้เท่าไร่ดึง Resource เท่านั้น
📌 ความสามารถของ Gemma3n (Model 2B)
- Supports 140 languages for text
- Supports 35 languages for multimodal interactions.
- Support Long-term conversation
- เบื่องหลังความเก่งมีหลายอัลกอริทึมยัดเข้าไปใน Model
- MobileNet เป็นอัลกอรึทึมเบื้องหลังที่ช่วยให้งานด้วยภาพไวขึ้น อย่าง เช่นใน Google Pixel ตอนนี้ MobileNet-V5-300
- Universal Speech Model (USM) - จัดการด้านเสียง ทำให้เข้าใจมากขึ้น
เลยเป็น multimodal
📌 Benefit Gemma3n
- Optimize for on device เหมือนงาน Video / Image
- Privacy First
- Multi Modal Understanding
- Dynamic Resource usage - มันใช้ resource น้อย ถ้า scale คุม cost ได้ แบ่งงานลง CPU ได้ Cost จะถูกลง กว่าซื้อการ์ดจอ
- How to use Gemma3n
- มีหลายที่เลยจาก Hugging Face / Kaggle / Ollama / LMStudio
- คนใช้ดูแต่ -it สำหรับ chat ส่วนงานอื่นๆ เอาตัวที่ไม่มี -it //เข้าใจและ ฮ่าๆ เดี๋ยวไปดึงใน Ollma ใหม่ ลองแล้วมันแปลกๆ
- Demo https://github.com/ro-witthawin/Evolution-of-Gemma3n-For-Deploying-local-models-on-every-device/blob/main/[Gemma_3n]Multimodal_understanding_with_HF.ipynb
- เพิ่งรู้วาเราส่องใน model ได้ด้วย อารมณ์แบบ layer ใน docker มั้ง

- Deploy Gemma3n On Local Device
- ลองใช้ผ่านตัว ONNX Framework แต่ Client จะดึงข้อมูลนานๆหน่อย Model หลาย GB
Ref: https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNX
สุดท้ายขอขอบคุณทีมงานทุกท่านที่จัดงานดีๆแบบนี้นะครับ
Reference
- https://gdg.community.dev/events/details/google-gdg-cloud-bangkok-presents-cloud-next-extended-bangkok-2025/
- Live: https://www.youtube.com/watch?v=J8vPROs0Qb4
Discover more from naiwaen@DebuggingSoft
Subscribe to get the latest posts sent to your email.