Global AI Bootcamp Bangkok 2025

รู้สึกว่างานมันดูแน่นๆเดือนนี้ สงสัยหลบวันสงกรานต์ สำหรับงาน Global AI Bootcamp Bangkok 2025 ผมได้แวะมาฟัง เป็นงาน Online ครับปีนี้ เลยมาจดๆไว้ประมาณนี้ครับ

Keynote

เอาคนดังจากหลายสาขา มาเล่าถึงการใช้ AI โดยสรุปได้ประมาณนี้

🧵 คุณ Scott Hanselman ก่อนเอา AI มาใช้ Code แบบ Intellisense แนะนำ ตอนนี้มี AI เข้ามาช่วยเขียน และที่สำคัญช่วยทำความเข้าใจ Code จาก GitHub Copilot ที่มาช่วยความน่าเบื่อตอนทำงาน และเอาเวลาไปทำอย่างอื่น ทั้งในสาย Dev / Devops นอกจากนี้แกยัง LLM มันใช้ Data เรามี พูดเหมือนนกแก้ว ถ้าเราจัดการข้อมูลไม่ดี AI มันออกมาไม่ดี มันมีกับไป AI เหมือน และสุดท้ายตอนพัฒนา App อย่างลืมคิดถึงผล / จริยธรรม ที่เราต้องคุมจากการนำ AI มาใช้งานด้วย

🧵 คุณ Guido van Rossum แกเป็นคนคิดภาษา Python ทำตั้งสมัยยังไม่มีคำว่า Open Source จริงจังๆ เลย โดย Python เหมือนตัวภาษามาลดความยุ่งยากของการปีกกาเปิด-ปิด ด้วยที่มันเปิดมีคนไปใช้ต่อ โดยมี lib หลายตัวที่เอา python ไปเป็น Base เสริมความสามารถอย่างตัว NumPy (Numerical Python) จากนั้นมีอีกหลายตัว TensorFlow > scikit-learn > PyTorch มาจดการเป็นภาษาสำหรับ AI และทิ้งท้าย ถ้าเราจะเริ่มทำรอะไรให้ inner/motivation มันพร้อม ระหว่างนี้ไปเรียนรู้อะไรรอบที่ยังไม่รู้เสริม skill ไป

🧵คุณ Jennifer Marman - จะบอกถึง AI ตอนนี้มาเป็น Agent Base โดยแกจะแบ่ง 3 ส่วน Memory (Context + Infromation) / Entitlement (Permission ทำตามสิทธิที่ได้ Safty) และสุดท้าย Action (Automation + Add On Experiense) และเล่าถึงเคสนำพวก Foundation Model / Reasoning Model ทำอะไรที่ซับซ้อนได้มากขึ้นกว่าเมื่อก่อน และเค้าเอา AI Reasoning มาช่วยจัด Schedule Summer Camp ของลูกได่นะ เท่าที่ฟังให้ prompt ให้ input ระดัีบนึง

🧵 คุณ Sarah Bird การนำ AI มาใช้งานสิ่งที่ระวังนอก Bias แล้ว ตาม Respisible AI ตอนนี้อีกเคสที่เจอกันเรื่องลิขสิทธิ์ แบบ AI ไปอ่านมาตอบเรา เราต้องมีส่วน App (Test + Security) / + AI (Safe Guard / Meta prompt) ให้ AI มันน่าเชื่อถือ Responsible AI และตอนที่เรานำมาใช้เข้าใจ Tradeoff การนำ AI มาใช้กับ Business

แนะนำโครงการ Microsoft AI Skill For Developer

Speaker: Phantip Kokilanon

สำหรับโครงการนี้มีการแชร์ Knowledge จาก Community Leader + Official มีทำสื่อการสอน ทั้งใน MS Learn / LinkedIn Learning / YouTube Microsoft Channel รวมถึงการแจกสิทธิสอบต่างๆด้วย

Get started with Azure AI Foundry

Speaker Orapin Anonthanasap

สำหรับตัว Azure AI Foundry เป็น PaaS ที่มาช่วยการพัฒนาระบบที่มี AI เข้ามาเกี่ยวข้อง โดยมีเค

  • Deploy Model เอง หรือ ใช้ที่มีแล้วจาก Model Catalog
  • Tools ช่วย playground / finetune
  • มีการเชื่อมหลายตัวอย่าง VS/ SDK / Rest / Copimot Studio
  • ทำ Responsible AI / Content Safety guard
  • ทำ Collaboration ร่วมกันได้

นอกนี้แล้ว Azure AI Foundry ยังมี Service อื่นๆ

  • Azure OpenAI Service ใช้ service ของ OpenAI
  • Azure Machine Learning เหมาะทำเอง
  • Azure AI Service - ใช้ pre-built model ได้

โดยตัว Azure AI Foundry เข้ามาเรียกใช้ Service จากในนี้ได้นะ

  • AI Hub กำหนด Base Infra อย่างพวก Connection / Compute Resource / Security
  • AI Project มาสร้างใน AI Hub อีกที เพื่อ
    - Deploy Model
    - ปรับจูน
    - Evaluation + Score

จากนั้นเป็นการ Demo ตัว Azure AI Foundry โดยสร้างได้ 2 แบบ ทั้งจาก https://ai.azure.com/ และ Azure Portal (เลือก Azure AI Foundry) และสร้าง AI Hub > AI Project

และลองเล่น Model จาก Model Catelog > Playground ซึ่่งมีการกำหนด Param ต่างๆ อย่าง temperature / user system message รวมถึงการกำหนด Content Safety ได้ ตาม Rule ที่มีอย่างพวก harmful / underground / copyright / jailbrak เป็นต้น

นอกจากนี้มี Demo RAG เป็นเทคนิคให้ AI มันตอบได้ตรงประเด็น อารมณ์ เอาสมองจาก AI + ยัดโพยข้อมูลของเราให้มันเอามา Reference ตอนตอบ ลองไปทำตามได้จาก

สุดท้ายการประเมิน Model ตัว Azure AI Foundary มีวิธีการประเมิรน 3 แบบ Build-in / Automate และ Manual ให้คนเข้ามาประเมินโดยใส่คำตอบในรูปแบบ csv หรือ jsonb

นอกจากนี้ใน Azure AI Foundry มี Azure AI Agent Service

AI Agent in Enterprise - ตัวสมองมันดีขึ้นแล้ว แต่ตัว Data ต้องมีการเก็บที่ดีด้วย โดย Speaker จะแนะนำตัว Fabric มาช่วยครับ

Resource: Orapin Anonthanasap – Medium

How to Run Reasoning Model Based on Sustainability

Speaker Charunthon Limseelo

🔎Problem of GPT Model LLM

  • OpenAI Model ของเค้าเป็น Model ปิด Proprietary เสียเงืน
    ถ้าไปฝั่ง Open Source ต้องไปดู HuggiungFace / GitHub Model
  • Outage บ่อย เพราะคนเข้าไปใช้กันเยอะ
  • การใช้ Model LLM ตัว GPT ใช้ Cost สูง และพลังงานใช้เยอะ

🔎Small Language Model / Small Reasoning Model

  • Deploy ที่ไหนก็ได้ ทั้ง Local / Cloud ตาม Resource ที่มี
  • Low Latency /
  • Cost Effective ถูกกว่า
  • ปรับแต่งได้ง่ายกว่า เช่น การทำ Fine Tune Model

นอกจากนี้ Model จากหลายๆทำมาแข่งกัน ทั้ง GPT 4o (8B Param) รวมถึงค่าย Open จริงๆ Llama / Qwen มี param,ใกล้กัน และคุณภาพพอๆกัน แม้ว่าจะมาลด Param เพื่อให้มีขนาดเล็กลง SLM / SRM โดยเทคนิคนั้น คือ การ pruning and distillation

ตอนนี้ Model จะไปทาง Reasoning + Multi Model ที่ขนาด Model เล็กลง เพื่อใช้กับ device เล็กๆ แนวคิด Distillation / Reforcementg Learning โดยเอา Feedback จาก Human -RLHF / Machine - RLMF พวก math reasoning และ Execution - RLEF ) โดยมี Open Source SRM ที่เด่นๆ

🔎Guideline: How to use AI Model

  1. Develop and Use Smaller / Efficient Models - ใช้ตัวเล็กที่มีประสิทธิภาพ ลดการใช้พลังงานรักษ์โลก โดย SLM ยุคแรกๆ Task Specifi ถ้าใช่ Distilling จะช่วยลดปัญหาตรงนี้
  2. ใช้งานตาม use case ใครเก่งอันไหนใช้อันนั้น AI ทั่วไป > LLM > LLM Reasoning
  3. Utilize Sutible Model Platform
    - Spec เลือก HW ที่มี npu ใช้พลังงานน้อย / gpu + Disk
    - Local Ollama / LMStudio ลองดูที่จดไว้จากงาน dotnet Local Reasoning Model Deployment with AutoGen Between Ollama and LM Studio
    - หรือ ลองใน google colab ตาม Compute ที่ได้ซื้อไว้ หรือมี Credit
    - หรือ Clouds Azure หรือ ค่ายอื่นๆ
  4. Responsible AI / Trustworthy AI ทำตาม Guideline ให้ปลอดภัย
  5. Optimize Model Tranning & Deployment - การทำ Finetune โดยใช้ unsloth
  6. Human in Loop และมีการตรวจสอบ เข้าใจ Domain มาตรวจว่า AI มันทำงานถูกต้องไหม

สำหรับ Sample การใช้ GitHub Model ดูจาก Season of AI – Thailand Solving the unsolvable: o1 models for breakthrough reasoning on GitHub Models

Resource: https://chrnthnkmutt.github.io / Book: Hands-On Large Language Models

Responsible AI Agent Creator: Balancing Innovation, Trust, and Risk

Speaker Komes Chandavimol

2024 - AI is everywhere ตอนนี้จะเป็นยุคของ Agent ที่ AI ค่อยมาทำงานช่วยเรามากขึ้น ตาม Workflow ที่เราได้กำหนดไว้ โดยมีการกำหนดให้แต่ละ Agents ทำงาน Specific ได้ จาก Data ที่ส่งต่อกันภายใน Flow เช่น สรุป / สร้างรูป VDO / ทำ Slide / Reasoning รวมถึงการนำ AI มาทำ Guard ตรวจข้อมูล

แต่พอคนใช้เยอะ ความเสี่ยงก็ตามมา AI Risk Everywhere มีคนใช้ในทางแปลก เช่น Prompt Poisoning / Jailbreak / Deepfake (Call Center)

ถ้าเราเป็นคนสร้าง ต่อยอด AI ต้องลดความเสี่ยงได้ยังไง ?

การใช้ AI เราจะมี Responsibe 3 มุม มุมของคนใช้ (use) / มุมของคนสร้าง ออกแบบ (Design) และคนพัฒนา (Development) โดยมีแนวคิด Responsible AI นอกจากนี้ส่วนของนักพัฒนาที่ต้องสนใจ

🚀 Predictive AI - Responsible AI Toolbox

  • การทำ Error Analysis เทียบกับ Baseline จากเดิมที่ใช้คนทำเป็นต้อง เช่น ทำนายราคาบ้าน มันต้อง และใช้ได้กับทุกพื้นที่
  • Model Performance
  • Model Interoperability - Explain ที่มาได้ มี Data ที่เกี่ยวข้องมา ปรับปรุงต่อ
  • Exploratory Data Analysis - ทำให็เห็นภาพรวมของข้อมูล จะได้รู้ว่า อะไรขาด แล้วต่อเติมอะไร เช่รน Model ผิดในที่ x เอา Data จาก x มาใส่

🚀 Generative AI มี Guard ของมัน

  • Model - เลือกให้เหมาะ มันจะมีเขียน use-case และมี Benchmark ตัดสินใจ
  • Safety System - เช่น Content Filtering / Content Safety
  • Metaprompt - Groufing ทำ System Prompt
  • นอกจากนี้ในส่วน User Experience

🚀 Agentic AI การทำ Agentic อารมณ์เหมือนกันวัดพนักงาน

  • ทำงานร่วมกันได้ไหม เป็นงานกลุ่ม เช่น Agent 1 เกิด hallucinations ส่ง input ให้ Agent 2 ทำงานผิด
  • data ที่ใส่เข้าไป
  • สิทธิที่ Agent ได้รับ
  • ตอบถูก ผิด เพราะอะไร จากการทำงานกลุ่ม สามารถอธิบายได้

Guideline ในการใช้ Agent แต่ละแบบจาก Microsoft

How Microsoft 365 Copilot revolutionize our daily workflows?

Speaker Pracha Chuacharoensiri

Microsoft 365 Copilot

Personal - ถามทั่วไปได้ แต่มันจะหาข้อมูลภายในยังไม่เก่ง
Enterprise

  • มี Solution จัดการข้อมูล ความปลอดภัย และใช้ข้อมูลในองค์กรได้ ดูไฟล์ / mail สรุป มี App ที่ใช้ AI ได้มากกว่า
  • ส่วน Microsoft 365 Copilot (Work) ข้อมูลมันจะทำ Index ไว้ใน Ms Graph เวลาเราหาอะไร internal มันจะวิ่งมาดูโพยในนี้ และมี Agent เล็กมาทำงานตาม Task ที่ได้รับอีกที เช่น สรุปประชุม จองนัดประชุม เป็นต้น

How it work (Start With Prompt)

  1. User Prompt
  2. หาข้อมูล Internal จาก MS Graph
  3. ปรับ Prompt และส้่งใน LLM Model ของ Azure หรือตั้งเอาจาก Azure AI Foundary ได้
  1. ผลลัพธ์จาก LLM
  2. ตัว MS Graph เอาข้อมูลที่จาก LLM มาทำ post process / grounding
  3. Copilot เอาผลลัพธ์ไปแสดงผล

Agent สร้างยังไง

ปกติใน Microsoft 365 Copilot มันจะมี Architecture โดยใช้ความสามารถจาก Foundation Model พวก GPT โดยถ้าใช้แบบ Declarative Agents จะมี Foundation Model / Orchestrator และ UX ส่วนอื่นอจาก Knowledge / Skill / Autonomy เป็นส่วนที่ต้องเสริมเอง

การสร่้าง Copilot ทำได้ 4 แบบ ตั้งแต่จากง่าย ไปยาก

  1. share point - เอาเอกสาร กฏระเบียบ ให้่ได้ Agent ง่ายๆ เช่น กฏระเบียบพนักงาน เอามาทำ Bot HR
  2. copilot studio (Simple)
  3. copilot studio (Workflow) มีขั้นตอนซ้บซ้อน มีการตัดสินใจ เช่น การสั่งสินค้า การ Support
  4. team toolkits

Business Value / Use Case

เอามาช่วยลดเวลา ได้หลายอย่าง ตามนี้ หลายแผนอาจจะอีกตาม KPI / OKR เอา Copilot มาตอบตามได้ เช่น

  • Sale เอา Copilot มาช่วยทำความเข้าใจลูกค้าเดิม และนำเสนอ Product / Service ที่เกี่ยวข้องได้
  • Customer Service เอา Copilot มาช่วยลดเวลาในการหาข้อมูลจาก KM / Response Time ไวขึ้น
  • หรือ IT Support เอา Copilot มาช่วยแก้ปัญหาที่เจอบ่อยๆได้ หรือมี playbook จัดการ ลองอ่านเพิ่มได้จาก Session นี้ได้มีเต็มๆ Reinvent Employee Helpdesk Experiences with Generative AI (Ignite After Party 2024)

Security

data เป็นของคุณ / ไม่ได้เอาไป trend ai / มีการทำ data protection ให้ / รวมถึงแยกส่วนของ Data ภายในองค์กร กับภายนอก

Resource: https://www.youtube.com/@TheCitizenAI

Build a Generative AI solution with MongoDB Atlas and Azure OpenAI

Speaker Piti Champeethong / Jirachai Chansivanon

ตอนนี้ Generative AI มีหลายค่ายทั้ง ChatGPT / Gemini / Claude / Deepseek เวลาที่เราถาม มันจะได้ข้อมูลตามที่มันได้เรียนมาแล้วตาม ณ เวลาหนึ่ง โดยเอามาจากข้อมูลที่ Provider ไปหามา

แต่มันไม่รู้ว่า ข้อมูล Private ของเรา หรือข้อมูลที่เฉพาะเจาะจงไป พวก AI มันจะตอบยังไง อาจจะมโน หรือเอ๋อไปเลย ถ้าจะตอบข้อมูล Private มีอีกเทคนิค RAG

ก่อนมันทำแบบนั้นได้มีขั้นตอน

  • Load > Private Data เข้า DB โดยต้องมีตัวแปลง แยกตัวหนังสือ รูป โดยตัวอักษร ทำ Text Embedding เอาลง Vector DB (แปลงตัวอักษร เป็๋นตัวเลข Vector)
  • คนใช้ ระบบต้องแปลงคำถาม Text Embedding มาเป็น Vector แล้วให้มัน ไปทำ Similarity Operation ใน Mongo DB Atlas ตอนนี้ได้ตัว R แล้ว
  • และ เอา Generative AI มาช่วยแปลงผลลัพธ์ให้สวยๆ ทำตัว AG มาให้ครบ

Demo: TypeScript bun Elysia + Mongo DB Altas + Embedding Model text-ada-002 + GPT Model 3.5 / 4 ที่วิ่งคุยกับ AI
Resource: https://github.com/antronic/My-RAG-AI-Isn-t-That-Hard-to-Build

Beyond the Hype: The Importance of Analyzing AI and Automation Benefits

Speaker Kanokkorn Prasongthanakit

ตอนนี้ AI จำเป็นทุก Case หรือ ป่าว ?

⏩Speaker ได้ลองยกตัวอย่างการที่เราเอา AI มาทำงาน Automation (Automate Task / Decision-Making โดยเอา AI มาช่วย) แล้วมี Use-Case AI Automation ที่ขาด Human In The Loop อะไรที่มันอิหยังบ้าง เช่น

  • การแปล งานเสร็จ แต่ความหมายผิด
  • เขียน mail ดูเหมือน Bot เกินไป กลายเป็นว่าคนอื้่นรู้สึกไม่ดี
  • wacom บ ขายปากการวาดรูป แต่ดันเอา AI Gen
  • เคสภาพไม่ได้สัมพันธ์กับรูปเลย คำบรรยาย Chocolate
  • การใช้สิทธิ AI ไปทำงานแทนเรา ถ้ามันผิดพลาดขึ้นมา อันนี้ใครผิด
    - Trade หุ้น / crypto จะโดยหลอก หรือหมดตัว
    - Self Driving Car ชนคน
    - App ให้คำปรึกษาโรคซึ้มเศร้า แต่ที่ AI ให้คำแนะนำมันหนักกว่าเดิม

⏩งานอะไรที่ควรให้ AI ทำ

งานที่ Process ชัดเจน กินเวลา และมีรูปแบบซ้ำๆ

⏪งานอะไรที่ควรคิดเยอะๆ ก่อนให้ AI ทำ

  • High Impact ผลกับชีวิต หรือ เงิน
  • Need Accountability - ต้องมีเจ้าภาพ ถ้ามีผลแล้ว ต้องรับผิดชอบนะ เคส Self Driving Car คนนั่งที่คนขับมาเป็นเจ้าภาพ
  • Need Human Touch - เคส App ที่ให้คำปรึกษาซึ้มเศร้า ถ้า AI มันไม่ OK คนต้องเข้ามาเสียแทนได้ หรือใกล้ตัวหน่อยก็ Call Center

ถ้าจำเป็นต้องใช้จริง ให้ Human In the Loop เสนอร่วมตัดสินใจ และกำหนด Limit

มี AI Tools มากมาย ใช้อะไร

📌AI Tools เช่น Power Automate / n8n / make / zapier เน้นไปทาง Low Code

📌แนวทางการเลือก

  • Ecosystem เชน ต่อ line ง่ายไหม
  • Security
  • Flexiblity
  • Cost
  • Ease of Use / Community Support

ก่อนจะใช้ AI Business Flow ต้องแน่น

ก่อนทำ AI เราต้องมี Process ที่ชัดเจน เอา AI เข้ามาแทรก เพื่อช่วยงานบางตามเงื่อนไขข้างต้นได้ โดยดู use case ของ AI ให้เหมาะสม เช่น ให้ Extract Text จากรูปเอกสาร อาจจะไม่ต้องใช้ GPT เอาตัวอื่นๆที่ถูกกว่าได้

เพราะ ถ้า Business Flow ไม่แน่นอน กลายเป็นว่าลงุทนไปแล้วเสียของ

และสุดท้าย เราวัดผลว่า AI work ไหม มาจากรายได้ กำไร ที่เพิ่มขึ้น หรือ ค่าใช้จ่ายที่ลดลงได้

From nothing to full AI applications with Semantic Kernel in .NET 9

Speaker Emiliano Montesdeoca

ปัญหาของ App ตอนนี้มันทื้อ ไม่มีสร้างความรู้สึกแบบที่เราคุยกับคน การปรับอะไรยาก

แนวทาง ตอนนี้มี AI มาแล้วที่มาช่วยให้ App มันตอบสนองได้ง่ายขึ้น ด้วย Data ของเรา (RAG) และตัว App เดิมต้องใช้งานได้ง่าย เลยนำเสนอ Framework AI ของ Microsoft ชื่อ Semantic Kernel ตอนนี้มีสำหรับ C# / Python / Java

Demo สำหรับอันนี้จะเป็น Simple Chat Bot ของรัาน Pizza โดยกับ LLM OpenAI จากนั้นมาดูว่ามันต้องกัน Set Task (Plugin) ที่เรารองรับในส่วนไหน

  • PizzaMenuPlugin
public class PizzaMenuPlugin
{
    [KernelFunction("get_available_pizzas")]
    [Description("Retrieves the list of available pizzas with their details")]
    public async Task<List<Pizza>> GetAvailablePizzasAsync()
    {
        return new List<Pizza>
        {
            new Pizza { Name = "Pepperoni", Ingredients = "Pepperoni, cheese, tomato sauce", Price = 12 },
            new Pizza { Name = "Margherita", Ingredients = "Tomato, mozzarella, basil", Price = 10 },
            new Pizza { Name = "Hawaiian", Ingredients = "Ham, pineapple, cheese", Price = 11 },
            new Pizza { Name = "Vegetarian", Ingredients = "Mushrooms, peppers, onions, olives", Price = 13 }
        };
    }
}
  • PaymentPlugin
  • ShoppingCartPlugin

และใส่ให้ สมอง (Kernel) รู้จัก

var kernelBuilder = Kernel.CreateBuilder();

kernelBuilder.Plugins.AddFromType<PizzaMenuPlugin>();
...

แล้วที่นี้พอเรา Chat แล้วถ้ามันตรงกับ Plugin ที่เราไปบอก AI ไว้ ผ่านทาง Attribute [KernelFunction("you word to tell ai")] มันจะ Trigger ขึ้นมาให้ทำงานต่อ

Resource: https://github.com/emimontesdeoca/global-ai-2025-bangkok

Voice Assistance: How can we develop streaming generative AI?

Speaker Witthawin Sripheanpol

LLM มันเป็น NLP พวก Q&A input text > result text ตัวมันเอง มี Process ข้างหลังเยอะมาก ใช้ Compute สูงด้วย กว่าจะได้ผลลัพธ์ออกมา และ Realtime มันเร็วๆ เพราะยัด Compute ให้เยอะๆ Scale ตัวระบบนั้นเอง

ความท้าทาย ถ้าเปลี่ยนเป็นอย่างอื่น เสียง ทำยังไงให้ไว

☄️ตอนนี้ LLM (Text) ทำอย่างไร ?

อีก pain นึง LLM เวลาเราถามไปต้องรอมันตอบ แล้วต้างไป เราพิมพ์แทรกไม่ได้ด้วยนะ รอมันทำที่ละตัวจนครบ เพื่อไม่ให้ user รู้สึกไม่ดี เอา Streaming output ค่อยพ่นออกมา M ….. จนครบ

☄️ทำยังไงให้ LLM เก่ง

เพิ่มความสามารถให้ LLM โดยมี Keyword ตามนี่

  • Memory จำ Context เดิมที่คุยกันไว้
  • Tools - เครื่องมืออื่นๆ เช่น Search Engine หรือ AI อื่นๆ ไปทำ Chain of Thought เพิ่ม
  • Knowledge - เอา KM ที่ทเฉพาะเจาะจงขององค์กร เช่น การทำ RAG / Vector DB

แต่การคุยต่อกันยังไม่ได้เป็น Streaming อันนี้เป็นโจทย์ที่ให้ปรับอยู่ แบบรวมทั้งหมดยัดลง LLM ไหม ? ตอนนี้ ภาพของ LLM > Agent ตอนนี้

☄️ทำยังไงให้ LLM รู้จักเสียง

ใช้ Auto Speech Recognition (ASR) รับเสียง >> ตัวอักษร ส่งให้ LLM มีหลาย Model phi4 / Whisper OpenAI แต่ถ้าไม่อยากให้รอง ต้องทำให้เป็น Streaming ลดการรอการทำงานโดยมี 2 แบบ

  • เอา Model ที่ Streaming
  • หรือ ตัดไฟล์ให้เล็กลงเป็น Chunk แยกจากช่วงที่หยุดพูด แต่ต้องมี Buffer คั่น อารมณ์คิวคั่นก่อนทำงาน

☄️ถ้าจะให้ AI ส่งเสียงต้องใช้ TTS (Text to Speech)

ภาพตอนนี้ near realtime แต่จะให้ AI ส่งเสียงต้องใช้ TTS (Text to Speech)

TTS - ตอนนี้มีความท้ายทายอยู่นะ มันต้องส่งเป็นคำให้ TTS ทำงาน

  • ถ้าส่งที่ละตัวอักษร ไปเสียงที่มันอ่านออกมา มันไม่ Work อี เอ ที ไม้ได้ อีด (eat)
  • การแยกเป็นคำอันนี้ให้ LLM มันแยกให้ บอกใส่อักขระพิเศษบอกว่าจบคำแล้ว

ตอนนีมีอีก Idea ยัดทุกอย่างลงไปใน Model ทำ Voice to Voice LLM เลย

Resource: https://drive.google.com/file/d/1BZEUIjNTbCoy06Jp8cRr2RhJwTqP6KLc

ส่วนตัวผมชอบ 2 Session สุดท้ายนะอันแรก Real ดี ให้เห็นว่ามันทำยังไง ส่วนอีกอัน มันภาพ architecture ของระบบนึง แล้วเปลี่ยนเอา AI มาใส่ที่ละจุดเลย ช้ามีเพิ่ม Buffer เพิ่ม message queue

ถ้าสนใจสรุป meetup งานอื่นๆติดตามได้จากหน้า Meetup Note/Share ครับ

Live

FB Live: https://www.facebook.com/SparkTechTH/videos/640456908935080

Reference


Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.