Data Sci Boot Camp Batch#11: Intro to Data Science

อย่างแรกเลย การตั้งคำถาม เป็นทักษะที่เปิดมุมมอง Solution ที่เป็นไปได้ได้เลย เช่น

  • How to eat more hotdogs ?
  • How can I make hotdogs easier to eat?

การเรียนรู้ที่ดีที่นสุดที่สุด คือ การที่เรากระหาย อยากเรียนรู้เอง

First Principles Thinking - แก้ปัญหาในถึงราก ไม่ใช่ไปแก้ตาม Effect ยกตัวอย่าง เช่น

  • การศึกษา อาจจะต้องแก้ให้คนอยากเรียนรู้เอง จะได้เริ่ม Trigger ส่วนอื่นๆตาม
  • สงตรามการค้า ตามข่าวขึ้นภาษา การแก้ อาจจะต้องแก้ที่ตัว Trump

ดังนั้น

Big data

ก่อนมาจะมา AI มันมีคำนึงที่ดังมาก เลย Big Data โดยเจ้า Big Data ข้อมูลที่ช่ายอย่างน้อย 3V (Volume / Velocity / Variety) โดยจะเอาอะไรมาเก็บ ต้องมีคำตอบก่อนว่าจะทำอะไร

นอกจากนี้่ส่วนที่ทำให้เกิด 3V มาจากเทคโนโลยีที่ดีขึ้น เช่น

  • Storage จากเดิม 5MB ขนาดใหญ่เท่าห้อง ตนนี้เหลือเพิ่งผ่ามือได้แบบ 5TB แล้ว รวมถึงตอนนี้ยัง Data ที่เก็บไว้ใน Cloud ได้ อย่างตัว S3 ราคาต่อ GB ประมาณ $0.023 แต่มีรายละเอียดปลีกย่อยอื่นๆ เช่น รูปแบบการ Access / ราคา Transfer ข้อมูล
  • Compute ที่ดีขึ้น ตอนนี้มี CPU ที่แบบเฉพาะงานมากขึ้น อย่างตัว Tensor Processing Unit ที่เน้นสำหรับงานใช้ Data / AI เยอะๆ

Data Big แค่ไหนถึงจะพอ ?

ลองดูตามตัวอย่างแล้วกัน หนังสือ Data Smart หนังสือใช้ Excel ทำ Model AI ต่างๆ เช่น Clustering K-Mean //โหดแท้

Key จริงๆทีแอดทอยเล่า จากหนังสือเล่มนี้คนเขียนที่ทำงานใน MailChimp ถ้าแม้ว่าเราจะมี Data เยอะ แบบระดับ TB / PB แต่จริงๆ Data ที่เราเอามาใช้กับคำถามของเราจริงๆมีเท่าไหร่กันแน่ อย่างในส่วนของ MailChimp จริงๆแล้ว Data ที่ต้องการมีแค่ 10 GB ที่เอามาใช้ต่อทำ Model จากหลาย TB

ถ้าเราเลือก Data ที่ตรงความต้องการจะช่วยลด Cost ได้เยอะ (Small Data) Ref: https://www.amazon.com/Data-Smart-Science-Transform-Information/dp/111866146X

นอกจากนี้การที่เ้ราเตรียม Data เรายังหา Data จากรอบๆตัวเราได้ เช่น การใช้ Google Trend หา Market Research ได้ จาก Keyword ที่ค้นหา แต่ถ้าไปถาม AI ข้อมูลส่วนนี้จะลดลงนะ

หน้าที่ของ Data Analyst ?

หน้าที่ของ Data Analyst ทำให้ Data ที่ยุ่งๆ เอามาจัดให้มีรูปแบบที่ชัดเจน เพื่อมามาหา Insight ได้

What is Data Analytics - แล้วอะไร คือ Data Analyst ?

Data Analyst / Analytics - เปลี่ยน Data > Insight โดยเกิดจากการที่เราเอ๊ะตั้งคำถาม ซึ่งรมการแบ่งรูปแบบ Value ที่ได้ ดังนี้

  • Descriptive Analytics (What Happened ?) - อดีตเป็นยังไง
  • Diagnostic Analytics (Why it Happened ?) - ทำไมอดีต ถึงได้เป็นแบบนั้น
  • Predictive Analytics (What will Happened ?) - อนาคตเป็นอย่างไร เช่น พุ่งนี้
  • Prescriptive Analytics (What should we do about it ?) - แล้วเราจะรับมือกับมันอย่างไรดี เช่น Predictive Analytics บอกฝนจะตกหนัก อันนี้เรารับมือ เช่นยกเลิกการโปรโมทสินค้ากลายแจ้งไป Live เป็นต้น
  • Cognitive Analytics - นำเสนอโดย Microsoft ช่วง 2016-2018 โดยจะเน้นไปในการส่วนคอมพิวเตอร์ เข้ามาช่วยงานเรามากขึ้น เป็น Agent ตอนนี้จะเป็นเจ้าตัว Chat GPT ที่เปิดตัวมาตอนปลายปี 2022

ปัญหาที่แอดเล่า เราก้าวข้ามไป Basic ไปเลยกระโดดไปทำ Predictive ทั้งที่องค์กรยังไม่มีคนมาทำ Prepared Data > Dashboard หาความสัมพันธ์ของการตอบ 2 คำถามข้างต้นก่อนเลย เลยเป็นจุดนึงของการ Fail Data Project

AGI vs ANI

  • Artificial General Intelligent - คอมพิวเตอร์ทีทำงานได้เหมือนคนเราทุกอย่างเลย ฟังรอบแรกโดราเอม่อน หรือตัว Terminator
  • Artificial Narrow Intelligent - คอมพิวเตอร์เก่งด้านใดด้านนึง เช่น Model ที่ทำการปล่อยกู้ / ทำนายราคาหุ้น มันจะเก่งในเรื่องนั้นๆ เรื่องเดียว

ตอนนี้พวก Agent เป็น AI นะอย่าเวลาเราบอก Hey Google (Wake word) Model แรกทำงานแล้ว ต่อมามีอีก Model มาฟังสรุปว่าเราต้องการอะไร (Intent) และสุดท้าย อาจจะอีก Model เข้ามาทำงานตาม Intent เช่น สรุปข้อมูลในเมล์ให้หน่อย

แต่ตอนนี้ Model ยังไม่ได้น่าเชื่อถือ 100% นะ

จุดเริ่มต้นของ AI มันค่อยดังๆมาจาก ปี 2012 ที่ทางคุณ Andrew NG ใน Google Brain (Google X) เดิมเอา VDO ให้ AI มันหา Pattern มันได้ Pattern รูปแมวมา แต่ AI มันไม่รู้ว่าเป็นแมวนะ นอกจากนั้นในปีนี้มัน Coursera เกิดขึ้นด้วยนะ

Data Roles

จากทั้งหมดมาแบ่ง Role ที่เกี่ยวข้องกับ Data ดังนี้

  • Data Engineer - เน้น Code ทำ Data ให้ง่ายสะดวก
  • Data Analyst - จะยุ่งกับ 2 ขั้นแรก Descriptive Analytics / Diagnostic Analytics ซึ่ง data ส่วนใหญ่ยังเป็น Structured Data อยู่

มุมของแอดทอย Business Analyst จะเป็น subset ใน Data Analyst

  • Data Scientist - จะยุ่งกับ Predictive Analytics / Prescriptive Analytics ข้อมูลที่ซับซ้อน จะไปในทาง Unstructured Data มากขึ้น ชอบที่แอดบอก งานนี้พบ user / นำเสนอมากกว่า technical อีก
  • ML Engineer - เรามาเป็นผู้สร้าง Model ให้ใช้แล้ว

แต่งานจริง กับ scope อาจจะไม่ตรงกับ position นะ

AI / ML / Deep learning เราอยู่จุดไหน

Case Study 1 : Target Retail มาเดาว่าลูกค้าคนไหนท้อง

ปกติที่เอา AI มาใช้เป็นส่วนของ Retail พวก 711 / Lotus Express

Idea ถ้ารู้ว่าท้อง จะส่งส่วนลดไปให้ จะให้ลูกค้าเค้าอยู่กับเรายาวๆ ไปสาขาที่ใกล้ที่สุด แต่อันนี้เคส Study สมัย 20-25 ปีแล้วนะ โดยไปจับจาก Pattern การซื้อสินค้า เช่น การซื่อสำลี วิตามิน

Problem มันไม่มี Filter ตรวจ ระบบส่งไปบอกครอบครัวว่าท้อง แต่อันนี้จบลงด้วยดึ อาจจะต้องระวังนิดนึง แต่อันนี้เห็นความเจ๋งของ AI ในยุค Stat ที่ทำได้ขนาดนี้แล้ว ส่วนการแก้ปัญหาในบ้าน อาจจะส่ง Coupon อื่นๆปนๆไปด้วย แต่ต้องคำนึงต้นทุนที่ใช้ กับรายได้ที่คาดว่าจะได้รับด้วย

ML ในนี้ - Binary Classification (Logistic Regression) บอก T/F ตามค่า probability ที่ Model แจ้งมา ต้องมาหาจุดตัดว่า P เท่าไหร่ถึงจะ True / False โดยการวัดผมใช้ตัว Confusion Matrix (TN / TP / FN / FP) โดยที่ตัว (TP + TN) / total จะได้ Accuracy ของ model

ความท้าทายของเคสนี้ มันไม่มีอะไรเลย ต้อง Build ตั้งแต่การเก็บ Data จนไปถึงการทำนาย

ตัวอย่างที่คล้ายๆกัน Churn Prediction ของพวก Mobile Operator

Case Study 2 : Tesco / Dunnhumby

โจทย์ ทำยังไงก็ได้ให้เข้าใจลูกค้า

ตอนนี้ปี 1995 นะ โดยเอา Idea Clubcard มาใช้ โดยเก็บข้อมูลเล็กน้อย เช่น id / customer / date / product / amount และให้ Dunnhumby หา Insight และให้ฝั่งบริหาร take action

ตอนทำ Dunnhumby ทำกลายเป็นว่าเข้ามาไม่กี่เดือนรู้มากกว่า คนที่อยู่ใน Segment นั้นมาหลายๆปี

What scares me about this is that you know more about my customers after three months than I know after 30 years.

Lord MacLaurin, https://en.wikipedia.org/wiki/Tesco_Clubcard

ตอนนี้จะกลายเป็น Loyality Campaign > Strategic Data Acquisition ได้ Data มาทำโปรโมชัน และอาจจะไปต่อรองกับ Supplier ได้นะ โดย Idea นี้ตอนนี้เอามาทำ Market Basket Analysis (apriori) - มาวางแผนต่อ ซึ่่งไม่ได้คำนวณเยอะ ใช้ Idea Ockham's Razor (Simple เรียบง่าย)

  • ใช้หลักการนับ และเอามาหาสัดส่วน % ของแต่ละ Product
  • จากนั้น เอามาดูทีละตู่อะไรที่ขายดีที่สุด

แล้วเอามาจัดโปรต่อได้ แต่ถ้าเยอะๆใช้คอมสิ โดยปกติพวก Algorithm จะมี apriori ออกมาเป็นค่า Support จะแต่ละชื่อมีโอกาศหยิบต่อเท่าไหร่

ตอนนี้เรารู้อีกเรื่องว่า Big Data = What / Small Data = Why

Case Study 3 : Netflix

Netflix ทำ Hackaton หา Model แนะนำหนัง โดยให้แต่ละคนส่ง Model ของตัวเองเข้ามาประกวด การตรวจง่ายๆ แนะนำไปแล้ว คนดูไหม โดยถ้าทำ Model ได้ดีกว่าทีม Netflix 10% รับเงินไปเลยล้านเหรียญ

สุดท้ายกลายเป็นว่า 5 อันดับแรก มารวมทีมกันสู้กับ Netflix - Ensemble Model เอา Model เล็กๆมารวมๆกัน แล้วทำให้ performance ดีกว่า

ทุกคนอาจจะคิดว่า Model นี้อาจจะได้ถูกใช้งาน แต่ความจริง มันไม่ได้ถูกใช้งานกับ Business เลย เพราะ มันไม่คุ้มกับการลงทุน ดันใช้ Cost สูงกว่า กำไร หรือ รายได้ที่จะได้กลับมา (ROI) ต้นทุนในการปรับ architecture ระบบมันแพงกว่า

อีกมุมนึงเรียกว่าา Cost / Benefit Analysis เราที่ทำ Data ไม่ใช้สนใจ Data อย่างเดียว ต้องคิด Business Case ที่เกี่ยวข้องด้วย

Data Analyst Workflow & CRISP-DM

ปกติแล้วจะมี Flow ทั่วไปตามนี้

DATABASE <---> DATA ANALYST <--> TMP DB -----> PROCESS ----> PRESENTATION (Dashboard)
                                CSV / DB    (Find Insight)

อย่างแรกเลยต้องรู้ว่า Data เราอยู่ในไหน Database แบบไหน RDBMS / No SQL / File อะไรบ้าง และเรามีสิทธิอะไรบ้าง

  • ถัดมาดึงข้อมูลบางส่วนออกมา ไม่ว่าจะเป็น csv / stream หรือ ย้ายลงมาลง tmp
  • จัดการข้อมูล หา Insight และอาจจะมีทำ Dashboard นำเสนอ

นอกจากนี้ยังมี CRISP-DM (CRoss Industry Standard Process for Data Mining) - 1970 ที่เป็น Framework ที่ IBM ทำมา เพื่อใช้ในการพัฒนา Data Mining (ตอนนี้มันโดนกลืนไปด้วย Big Data / Machine Learning / AI แล้ว) ผมเองได้ยินคำนี้รอบสุดท้ายสมัย 11-12 ปีก่อนตอนเรียน ป ตรี เลย โดยมีนจะเริ่มจาก

  1. Business Understanding
  2. Data Understanding
  3. Data Preparation
  4. Modeling
  5. Execution
  6. Deployment

มันคล้ายๆ Flow Simple ML Pipeline นะ ซึ่งถ้าอิงจาก CRISP-DM ข้อที่ 1-3 ใช้เวลาไป 70-80% ของทั้งหมดเลย และตอนนี้นอก CRISP-DM มีอีกหลาย Model Analytics Solutions Unified Method (ASUM) / Obtain Scrub Explore Model iNterpret (OSEMN)

Case Study 4 : Cambridge Analytica (Project Alamo)

Cambridge Analytica เอาข้อมูลผู้มีสิทธิเลือกตั้ง (Voter) ปธน USA 2016 สมัย Trump มาทำ Big Data ข้อมูลใน Netflix มีสารคดี The Great Hack เกี่ยวกับเรื่องนี้ด้วย ที่เอา Data จาก Facebook ออกมาทำ DB ของ Voter เก็บข้อมูลส่วนบุคคลลักษณะนิสัยเป็นต้น โดยแง่ Marketing จะมี Keyword Customer Data Platform (CDP) และข้อมูลส่วนนี้เอาไปขายได้ด้วยนะ เรียกว่าเป็น Data Broker

นอกจากนี้ Cambridge Analytica รับงานแนวๆ IO สร้างความเชื่อบางอย่างในผู้คนใน FB เช่น ให้คนเชื่อว่าจะมีคนต่างชาติ เข้ามาแย่งงาน ชาวอังกฤษ ทำให้คนอังกฤษ Brexit เยอะขึ้น แต่ Fact จริง มันขัดกับข่าว IO

จริงแล้วก่อนที่ Cambridge Analytica ทำ ในสมัยโอบาม่ามีการเก็บข้อมูลมาแล้วนะ

และมี Insight อีกอย่างว่า ถ้าใช้นำใน Google Trend แสดงว่าคนๆนั้น มีโอกาศเป็นประธานาธิบดีสูง ถูก Search มากกว่า หรือ ลำดับการคนหาขึ้นก่อน แอบสงสัยถ้ามายุคพวก ChatGPT แล้ว Fact ตรงนี้มันยังใช้ได้ไหมนะ และนอกจากนี้ Google Trend อาจะไป Predict ยอดขายได้นะ

Will AI Replace My Job?

แอดทอยมองว่า AI (Augmented Inteligent) ตัว AI มันจะมาช่วยให้เราฉลาดขึ้นนะ ไม่ได้แทนที่เรา แต่ AI มาช่วย และคนเราตัดสินใจตอนสุดท้าย ฟังแล้วคุ้นกับอีก Blog ใน National Coding Day 2024 ลองอ่านกันได้

How to Learn

แอดแนะนำให้ลองไปอ่าน Blog

พักผ่านให้เพียงพอ สมองมันพร้อมซ่อมตัวเอง ขจัด Cache ที่ค้าง พร้อมรับความรู้ใหม่ๆ สั้นๆ

  • Good Sleep
  • Good Food
  • Good Exercise
  • Drink a lot of water
  • Good Community
  • Step By Step ไปทีละขั้น

Final Case Study: Money Ball

ในหนังจริงๆ มาจากเรื่องจริงของทีม Oakland A's จากทีมที่อยู่ท้ายๆ เลยเอาเงินทุนไปจากนักเศรฐศาสตร์เอาข้อมูลมาทำ Regression หาดูว่าใครสถิติดี แต่ค่าตัวถูก (Linear Regression) นั่นมันเทคนิคหาหุ้นถูกเลยนี่หว่า แล้วไปลงทุนจ้างคนเหล่านั้นมาเข้าทีม จนกลายเป็นทีมกลับมา ดังสุดขีดภายในปีเดียว

ลองหาดูมีคนอธิบายด้วย https://medium.com/@krishnapiryakm/linear-regression-in-moneyball-explained-b27554fccc8c เหมือนเอามาทำ Right Solution with Right Problem

ปิดท้ายตอนนี้เราจะเป็น Generalism แบบใน Blog ตอนแรกแล้ว ยิ่งเรารู้มาก จะทำให้เรามี insight มากขึ้น เป็น Data Sci ผสม Hacking Skill (Computer Science) + Maths & Statistics + Domain Expertise (Business)


Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.