Category Data Science

สรุปงาน Python/Hadoop for Young Data Scientist

ภาพจากเพจ Data Science Thailand https://www.facebook.com/DataScienceTh/photos/a.876705342372714.1073741831.869639369745978/1145673978809181/?type=1&theater

เมื่อวันเสาร์ อาทิตย์ที่ผ่านมา (20-21 สิงหาคม 2559) ผมได้ไปงานสัมมนา Young Data Scientist ครับ โดยงานนี้เป็น Course เริ่มต้นสำหรับผู้ที่สนใจในเรื่อง Data Science ครับ อ๋องานนี่จัดเป็นครั้งที่ 2 แล้วนะ สำหรับงานนี้จะเน้นในเรื่อง Python กับ Hadoop ครับ สำหรับผมที่เป็นสาย Developer อยู่แล้ว ขอเลือก Python ครับ (ตัว Hadoop เคยลอง Set up เล่นๆใน vm แล้ว แต่ถ้าในงานนี้เป็นการเล่นบน MS…

Data Science 0.121

Data = ข้อมูลดิบ ทำอะไรได้บ้าง ? ภาพนี้คงตอบได้หมดครับ ถ้าเรามีการจัดการกับข้อมูลที่ดี เราสามารถใช้ประโยชน์จากมันได้เต็มที่ครับ ถ้า Data เป็นวัตถุดิบที่ป้อนเข้าโรงงาน Information, knowledge, Insight และ Wisdom เป็นผลิตภัณฑ์ (Product) ที่ได้จากกระบวนการในขั้นตอนต่างๆครับ แล้วข้อมูลแต่ละแบบ บอกอะไรเราบ้าง ? ลองมาดูอีกมุม – Mind Map vs Mega Mind Map – Transaction Processing vs Event-Based Processing – อะไรที่ทำให้ Data Science ดัง…

[Digital Thailand] Big Data in Business

บทความนี้ก็แตกออกมาจาก Blog “สรุปจากงาน Digital Thailand 2016 ครับ”  ขอสรุปสิ่งที่ได้จากการฟังสัมมนาในงาน Digital Thailand วันที่ 28-May-2016 ครับ ใน Section แรกมาจาก “Turning Big Data Into Personalized User Journeys” โดย Mr. Kevin Jackson, Global Sales Director of Gravity R&D แนะนำ Gravity R&D เป็นบริษัทที่สร้างระบบ Recommend แนะนำ หรือสนับสนุนการตัดสินใจ Fortune 500 (บริษัทที่ใหญ่ที่สุด…

Small Data vs Big Data

บทความตอนนี้จะขยายมาจากที่ไปฟังสรุปงาน Big Data Conference ครับ จากที่ผมเคยได้บินคำว่า Big Dataมาตั้งแต่ตอนสมัยเรียนปี 4 ผ่านมาแล้ว 3 ปี เห็นคนพูดว่า Big Data อะไรอะไรก็ใหญ่ไปหมด แต่เราไม่รู้มันใหญ่แค่ไหน ถ้ามันไม่ได้เริ่มจากสิ่งเล็กๆ ใช่ครับ Big Data มันใหญ่ได้ ก็ เพราะ มี Small Data แล้ว Small Data มัน คือ อะไร ไม่เคยได้ยินเลยยย จริงๆแล้วมันอยู่รอบๆตัวเรา เจ้า Small Data เนี่ย มันมาตั้งแต่ที่มีฐานข้อมูลในยุคที่ระบบไฟล์ มาจนถึง…

สรุปงาน Big Data Conference 2016

เมื่อวาน ผมได้ไปหางาน Big Data Conference ไปหา Idea ใหม่ และหาคำตอบให้กับตัวเอง ด้วยว่าเราเรียน ป โท Computer Science ที่จุฬา ดีไหม ? มาเข้าเรื่องกันเลยดีกว่าครับ Section 1 : Going Intersteller?: The Truth Behind the Cloud โดยคุณ Rawitat Pulum อะไร คือ big data เราสนใจอะไร ทาง อ มองต่างจาก 3V มาเป็น 4S Space…

Neural Network with WEKA รวมปัญหาที่เกิดขึ้น

ในระหว่างที่ทำตาม Workshop: Neural Network with WEKA หลายๆคนอาจจะประสบปัญหาในระหว่างการทำงาน ผมเลยได้รวมรวมข้อมูลไว้ ดังนี้ครับ ปัญหา Train and test set are not compatible สาเหตุ: เกิดจากไฟล์ .arff ของเรามีส่วนการประกาศ attribute ที่ไม่เหมือนกัน หรืออาจะมี Character บางตัวแปลกปลอมอยู่ในไฟล์ ฉบับภาษาอังกฤษ 1.Make sure that the train and test sets have EXACTLY the same attributes…

Neural Network with WEKA [Deploy Model]

เมื่อเราได้ Model แล้ว ขั้นตอนต่อไป คือ นำ Model ของเราไปใช้กับข้อมูลจริงๆ ที่อาจจะมาจากแบบสอบถาม, ข้อมูลการรายการซื้อ-ขาย เป็นต้น โดยในที่นี้เราจะมีข้อมูลของกลุ่มตัวอย่างที่ได้จากแบบสอบถาม เพื่อนำมาทำนายว่าพวกเขาเหล่านั้นซื้อจักรยาน หรือไม่ครับ เอกสารประกอบการทำ Workshop นะครับ [wpdm_file id=4] ข้้นตอนการทดสอบง่ายๆ ดังนี้ครับ เตรียมไฟล์ข้อมูลที่ได้ให้เป็น format ที่เหมาะสม คือ ไฟล์ .arff โดยสำหรับ Attribute purchaseBike เราไม่ทราบค่า ให้ใส่เป็น ? เพื่อบอกโปรแกรม ดังรูป นำไฟล์ที่ได้ไปทดสอบตาม Neural Network with WEKA…

Neural Network with WEKA [Verified Model]

หลังจากได้ Model มาแล้วสิ่งที่เราต้องทำต่อไป คือ การนำโมเดลที่ได้นั้นมาตรวจสอบความถูกต้อง และนำไปผลที่ได้ไปปรับแต่ง Model ของเราจนได้ผลลัพธ์ออกมาเป็นที่น่าพอใจแล้วนำไปทดสอบกับข้อมูลจริงๆ โดยการตรวจสอบ Model ที่ได้มานั้นมีขั้นตอน ดังนี้ เปิดโปรแกรม WEKA และทำการ load model ที่ได้ save ไว้ขึ้นมาจาก Blog ตอนที่แล้ว มาตั้ง Test Options (ไม่แน่ใจมาจาก sense เพราะมันไม่มี doc ให้อ่าน) Supplied training set: เปิดไฟล์ data ที่เราจะมา Test กับ Model <<เลือกอันนี้>>…

Neural Network with WEKA [Create Model]

หลังจากเรา เตรียมข้อมูล เรียบร้อยแล้ว ขั้นตอนต่อมา คือ การสร้าง Model โดยทำต่อไปตามขั้นตอนเลยครับ มาที่ tab Preprocesses >> open file >> เลือกไฟล์ Customer_for_std_train.arff จะพบข้อมูลขึ้นมา โดยเราสามารถที่จะไปกดดูกราฟ เพื่อที่จะทำการดู กราฟ และสถิตต่างๆได้ ส่วนที่ 1: แสดง background ของข้อมูล ว่ามาจากไล์อะไร มีกี่ record ส่วนที่ 2: แสดง Attribute ทั้งหมด โดยเมื่อเราเลือกไปที่ตัวไหน จะมีรายละเอียดในสวนที่ 3 ส่วนที่ 3: แสดงสถิตพื้นฐาน และกราฟ…