4 เทคโนโลยีสอน AI ให้เรียนรู้โลกกว้างจากวีดีโอ

Sertis
9 เม.ย. 2564
ยาว 2 นาที

คำว่า Artificial Intelligence (AI) นั้นหากแปลเป็นไทยจะมีความหมายว่า ‘ปัญญาประดิษฐ์’ ซึ่งเป็นชื่อเรียกที่แสดงให้เห็นถึงจุดประสงค์ของการสร้างเอไออย่างชัดเจน ทีมพัฒนาเอไอที่ทำงานกันอย่างหนักทั่วมุมโลกต่างมีเป้าหมายเดียวกันคือ เพื่อพัฒนาเอไอให้มีความสามารถในการเรียนรู้ ตัดสินใจ คิดหาทางออกในแบบที่เหมือนมนุษย์เรามากที่สุด หรือพูดอีกอย่างคือมี ‘ปัญญา’ ที่ ‘ประดิษฐ์’ ขึ้นมาได้ใกล้เคียงมนุษย์ที่สุด

หนึ่งในความพิเศษของสิ่งมีชีวิตคือเรามีกระบวนการเรียนรู้เรื่องต่างๆ ด้วยตนเองผ่านสิ่งรอบตัว มนุษย์เราเองก็เรียนรู้จากโลกและผู้คนที่เคลื่อนไหวอยู่รอบ ๆ ซึ่งนี่แหละเป็นภาพในอุดมคติที่ทีมพัฒนาหวังให้เอไอทำได้

ปัจจุบันเอไอก็พัฒนาขึ้นไม่น้อย จากที่เคยเรียนรู้อย่างจำกัดอยู่แค่สิ่งที่มนุษย์ป้อนให้ ก็พึ่งพามนุษย์น้อยลงเรื่อย ๆ ข้อมูลที่ใช้ในการเรียนรู้ก็เริ่มจะหลากหลายขึ้น จากแค่รูปภาพ ก็เริ่มเรียนจากการมองเห็น จากเสียง และจากภาษาของมนุษย์ได้

ความท้าทายล่าสุดที่บริษัทเทคฯ ยักษ์ใหญ่หลายที่กำลังพยายามจะก้าวข้ามให้ได้คือ การสอนเอไอให้เรียนรู้ด้วยตัวเองจากวิดีโอ เพราะวิดีโอที่อัปโหลดโดยผู้ใช้งานทั่วทุกมุมโลกก็เปรียบเสมือนตัวแทนของเหตุการณ์ที่เกิดขึ้นจริงบนโลก ซึ่งถ้าสำเร็จจะทำให้เอไอสามารถเรียนรู้จากเหตุการณ์ต่าง ๆ รอบตัวได้เหมือนที่มนุษย์เราทำได้ รอดูได้เลยว่าจะมีนวัตกรรมใหม่ ๆ ที่เราคาดไม่ถึงอีกมากมาย

วันนี้ Sertis จะพาทุกคนไปรู้จักกับ 4 เทคโนโลยีที่พยายามสอนเอไอให้เรียนรู้จากวิดีโอ ซึ่งมีตั้งแต่การสร้างชุดข้อมูล (Dataset) ที่ช่วยเพิ่มขีดความสามารถด้านต่าง ๆ ของเอไอ ไปจนถึงการฝึกให้เอไอเรียนรู้เองตั้งแต่เริ่มต้น ไปรู้จักเทคโนโลยีเหล่านี้พร้อม ๆ กันได้เลย

สอน AI ด้วยวิดีโอจากชุดข้อมูล Moments in Time

ชุดข้อมูล Moments in Time เป็นความพยายามหนึ่งในปี 2017 จาก MIT-IBM Watson Lab ที่จะสอนให้เอไอเข้าใจเหตุและผลของเหตุการณ์ในวิดีโอ

ถึงแม้จะมีชุดข้อมูลจำนวนมากที่สอนให้เอไอระบุได้ว่าการกระทำที่เกิดขึ้นในภาพคืออะไร แต่ความสามารถของเอไอจำกัดอยู่ที่การระบุการกระทำโดยเฉพาะเจาะจงเพียงการกระทำเดียว เช่น เอไอสามารถระบุได้ว่าการกระทำในคลิปวิดีโอคือการกระโดดสูง แต่ไม่เข้าใจว่าการกระโดดสูงนั้นมีเหตุผลที่มาที่ไปอย่างไร กล่าวคือ ไม่สามารถระบุได้ว่าการกระโดดสูงในวิดีโอนั้นประกอบด้วยการวิ่ง กระโดดพุ่งตัวขึ้น ตกลงมา และลงถึงพื้น

ในการจะสร้างชุดข้อมูลที่ทำให้เอไอเข้าใจเรื่องนี้ได้ ทีมนักพัฒนา Moments in Time ได้ใช้วิดีโอสั้น ๆ ที่แสดงกิจวัตรประจำ และการกระทำพื้นฐานทั่วไปที่ระบุประเภท (Label) ได้กว่า 300 ประเภท โดยเลือกมาให้ครอบคลุมคำกริยาที่ใช้บ่อยในภาษาอังกฤษ และชุดข้อมูลนี้ยังครอบคลุมถึงการกระทำที่เป็นเสียง เช่น เสียงปรบมือในวิดีโออีกด้วย ซึ่งการใช้ชุดข้อมูลรูปแบบนี้จะทำให้สามารถพัฒนาโมเดลเอไอแบบ Multi-modal ที่ระบุการกระทำที่ประกอบกันเป็นอีกการกระทำใหม่ เหมือนเช่นตัวอย่างของการกระโดดสูงได้

คุณสมบัติอีกอย่างหนึ่งของชุดข้อมูลนี้คือความสามารถในการระบุกริยาเดียวกันที่อยู่ในสภาพแวดล้อมที่ต่างกันได้ เช่น เปิดหนังสือ เปิดประตู เปิดผ้าม่าน หรือสุนัขอ้าปาก ซึ่งในชุดข้อมูล การกระทำทั้งหมดนี้จะอยู่ในหมวดของ “การเปิด” โดยอาศัยการระบุการเปลี่ยนแปลงเชิงพื้นที่ในช่วงเวลา (Temporal-spatial transformation)

หากพูดในมุมของมนุษย์เราแล้ว การทำเรื่องทั้งหมดที่กล่าวมาข้างต้นอาจเป็นแค่งานง่าย ๆ ที่แทบไม่ต้องใช้ความคิดอะไร แต่สำหรับเอไอนั้นถือเป็นเรื่องท้าทาย ความพยายามนี้จึงเป็นอีกก้าวที่จะพัฒนาระบบความคิดของเอไอให้ใกล้เคียงกับมนุษย์เรามากขึ้น ซึ่งจะเป็นประโยชน์กับหลากหลายอุตสาหกรรม อาทิ การเพิ่มประสิทธิภาพของรถยนต์ขับเคลื่อนอัตโนมัติ การสร้างตัวอย่างภาพยนตร์และไฮไลท์ของเกมกีฬาแบบอัตโนมัติ เป็นต้น

DeepMind สอน AI ให้เรียนรู้วิธีคิดแบบมนุษย์จากวิดีโอ

ในปี 2017 ที่ผ่านมา DeepMind เองก็เคยพยายามฝึกเอไอให้เรียนรู้ด้วยตนเองโดยใช้วิดีโอมาแล้ว ซึ่งเทคโนโลยีนี้ก็ช่วยให้เอไอเข้าใจการกระทำและเหตุการณ์ในวิดีโอได้สำเร็จ ซึ่งไม่ได้ใช้ข้อมูลวิดีโอที่ผ่านการระบุด้วยคน แต่ฝึกให้เอไอเรียนรู้และวิเคราะห์ภาพและเสียงในวิดีโอด้วยตนเองเลย

ซึ่งทางทีมพัฒนาได้ใช้วิธีการเรียนรู้ในแบบเดียวกับที่มนุษย์เราใช้เรียนรู้เรื่องต่าง ๆ บนโลก โดยอัลกอริธึมนั้นจะแบ่งเป็นสามโครงข่าย โครงข่ายหนึ่งทำหน้าที่ตรวจจับรูปภาพ อีกโครงข่ายหนึ่งตรวจจับเสียง โดยจะใช้ภาพนิ่งจากฉากในวิดีโอและเสียงที่ตรงกันกับฉากความยาว 1 วินาที จากนั้นโครงข่ายที่สามจะทำการเทียบรูปภาพกับเสียง เพื่อทำให้เอไอสามารถระบุภาพเหล่านี้ในวิดีโอที่เห็นได้ เช่น ถ้าเอไอได้เรียนรู้ภาพและเสียงของการปรบมือแล้ว ครั้งหน้าที่เห็นการกระทำนี้ก็จะเข้าใจว่ามันเหมือนกับที่เคยเห็น

นอกจากนี้ยังมีการสร้างโครงข่ายประสาทเทียมที่ชื่อว่า Symbol-Concept Association Network (SCAN) ที่เลียนแบบวิธีการคิดของมนุษย์ ช่วยให้เอไอมีความสามารถในการเข้าใจคอนเซ็ปต์ใหม่ ๆ และคิดค้นสิ่งใหม่ ๆ ได้

กล่าวคือเวลาที่เอไอเจอภาพแอปเปิ้ล เอไอจะไม่ได้จดจำภาพนั้นมาตรง ๆ แต่จะจำรูปร่าง ลักษณะ สีของแอปเปิ้ล โดยไม่ได้ใช้การเปรียบเทียบภาพของแอปเปิ้ลกับภาพที่เคยเห็น แต่ใช้วิธีจดจำว่าแอปเปิ้ลมีลักษณะเป็นอย่างไรจริง ๆ ซึ่งเหมือนกับวิธีที่เราในวัยเด็กใช้เรียนรู้ความเป็นไปของโลก

สอน AI ให้รู้จักเหตุและผลของเหตุการณ์ในวิดีโอด้วย CLEVRER และ NS-DR

การสร้างเอไอที่สามารถระบุวัตถุในวิดีโอนั้นไม่ใช่เรื่องยาก แต่การจะสร้างเอไอที่เข้าใจเหตุการณ์ในวิดีโอและสามารถคิดอย่างเป็นเหตุเป็นผลได้นั้นเป็นเรื่องที่ท้าทายไม่น้อยเลยทีเดียว แม้จะวิเคราะห์วัตถุในวิดีโอได้ แต่ถ้าถามคำถามจำพวกถ้า… แล้วอะไรจะเกิดขึ้น เช่นถ้าให้ดูวิดีโอของคนตีเบสบอลซึ่งตีโดนลูก แล้วให้เอไอตอบว่าถ้าคนคนนั้นตีไม่โดน ลูกบอลจะตกไปในทางไหน คำถามนี้ถือเป็นเรื่องที่ท้าทายมาก เพราะแม้เอไอจะรู้จักวัตถุในรูปภาพ แต่ก็ไม่ได้เข้าใจเรื่องเหตุผลเรื่องแรงโน้มถ่วง หรือการเคลื่อนไหว

หากสามารถสร้างอัลกอริธึมที่เข้าใจเหตุและผลของเหตุการณ์ในวิดีโอได้ ก็จะสามารถสร้างนวัตกรรมล้ำ ๆ ได้อีกมาก ทีมนักพัฒนาจาก IBM มหาวิทยาลัย MIT มหาวิทยาลัย Harvard และ Deepmind จึงร่วมกันพัฒนาชุดข้อมูลภายใต้ชื่อ CLEVRER ทั้งยังพัฒนาระบบเอไอแบบไฮบริด Neuro-Symbolic Dynamic Reasoning (NS-DR) ซึ่งทั้งสองเทคโนโลยีนี้ช่วยให้สามารถพัฒนาเอไอให้เข้าใจหลักการใช้เหตุผลกับการวิเคราะห์เหตุการณ์ในวิดีโอได้อย่างมีประสิทธิภาพขึ้นอย่างมาก

CLEVRER เป็นชุดข้อมูลที่ประกอบด้วยวิดีโอของวัตถุที่เคลื่อนไหวกระทบกันไปมา โดยเอไอจะต้องตอบคำถามเชิงบรรยาย อธิบาย คาดการณ์ และสมมุติ เพื่อตรวจสอบหลักเหตุผลของเอไอ ดังนั้นเอไอที่จะตอบคำถามเหล่านี้ได้นั้นต้องมีคุณสมบัติสำคัญ 3 อย่าง ได้แก่ ความสามารถในการระบุวัตถุและเหตุการณ์ในวิดีโอ ความสามารถในการเข้าใจความสัมพันธ์เชิงเหตุผลและเชิงกิจกรรม (Causal relation) และความเข้าใจตรรกะสัญลักษณ์ (Symbolic logic) ในคำถาม

แต่ปัญหาคือชุดข้อมูล CLEVRER นั้นค่อนข้างจำกัด วัตถุในวิดีโอมีไม่หลากหลาย และเหตุการณ์ที่จำลองขึ้นถูกควบคุมโดยมนุษย์ จึงอาจใช้ไม่ได้ในวิดีโอจริง ทีมพัฒนาเองก็ทดลองกับโมเดลหลายแบบแต่ก็ไม่เป็นผลสำเร็จเท่าที่ควร จึงต้องสร้างโมเดลเอไอที่แก้ปัญหานี้ได้ ซึ่งได้แก่ Neuro-Symbolic Dynamic Reasoning ที่รวม Neural netwrok กับ Symbolic AI (Rule-based AI) เข้าด้วยกัน ซึ่ง Symbolic AI เป็นเอไอยุคแรก ๆ ที่มีความสามารถในการเข้าใจตรรกะเชิงสัญลักษณ์มาก และการใช้ Neural network นั้นทำให้ไม่จำเป็นต้องใช้ข้อมูลในการเทรนโมเดลเยอะ ถือเป็นการประยุกต์ใช้จุดเด่นของสองโมเดลจนสามารถก้าวผ่านจุดอ่อนได้

ซึ่งทีมพัฒนากล่าวว่าเทคโนโลยีนี้เป็นเพียงก้าวแรกในการสร้างเอไอที่สามารถเข้าใจโลกและเหตุการณ์บนโลกได้อย่างแท้จริง ซึ่งถึงแม้ตอนนี้ยังมีข้อจำกัดอยู่มากแต่ทีมก็เตรียมแผนการที่จะพัฒนาให้มีประสิทธิภาพมากขึ้นเรื่อย ๆ

สอน AI ให้เรียนรู้เอง จากวิดีโอของผู้ใช้ Facebook

เมื่อเดือนมีนาคมที่ผ่านมานี้ Facebook ได้เปิดตัวโครงการใหม่ที่จะพลิกวงการของการสอนเอไอด้วยวิดีโอ ภายใต้ชื่อ Learning from Videos โดยใช้เทคนิคที่ต่างออกไปจากเทคโนโลยีอื่น ๆ กล่าวคือ Facebook จะฝึกให้เอไอเรียนรู้ภาพ เสียง และข้อความผ่านวิดีโอของผู้ใช้งานที่อัปโหลดไว้เป็นสาธารณะในแพลตฟอร์ม โดยจะเป็นการเรียนรู้ด้วยตนเอง (Self-supervised learning) ไม่ต้องป้อนชุดข้อมูลแล้ว

เทคโนโลยีนี้ช่วยให้เอไอก้าวข้ามข้อจำกัดที่เป็นปัญหามานานอย่างการที่ต้องเรียนรู้จากข้อมูลที่ผ่านการ Label โดยมนุษย์มาแล้ว ซึ่งการฝึกให้เอไอเรียนรู้ด้วยตนเองได้นั้นจะทำให้เราเสียเวลากับกระบวนการเทรนนิงน้อยลง และอาจทำให้กระบวนการวิเคราะห์ของเอไอลึกซึ้งและซับซ้อนขึ้นจากการได้เรียนรู้และเชื่อมต่อข้อมูลด้วยตนเอง นอกจากนี้วิดีโอที่อัปโหลดขึ้นบน Facebook นั้นมีความหลากหลายทางด้านเนื้อหา ภาษา และวัฒนธรรม ทีมพัฒนาจึงมองว่านี่เป็นโอกาสที่จะสร้างเอไอให้ปรับตัวทันโลกที่เปลี่ยนแปลงอย่างรวดเร็ว โดยไม่ต้องอาศัยการควบคุมของมนุษย์

ซึ่งเท่าที่ Facebook เปิดเผยนั้นคือมีแผนจะนำเทคโนโลยีนี้มาพัฒนากระบวนการเลือกเนื้อหาที่แสดงหน้าฟีด ให้ผู้ใช้มีประสบการณ์การใช้งานที่ดีขึ้น และเทคโนโลยีนี้ยังไปช่วยส่งเสริมเรื่องการตรวจจับคำพูด ทำให้สามารถตรวจจับ Hate speech ได้ดีขึ้น และสามารถสร้างแคปชันหรือซับไตเติ้ลได้อัตโนมัติ

ซึ่ง Facebook ก็ได้นำเทคโนโลยีนี้ไปปรับใช้จริงแล้ว ผ่านการปล่อยฟีเจอร์เวอร์ชันทดลองใน Instagram โดยมีทั้งฟีเจอร์ Auto Captions สร้างแคปชันบรรยายสิ่งที่เราพูดทาง Instagram Story ให้อัตโนมัติ และใช้ในการเลือกแสดงเนื้อหาหน้าฟีดของ Instagram Reels (ฟีเจอร์ที่ผู้ใช้สามารถสร้างวิดีโอสั้น ๆ ในรูปแบบที่คล้ายกับ TikTok) โดยการใช้เทคโนโลยีเรียนรู้จากวิดีโอนี้ช่วยให้เอไอเลือกวิดีโอที่มีเนื้อหาอยู่ใน “ธีม” เดียวกัน เช่น เพลงเดียวกันหรือเนื้อหาแบบเดียวกัน มาแสดงให้ตรงกับความสนใจของผู้ใช้

เบื้องหลังฟีเจอร์เหล่านี้มีเทคนิคการสร้างที่ซับซ้อนและหลากหลาย โดยใช้เทคโนโลยี อาทิ

Generalized Data Transformations (GDT) เพื่อช่วยให้เอไอเข้าใจความสัมพันธ์ของภาพและเสียงในวิดีโอ และใช้ wav2vec 2.0 ซึ่งเป็นระบบถอดข้อความเสียงที่แม่นยำและใช้ได้หลากหลายภาษา

สำหรับอีกฟีเจอร์หนึ่งที่พัฒนาจากเทคโนโลยีนี้ได้และล้ำไม่แพ้กันคือ Digital Memories ที่เราสามารถท่องความจำย้อนกลับได้ด้วยการค้นหาคีย์เวิร์ดเช่น “ฉลองวันเกิด” เอไอก็จะทำการตรวจดูทุกวิดีโอของเราว่ามีอันไหนบ้างที่มีเค้ก เทียน เพลง Happy Birthday โดยจะรวบรวมคอนเทนต์ที่มีส่วนประกอบเหล่านี้ทั้งหมดมาให้เราดู นี่จึงถือเป็นความก้าวหน้าครั้งใหญ่ เพราะเดิมเราต้องพิมพ์ชื่อวิดีโอหรือแฮชแท็กให้ตรงตัวจึงจะหาเจอ นอกจากนี้ในอนาคต Facebook มีแผนที่จะพัฒนาเทคโนโลยีนี้ให้ใช้ได้กับแว่นอัจฉริยะ ที่จะทำให้คนทั้งเก็บและเรียกดูความทรงจำดิจิทัลของตนเองได้ง่ายขึ้น

ถือได้ว่าเป็นเทคโนโลยีที่ต้องจับตามองกันอย่างมาก เนื่องด้วย Facebook มีผู้ใช้งานกว่า 2.8 พันล้านคนจากทั่วมุมโลก วิดีโอที่เอไอเข้าถึงได้จึงมีหลากหลายมาก แถมยังสามารถลดเวลาในการเรียนรู้ลงได้อีก ต่อไปเอไออาจเรียนอะไรบางอย่างจากวิดีโอของเราก็ได้นะ

References: