4 technologies that help AI learn from videos

APR 9, 2021

คำว่า Artificial Intelligence (AI) นั้นหากแปลเป็นไทยจะมีความหมายว่า ‘ปัญญาประดิษฐ์’ ซึ่งเป็นชื่อเรียกที่แสดงให้เห็นถึงจุดประสงค์ของการสร้างเอไออย่างชัดเจน ทีมพัฒนาเอไอที่ทำงานกันอย่างหนักทั่วมุมโลกต่างมีเป้าหมายเดียวกันคือ เพื่อพัฒนาเอไอให้มีความสามารถในการเรียนรู้ ตัดสินใจ คิดหาทางออกในแบบที่เหมือนมนุษย์เรามากที่สุด หรือพูดอีกอย่างคือมี ‘ปัญญา’ ที่ ‘ประดิษฐ์’ ขึ้นมาได้ใกล้เคียงมนุษย์ที่สุด 

 

หนึ่งในความพิเศษของสิ่งมีชีวิตคือเรามีกระบวนการเรียนรู้เรื่องต่างๆ ด้วยตนเองผ่านสิ่งรอบตัว มนุษย์เราเองก็เรียนรู้จากโลกและผู้คนที่เคลื่อนไหวอยู่รอบ ๆ ซึ่งนี่แหละเป็นภาพในอุดมคติที่ทีมพัฒนาหวังให้เอไอทำได้

 

ปัจจุบันเอไอก็พัฒนาขึ้นไม่น้อย จากที่เคยเรียนรู้อย่างจำกัดอยู่แค่สิ่งที่มนุษย์ป้อนให้ ก็พึ่งพามนุษย์น้อยลงเรื่อย ๆ ข้อมูลที่ใช้ในการเรียนรู้ก็เริ่มจะหลากหลายขึ้น จากแค่รูปภาพ ก็เริ่มเรียนจากการมองเห็น จากเสียง และจากภาษาของมนุษย์ได้

 

ความท้าทายล่าสุดที่บริษัทเทคฯ ยักษ์ใหญ่หลายที่กำลังพยายามจะก้าวข้ามให้ได้คือ การสอนเอไอให้เรียนรู้ด้วยตัวเองจากวิดีโอ เพราะวิดีโอที่อัปโหลดโดยผู้ใช้งานทั่วทุกมุมโลกก็เปรียบเสมือนตัวแทนของเหตุการณ์ที่เกิดขึ้นจริงบนโลก ซึ่งถ้าสำเร็จจะทำให้เอไอสามารถเรียนรู้จากเหตุการณ์ต่าง ๆ รอบตัวได้เหมือนที่มนุษย์เราทำได้ รอดูได้เลยว่าจะมีนวัตกรรมใหม่ ๆ ที่เราคาดไม่ถึงอีกมากมาย

 

วันนี้ Sertis จะพาทุกคนไปรู้จักกับ 4 เทคโนโลยีที่พยายามสอนเอไอให้เรียนรู้จากวิดีโอ ซึ่งมีตั้งแต่การสร้างชุดข้อมูล (Dataset) ที่ช่วยเพิ่มขีดความสามารถด้านต่าง ๆ ของเอไอ ไปจนถึงการฝึกให้เอไอเรียนรู้เองตั้งแต่เริ่มต้น ไปรู้จักเทคโนโลยีเหล่านี้พร้อม ๆ กันได้เลย

2021_04_Apr_Deep_AI_2_Artboard 2 (1).jpg

สอน AI ด้วยวิดีโอจากชุดข้อมูล Moments in Time

ชุดข้อมูล Moments in Time เป็นความพยายามหนึ่งในปี 2017 จาก MIT-IBM Watson Lab ที่จะสอนให้เอไอเข้าใจเหตุและผลของเหตุการณ์ในวิดีโอ

ถึงแม้จะมีชุดข้อมูลจำนวนมากที่สอนให้เอไอระบุได้ว่าการกระทำที่เกิดขึ้นในภาพคืออะไร แต่ความสามารถของเอไอจำกัดอยู่ที่การระบุการกระทำโดยเฉพาะเจาะจงเพียงการกระทำเดียว เช่น เอไอสามารถระบุได้ว่าการกระทำในคลิปวิดีโอคือการกระโดดสูง แต่ไม่เข้าใจว่าการกระโดดสูงนั้นมีเหตุผลที่มาที่ไปอย่างไร กล่าวคือ ไม่สามารถระบุได้ว่าการกระโดดสูงในวิดีโอนั้นประกอบด้วยการวิ่ง กระโดดพุ่งตัวขึ้น ตกลงมา และลงถึงพื้น

 

ในการจะสร้างชุดข้อมูลที่ทำให้เอไอเข้าใจเรื่องนี้ได้ ทีมนักพัฒนา Moments in Time ได้ใช้วิดีโอสั้น ๆ ที่แสดงกิจวัตรประจำ และการกระทำพื้นฐานทั่วไปที่ระบุประเภท (Label) ได้กว่า 300 ประเภท โดยเลือกมาให้ครอบคลุมคำกริยาที่ใช้บ่อยในภาษาอังกฤษ และชุดข้อมูลนี้ยังครอบคลุมถึงการกระทำที่เป็นเสียง เช่น เสียงปรบมือในวิดีโออีกด้วย ซึ่งการใช้ชุดข้อมูลรูปแบบนี้จะทำให้สามารถพัฒนาโมเดลเอไอแบบ Multi-modal ที่ระบุการกระทำที่ประกอบกันเป็นอีกการกระทำใหม่ เหมือนเช่นตัวอย่างของการกระโดดสูงได้

 

คุณสมบัติอีกอย่างหนึ่งของชุดข้อมูลนี้คือความสามารถในการระบุกริยาเดียวกันที่อยู่ในสภาพแวดล้อมที่ต่างกันได้ เช่น เปิดหนังสือ เปิดประตู เปิดผ้าม่าน หรือสุนัขอ้าปาก ซึ่งในชุดข้อมูล การกระทำทั้งหมดนี้จะอยู่ในหมวดของ “การเปิด” โดยอาศัยการระบุการเปลี่ยนแปลงเชิงพื้นที่ในช่วงเวลา (Temporal-spatial transformation)

 

หากพูดในมุมของมนุษย์เราแล้ว การทำเรื่องทั้งหมดที่กล่าวมาข้างต้นอาจเป็นแค่งานง่าย ๆ ที่แทบไม่ต้องใช้ความคิดอะไร แต่สำหรับเอไอนั้นถือเป็นเรื่องท้าทาย ความพยายามนี้จึงเป็นอีกก้าวที่จะพัฒนาระบบความคิดของเอไอให้ใกล้เคียงกับมนุษย์เรามากขึ้น ซึ่งจะเป็นประโยชน์กับหลากหลายอุตสาหกรรม อาทิ การเพิ่มประสิทธิภาพของรถยนต์ขับเคลื่อนอัตโนมัติ การสร้างตัวอย่างภาพยนตร์และไฮไลท์ของเกมกีฬาแบบอัตโนมัติ เป็นต้น

2021_04_Apr_Deep_AI_2_Artboard 3 (1).jpg

DeepMind สอน AI ให้เรียนรู้วิธีคิดแบบมนุษย์จากวิดีโอ 

 

ในปี 2017 ที่ผ่านมา DeepMind เองก็เคยพยายามฝึกเอไอให้เรียนรู้ด้วยตนเองโดยใช้วิดีโอมาแล้ว ซึ่งเทคโนโลยีนี้ก็ช่วยให้เอไอเข้าใจการกระทำและเหตุการณ์ในวิดีโอได้สำเร็จ ซึ่งไม่ได้ใช้ข้อมูลวิดีโอที่ผ่านการระบุด้วยคน แต่ฝึกให้เอไอเรียนรู้และวิเคราะห์ภาพและเสียงในวิดีโอด้วยตนเองเลย

 

ซึ่งทางทีมพัฒนาได้ใช้วิธีการเรียนรู้ในแบบเดียวกับที่มนุษย์เราใช้เรียนรู้เรื่องต่าง ๆ บนโลก โดยอัลกอริธึมนั้นจะแบ่งเป็นสามโครงข่าย โครงข่ายหนึ่งทำหน้าที่ตรวจจับรูปภาพ อีกโครงข่ายหนึ่งตรวจจับเสียง โดยจะใช้ภาพนิ่งจากฉากในวิดีโอและเสียงที่ตรงกันกับฉากความยาว 1 วินาที จากนั้นโครงข่ายที่สามจะทำการเทียบรูปภาพกับเสียง เพื่อทำให้เอไอสามารถระบุภาพเหล่านี้ในวิดีโอที่เห็นได้ เช่น ถ้าเอไอได้เรียนรู้ภาพและเสียงของการปรบมือแล้ว ครั้งหน้าที่เห็นการกระทำนี้ก็จะเข้าใจว่ามันเหมือนกับที่เคยเห็น

 

นอกจากนี้ยังมีการสร้างโครงข่ายประสาทเทียมที่ชื่อว่า Symbol-Concept Association Network (SCAN) ที่เลียนแบบวิธีการคิดของมนุษย์ ช่วยให้เอไอมีความสามารถในการเข้าใจคอนเซ็ปต์ใหม่ ๆ และคิดค้นสิ่งใหม่ ๆ ได้ 

 

กล่าวคือเวลาที่เอไอเจอภาพแอปเปิ้ล เอไอจะไม่ได้จดจำภาพนั้นมาตรง ๆ แต่จะจำรูปร่าง ลักษณะ สีของแอปเปิ้ล โดยไม่ได้ใช้การเปรียบเทียบภาพของแอปเปิ้ลกับภาพที่เคยเห็น แต่ใช้วิธีจดจำว่าแอปเปิ้ลมีลักษณะเป็นอย่างไรจริง ๆ ซึ่งเหมือนกับวิธีที่เราในวัยเด็กใช้เรียนรู้ความเป็นไปของโลก

2021_04_Apr_Deep_AI_2_Artboard 4 (1).jpg

สอน AI ให้รู้จักเหตุและผลของเหตุการณ์ในวิดีโอด้วย CLEVRER และ NS-DR

 

การสร้างเอไอที่สามารถระบุวัตถุในวิดีโอนั้นไม่ใช่เรื่องยาก แต่การจะสร้างเอไอที่เข้าใจเหตุการณ์ในวิดีโอและสามารถคิดอย่างเป็นเหตุเป็นผลได้นั้นเป็นเรื่องที่ท้าทายไม่น้อยเลยทีเดียว แม้จะวิเคราะห์วัตถุในวิดีโอได้ แต่ถ้าถามคำถามจำพวกถ้า… แล้วอะไรจะเกิดขึ้น เช่นถ้าให้ดูวิดีโอของคนตีเบสบอลซึ่งตีโดนลูก แล้วให้เอไอตอบว่าถ้าคนคนนั้นตีไม่โดน ลูกบอลจะตกไปในทางไหน คำถามนี้ถือเป็นเรื่องที่ท้าทายมาก เพราะแม้เอไอจะรู้จักวัตถุในรูปภาพ แต่ก็ไม่ได้เข้าใจเรื่องเหตุผลเรื่องแรงโน้มถ่วง หรือการเคลื่อนไหว

 

หากสามารถสร้างอัลกอริธึมที่เข้าใจเหตุและผลของเหตุการณ์ในวิดีโอได้ ก็จะสามารถสร้างนวัตกรรมล้ำ ๆ ได้อีกมาก ทีมนักพัฒนาจาก IBM มหาวิทยาลัย MIT มหาวิทยาลัย Harvard และ Deepmind จึงร่วมกันพัฒนาชุดข้อมูลภายใต้ชื่อ CLEVRER ทั้งยังพัฒนาระบบเอไอแบบไฮบริด Neuro-Symbolic Dynamic Reasoning (NS-DR) ซึ่งทั้งสองเทคโนโลยีนี้ช่วยให้สามารถพัฒนาเอไอให้เข้าใจหลักการใช้เหตุผลกับการวิเคราะห์เหตุการณ์ในวิดีโอได้อย่างมีประสิทธิภาพขึ้นอย่างมาก

 

CLEVRER เป็นชุดข้อมูลที่ประกอบด้วยวิดีโอของวัตถุที่เคลื่อนไหวกระทบกันไปมา โดยเอไอจะต้องตอบคำถามเชิงบรรยาย อธิบาย คาดการณ์ และสมมุติ เพื่อตรวจสอบหลักเหตุผลของเอไอ ดังนั้นเอไอที่จะตอบคำถามเหล่านี้ได้นั้นต้องมีคุณสมบัติสำคัญ 3 อย่าง ได้แก่ ความสามารถในการระบุวัตถุและเหตุการณ์ในวิดีโอ ความสามารถในการเข้าใจความสัมพันธ์เชิงเหตุผลและเชิงกิจกรรม (Causal relation) และความเข้าใจตรรกะสัญลักษณ์ (Symbolic logic) ในคำถาม

 

แต่ปัญหาคือชุดข้อมูล CLEVRER นั้นค่อนข้างจำกัด วัตถุในวิดีโอมีไม่หลากหลาย และเหตุการณ์ที่จำลองขึ้นถูกควบคุมโดยมนุษย์ จึงอาจใช้ไม่ได้ในวิดีโอจริง ทีมพัฒนาเองก็ทดลองกับโมเดลหลายแบบแต่ก็ไม่เป็นผลสำเร็จเท่าที่ควร จึงต้องสร้างโมเดลเอไอที่แก้ปัญหานี้ได้ ซึ่งได้แก่ Neuro-Symbolic Dynamic Reasoning ที่รวม Neural netwrok กับ Symbolic AI (Rule-based AI) เข้าด้วยกัน ซึ่ง Symbolic AI เป็นเอไอยุคแรก ๆ ที่มีความสามารถในการเข้าใจตรรกะเชิงสัญลักษณ์มาก และการใช้ Neural network นั้นทำให้ไม่จำเป็นต้องใช้ข้อมูลในการเทรนโมเดลเยอะ ถือเป็นการประยุกต์ใช้จุดเด่นของสองโมเดลจนสามารถก้าวผ่านจุดอ่อนได้ 

 

ซึ่งทีมพัฒนากล่าวว่าเทคโนโลยีนี้เป็นเพียงก้าวแรกในการสร้างเอไอที่สามารถเข้าใจโลกและเหตุการณ์บนโลกได้อย่างแท้จริง ซึ่งถึงแม้ตอนนี้ยังมีข้อจำกัดอยู่มากแต่ทีมก็เตรียมแผนการที่จะพัฒนาให้มีประสิทธิภาพมากขึ้นเรื่อย ๆ

2021_04_Apr_Deep_AI_2_Artboard 5 (1).jpg

สอน AI ให้เรียนรู้เอง จากวิดีโอของผู้ใช้ Facebook

 

เมื่อเดือนมีนาคมที่ผ่านมานี้ Facebook ได้เปิดตัวโครงการใหม่ที่จะพลิกวงการของการสอนเอไอด้วยวิดีโอ ภายใต้ชื่อ Learning from Videos โดยใช้เทคนิคที่ต่างออกไปจากเทคโนโลยีอื่น ๆ กล่าวคือ Facebook จะฝึกให้เอไอเรียนรู้ภาพ เสียง และข้อความผ่านวิดีโอของผู้ใช้งานที่อัปโหลดไว้เป็นสาธารณะในแพลตฟอร์ม โดยจะเป็นการเรียนรู้ด้วยตนเอง (Self-supervised learning) ไม่ต้องป้อนชุดข้อมูลแล้ว

 

เทคโนโลยีนี้ช่วยให้เอไอก้าวข้ามข้อจำกัดที่เป็นปัญหามานานอย่างการที่ต้องเรียนรู้จากข้อมูลที่ผ่านการ Label โดยมนุษย์มาแล้ว ซึ่งการฝึกให้เอไอเรียนรู้ด้วยตนเองได้นั้นจะทำให้เราเสียเวลากับกระบวนการเทรนนิงน้อยลง และอาจทำให้กระบวนการวิเคราะห์ของเอไอลึกซึ้งและซับซ้อนขึ้นจากการได้เรียนรู้และเชื่อมต่อข้อมูลด้วยตนเอง นอกจากนี้วิดีโอที่อัปโหลดขึ้นบน Facebook นั้นมีความหลากหลายทางด้านเนื้อหา ภาษา และวัฒนธรรม ทีมพัฒนาจึงมองว่านี่เป็นโอกาสที่จะสร้างเอไอให้ปรับตัวทันโลกที่เปลี่ยนแปลงอย่างรวดเร็ว โดยไม่ต้องอาศัยการควบคุมของมนุษย์

 

ซึ่งเท่าที่ Facebook เปิดเผยนั้นคือมีแผนจะนำเทคโนโลยีนี้มาพัฒนากระบวนการเลือกเนื้อหาที่แสดงหน้าฟีด ให้ผู้ใช้มีประสบการณ์การใช้งานที่ดีขึ้น และเทคโนโลยีนี้ยังไปช่วยส่งเสริมเรื่องการตรวจจับคำพูด ทำให้สามารถตรวจจับ Hate speech ได้ดีขึ้น และสามารถสร้างแคปชันหรือซับไตเติ้ลได้อัตโนมัติ

 

ซึ่ง Facebook ก็ได้นำเทคโนโลยีนี้ไปปรับใช้จริงแล้ว ผ่านการปล่อยฟีเจอร์เวอร์ชันทดลองใน Instagram โดยมีทั้งฟีเจอร์ Auto Captions สร้างแคปชันบรรยายสิ่งที่เราพูดทาง Instagram Story ให้อัตโนมัติ และใช้ในการเลือกแสดงเนื้อหาหน้าฟีดของ Instagram Reels (ฟีเจอร์ที่ผู้ใช้สามารถสร้างวิดีโอสั้น ๆ ในรูปแบบที่คล้ายกับ TikTok) โดยการใช้เทคโนโลยีเรียนรู้จากวิดีโอนี้ช่วยให้เอไอเลือกวิดีโอที่มีเนื้อหาอยู่ใน “ธีม” เดียวกัน เช่น เพลงเดียวกันหรือเนื้อหาแบบเดียวกัน มาแสดงให้ตรงกับความสนใจของผู้ใช้

 

เบื้องหลังฟีเจอร์เหล่านี้มีเทคนิคการสร้างที่ซับซ้อนและหลากหลาย โดยใช้เทคโนโลยี อาทิ 

Generalized Data Transformations (GDT) เพื่อช่วยให้เอไอเข้าใจความสัมพันธ์ของภาพและเสียงในวิดีโอ และใช้ wav2vec 2.0 ซึ่งเป็นระบบถอดข้อความเสียงที่แม่นยำและใช้ได้หลากหลายภาษา

 

สำหรับอีกฟีเจอร์หนึ่งที่พัฒนาจากเทคโนโลยีนี้ได้และล้ำไม่แพ้กันคือ Digital Memories ที่เราสามารถท่องความจำย้อนกลับได้ด้วยการค้นหาคีย์เวิร์ดเช่น “ฉลองวันเกิด” เอไอก็จะทำการตรวจดูทุกวิดีโอของเราว่ามีอันไหนบ้างที่มีเค้ก เทียน เพลง Happy Birthday โดยจะรวบรวมคอนเทนต์ที่มีส่วนประกอบเหล่านี้ทั้งหมดมาให้เราดู นี่จึงถือเป็นความก้าวหน้าครั้งใหญ่ เพราะเดิมเราต้องพิมพ์ชื่อวิดีโอหรือแฮชแท็กให้ตรงตัวจึงจะหาเจอ นอกจากนี้ในอนาคต Facebook มีแผนที่จะพัฒนาเทคโนโลยีนี้ให้ใช้ได้กับแว่นอัจฉริยะ ที่จะทำให้คนทั้งเก็บและเรียกดูความทรงจำดิจิทัลของตนเองได้ง่ายขึ้น

 

ถือได้ว่าเป็นเทคโนโลยีที่ต้องจับตามองกันอย่างมาก เนื่องด้วย Facebook มีผู้ใช้งานกว่า 2.8 พันล้านคนจากทั่วมุมโลก วิดีโอที่เอไอเข้าถึงได้จึงมีหลากหลายมาก แถมยังสามารถลดเวลาในการเรียนรู้ลงได้อีก ต่อไปเอไออาจเรียนอะไรบางอย่างจากวิดีโอของเราก็ได้นะ

The ideal goal of developing AI is to have AI that can perfectly mimic the way humans think, learn, and make decisions. We, humans, learn automatically from the world around us. If AI can do the same, it will open rooms for more and more advanced innovations.

 

Nowadays, AI has come closer to that goal. Several tech companies have introduced technologies that enable AI to learn from video. Videos uploaded on social media represent events happening around the world. Learning from videos allows AI to learn like humans do, which develops AI to be more like humans.

 

Today, we would like to introduce you to 4 technologies that are an attempt to provide AI with 

an ability to learn from video by using either datasets or a self-supervised learning technique.

2021_04_Apr_Deep_AI_2_Artboard 2 (1).jpg

The Moments in Time dataset by MIT-IBM Watson Lab

 

Even though there are datasets that teach AI to recognise actions in videos, they can only understand a specific action. AI can not explain the sub-actions that make up those actions. For humans, deconstructing actions in this way is just a piece of cake, but for AI, it has been a big challenge. For instance, AI knows the high jump but does not understand that a high jump consists of many basic actions, running, jumping, arching, falling, and landing. Using video snippets of labeled basic actions data, chosen to cover frequently-used English verbs, including sounds like clapping sounds, allows the development of multi-modal models.

 

This Moments in Time dataset can also recognise the same action in several different environments. For example, opening the door, opening the curtain, and the dog opens his mouth are all categorised to be ‘opening’ by using temporal-spatial transformation. 

2021_04_Apr_Deep_AI_2_Artboard 3 (1).jpg

Symbol-Concept Association Network (SCAN) 

 

In 2017, DeepMind had attempted to train AI to learn from videos by itself without any labeled data from humans. The developers use the same method as to how children learn about the world. The data used to train the model are the stills from the videos and 1-second audio clips from the same point of the still images in the video. SCAN algorithm consists of three separated neural networks for recognising images, recognising sounds, and comparing matching images to sounds. If the model found a picture of similar actions, it will pair them with what it has learned.

 

DeepMind also developed a neural network called Symbol-Concept Association Network (SCAN). The system can learn a new concept and combine it with something familiar. For example, how the system recognises apples is not by remembering the picture of apples and comparing it to other images. It understands the actual size, shape, and color of apples. When the system sees a photo of apples that is not the same as it saw before, it can automatically recognise them

2021_04_Apr_Deep_AI_2_Artboard 4 (1).jpg

CLEVRER and NS-DR System by IBM

 

After recognising objects in video, another step of learning from videos is understanding the reasons and relation of objects and events. In the past, if you showed AI a video of a man hitting a ball with a bat and asked what would happen if he missed the ball or which direction the ball would go, AI would not be able to answer them. AI could only recognise the object but knew nothing about the motion, gravity, or impact. That was why it could not answer causal questions. 

 

Researchers from IBM, MIT, Harvard, and DeepMind have introduced a new dataset called Collision Events for Video Representation and Reasoning (CLEVRER) and a hybrid AI system, Neuro-Symbolic Dynamic Reasoning (NS-DR). CLEVRER consists of videos of objects moving and colliding with one another. What AI agent needs are abilities to recognise objects and events, model the dynamics and causal relations between the objects and events and understand the symbolic logic behind the questions

 

The developers developed NS-DR because other models can not effectively use CLEVRER's limited and controlled environment and can handle causal and counterfactual scenarios. NS-DR is a combination of neural network and symbolic AI (rule-based AI), the old-fashioned AI with symbolic-reasoning ability. The neural network also works when the data is limited because it requires less data than other models. NS-DR bring out the strengths of both systems and can overcome the weakness of CLEVRER.

2021_04_Apr_Deep_AI_2_Artboard 5 (1).jpg

Self-Supervised Learning from Videos by Facebook

 

Facebook has just launched a new project called 'Learning from Videos', which created self-supervised learning AI that learns automatically from videos uploaded publicly on its platform. This technology overcame the obstacle that AI models need to use data labeled by humans and speeded up the training process. Also, it may deepen AI's ability to learn and analyse because it has to connect the dot by itself.

 

Videos uploaded by 2.8-billion Facebook users are culturally diverse and up to date. Training AI with these videos will result in adaptive AI that fits the fast-pacing world. Generalized Data Transformations (GDT) technique helps AI understand sounds and images in videos. The technology also improved speech recognition by using wav2vec 2.0. Facebook applied this technology to Instagram Story by adding the Auto Captions feature that automatically generates subtitles in our video. Facebook also used the technology with Instagram Reels recommendation systems (New Instagram feature that allows users to create short creative video clips like TikTok). The technology helps them find videos that are in the same them (same music, dance moves, or categories)

 

Another cutting-edge feature that Facebook has planned is Digital Memories. This feature allows us to find videos using only a keyword phrase, for example, Birthday Party. AI will go through every type of data and match ‘Birthday Party’ to people singing Happy Birthday songs, cakes, candles, or anything signifying a birthday party. Digital Memories feature is designed to be featured in smart eyeglasses, another big project that mainly facilitates people to capture and revisit the memories through their eyes.


 

References:

Related Posts