MediaPipe Holistic อุปกรณ์ที่สามารถจับการเคลื่อนไหวของใบหน้า มือ และท่าทางได้ในเวลาเดียวกัน

2021_Deep_AI-01.jpg
JAN 15, 2021

หากมีอุปกรณ์ที่สามารถจับการเคลื่อนไหวของท่าทาง ใบหน้า และมือได้แบบเรียลไทม์ เราก็จะสามารถนำอุปกรณ์นั้นไปต่อยอดไปเป็นนวัตกรรมใหม่ได้มากมาย เช่น การวิเคราะห์การออกกำลังกายและการเล่นกีฬา การสั่งการด้วยท่าทาง การตรวจจับภาษากาย การสร้างเอฟเฟคในแอปพลิเคชัน เช่น Instagram Strory ด้วยเทคโนโลยี AR (Augmented Reality) ซึ่งเดิมทีอุปกรณ์รูปแบบนี้พัฒนาได้ยากมาก เพราะจำเป็นต้องใช้ระบบการอนุมานแบบพร้อมกัน (Simultaneous inference) จากโครงข่ายประสาทเทียมแบบหลายชั้นที่ทำงานโดยใช้ตัวแปรตาม (Multiple, dependent neural networks)

 

ก่อนหน้านี้ Google ได้ออกแบบ MediaPipe แพลตฟอร์ม AI แบบ Open source ที่สามารถใช้เป็น Pipeline ตรวจจับและรับรู้ใบหน้า มือ และท่าทางที่มีความซ้บซ้อน โดยใช้การเร่งความเร็วในการระบุและประมวลผล จึงออกมาเป็นโซลูชันที่แม่นยำและรวดเร็ว  ตอนนี้ Google AI ได้พัฒนาไปอีกขั้น และพร้อมแนะนำให้ทุกคนรู้จักกับ “MediaPipe Holistic” โซลูชันที่จะทำให้อุปกรณ์ที่ตรวจจับร่างกายได้หลายส่วนพร้อมกันสามารถพัฒนาขึ้นได้จริง 

 

MediaPipe Holistic คือโทโปโลยีล้ำสมัยที่สามารถตรวจจับท่าทาง มือ และใบหน้าของมนุษย์ในเวลาเดียวกัน และรองรับการใช้งานในแบบที่ไม่เคยมีแพลตฟอร์มไหนทำได้มาก่อน โซลูชันนี้จะใช้ Pipeline แบบใหม่ที่ประกอบด้วยการตรวจจับท่าทาง หน้า และมือที่ปรับแต่งให้ดีที่สุดเพื่อให้ทำงานได้เรียลไทม์ โดยใช้การโอนถ่ายหน่วยความจำระหว่าง Inteference Backend ซึ่ง Pipeline จะรวมรูปแบบการปฏิบัติการและการประมวลผลที่แตกต่างกันตามการตรวจจับภาพแต่ละส่วนเข้าด้วยกัน และจะได้เป็นโซลูชันแบบครบวงจรที่ใช้งานได้แบบเรียลไทม์และสม่ำเสมอ

 

MediaPipe Holistic ใช้การทำงานแลกเปลี่ยนกันระหว่างการตรวจจับทั้งสามจุด โดยประสิทธิภาพของการทำงานจะขึ้นอยู่กับความรวดเร็วและคุณภาพของการแลกเปลี่ยนข้อมูล เมื่อรวมการตรวจจับทั้งสามเข้าด้วยกัน จะได้เป็นโทโปโลยีที่ทำงานร่วมกันเป็นหนึ่งเดียว โดยสามารถจับ Keypoints ของภาพเคลื่อนไหวได้ถึง 540+ จุด (ส่วนของท่าทาง 33 จุด มือข้างละ 21 จุด และส่วนใบหน้า 468 จุด) ซึ่งเป็นระดับที่ไม่เคยทำได้มาก่อน และสามารถประมวลผลได้เกือบจะเรียลไทม์ในการแสดงผลทางโทรศัพท์มือถือ 

 

MediaPipe Holistic เปิดตัวเป็นหนึ่งในซอฟต์แวร์ของแพลตฟอร์ม MediaPipe  และรองรับการใช้งานทั้งในโทรศัพท์มือถือ (ทั้งระบบ Android และ iOS) และบนคอมพิวเตอร์ นอกจากนี้ Google ยังเปิดให้ใช้ MediaPipe APIs แบบพร้อมใช้งาน สำหรับการใช้งานกับ Python และ JavaScript เพื่อทำให้เทคโนโลยีนี้เข้าถึงได้ง่ายมากขึ้น

 

การทำงานของ MediaPipe Holistic

2021_Deep_AI-02.jpg

MediaPipe Holistic ประมวลโดยการนำโมเดลของท่าทาง ใบหน้า และมือมารวมกัน ซึ่งทั้งสามส่วนได้รับการปรับคุณภาพให้เข้ากับโดเมนของตนเองที่สุด แต่เนื่องจากลักษณะการทำงานเฉพาะของสามส่วนที่ต่างกัน ทำให้ข้อมูลที่ใช้ได้ดีกับส่วนหนึ่งอาจไม่เข้ากับส่วนอื่น ยกตัวอย่างเช่น โมเดลการระบุท่าทาง อาจจะต้องการเฟรมวิดีโอที่มีความละเอียดที่ต่ำ แต่เมื่อต้องตัดส่วนของมือและหน้าจากภาพเพื่อส่งต่อไปยังโมเดลต่อไป ความละเอียดของภาพก็อาจจะต่ำเกินไปจนไม่สามารถประมวลผลได้แม่นยำ ด้วยเหตุนี้ MediaPipe Holistic จึงออกแบบมาในรูปแบบของ Pipeline ที่มีหลายขั้นตอน ซึ่งประมวลในแต่ละส่วนโดยใช้ความละเอียดภาพที่แตกต่างกัน

 

อันดับแรก MediaPipe Holistic จะระบุท่าทางของมนุษย์โดยใช้โมเดลตรวจจับท่าทางและโมเดลระบุ Keypoint หลังจากนั้นจึงนำ Keypoint ที่ระบุได้มาแบ่งออกเป็น 3 จุดสนใจ (Region of Interest: ROI) ครอปตัดส่วนที่เป็นแขน 2 ข้าง และส่วนหน้า แล้วจึงใช้ส่วนที่ครอปออกมาแทนเพื่อเพิ่มความละเอียดของจุดนั้น จากนั้น Pipeline จะทำการครอปเฟรมที่มีความละเอียดสูงสุดของจุด ROI ทั้งสองจุด แล้วจึงใช้กับโมเดลที่ตรวจจับส่วนของใบหน้าและมือเพื่อระบุตำแหน่ง Keypoints ตามส่วนต่าง ๆ และขั้นตอนสุดท้ายจะเป็นการนำ Keypoint ที่ได้มารวมกับ Keypoint ของโมเดลท่าทางในตอนต้น รวมกันเป็น 540 keypoint+

 

การจะทำให้การระบุ ROI มีประสิทธิภาพขึ้นนั้น ต้องใช้ระบบตรวจจับแบบเดียวกับระบบที่ใช้ในอุปกรณ์ที่ตรวจจับใบหน้าหรือแขนเพียงอย่างเดียว ซึ่งจะใช้การอนุมานว่าวัตถุที่ตรวจจับไม่ได้มีการขยับมากนัก โดยจะใช้เฟรมก่อนหน้าเพื่อคาดการณ์การระบุตำแหน่งของวัตถุในเฟรมต่อไป อย่างไรก็ตาม ถ้าวัตถุขยับเร็วเกินไป ตัวติดตามตำแหน่งอาจผิดพลาด ซึ่งทำให้ตัวตรวจจับอาจต้องตรวจจับตำแหน่งในภาพใหม่อีกครั้ง MediaPipe Holistic จะใช้การคาดการณ์ท่าทางในทุก ๆ เฟรมล่วงหน้าไว้เป็นเสมือนจุด ROI เสริมไว้ก่อนตั้งแต่แรกเพื่อลดระยะเวลาในการตอบสนองของ Pipeline เวลาที่พบการเคลื่อนไหวที่รวดเร็วเกินไป นอกจากนี้วิธีนี้ยังช่วยให้โมเดลสามารถรักษาความสอดคล้องกันได้ทั่วทั้งรูปร่างและป้องกันไม่ให้เกิดความสับสนระหว่างมือซ้ายและมือขวา หรือส่วนที่ต่างกันของร่างกายในแต่ละเฟรม

 

นอกจากนี้โดยปกติแล้วความละเอียดของเฟรมตรวจจับท่าทางนั้นจะต่ำเกินไปทำให้จุด ROI ของหน้าและมือนั้นมีความแม่นยำน้อยไป จนไม่สามารถให้แนวทางในการครอปตัดส่วนนั้นได้ ทำให้ต้องใช้โมเดลในการครอปตัดส่วนหน้าและมือที่มีขนาดเล็กแต่แม่นยำ เพื่อที่จะลดช่องว่างในเรื่องความแม่นยำระหว่างส่วนตัวและส่วนของมือกับใบหน้า โมเดลที่มีขนาดเล็กจะทำหน้าที่เป็นตัวแปลงพื้นที่ (Spatial Transformer) และยังใช้เวลาในการประมวลผลโมเดลน้อยลง 10 เปอร์เซ็นต์

 

ประสิทธิภาพการทำงาน

 

MediaPipe Holistic จำเป็นต้องใช้การทำงานร่วมกันระหว่าง 8 โมเดลต่อเฟรม แบ่งเป็น โมเดลตรวจจับท่าทาง 1 โมเดล โมเดลตรวจจับ Landmark ของท่าทาง 1 โมเดล โมเดล re-crop เพื่อครอปรูปใหม่ 3 โมเดล และโมเดลในการระบุ Keypoint สำหรับมือและใบหน้าอีก 3 โมเดล ซึ่งในระหว่างที่ Google พัฒนาโซลูชันนี้ พวกเขาได้ใช้ทั้ง Machine Learning และ Algorithm ในการคำนวณทั้งก่อนและหลังการประมวลผล ซึ่งโดยปกติแล้วการประมวลผลจะใช้เวลาค่อนข้างมากเนื่องจากความซับซ้อนของ Pipeline แต่ในกรณีของ MediaPipe Holistic พวกเขาได้ย้ายกระบวนการการคำนวณช่วงก่อนเริ่มดำเนินงานทั้งหมดไปไว้ที่ GPU ทำให้ Pipeline สามารถทำงานได้เร็วขึ้นโดยเฉลี่ย 1.5 เท่า แต่อาจจะแตกต่างกันไปบ้างในแต่ละอุปกรณ์ ดังนั้น MediaPipe Holistic จึงสามารถทำงานได้เกือบจะเรียลไทม์ แม้กระทั่งในอุปกรณ์ระดับกลางและในเบราว์เซอร์

 

คุณสมบัติของ Pipeline ที่ประกอบด้วยการทำงานหลายขั้นตอนนั้นช่วยเพิ่มประสิทธิภาพในการได้ใน 2 ส่วน หนึ่งคือเนื่องจากโมเดลส่วนมากเป็นโมเดลที่ทำงานแบบอิสระ จึงสามารถใช้โมเดลเวอร์ชันที่เล็กลงหรือใหญ่ขึ้นก็ได้ ขึ้นอยู่กับความแม่นยำและประสิทธิภาพที่ต้องการ หรือจะปิดโมเดลนั้นไปเลยก็ได้ และสองคือเมื่ออุปกรณ์สามารถตรวจจับท่าทางได้ ก็จะสามารถคาดเดาได้ว่ามือกับหน้าอยู่ในพื้นที่เฟรมที่เชื่อมต่อกันด้วยหรือไม่ ทำให้ Pipeline สามารถข้ามขั้นตอนการระบุส่วนเหล่านั้นไปได้

 

การนำ MediaPipe Holistic ไปต่อยอด

2021_Deep_AI-03.jpg

Google มุ่งหวังให้ MediaPipe Holistic ช่วยให้การตรวจจับภาษากาย ท่าทาง และการแสดงออกทางสีหน้าในเวลาเดียวกันนั้นเป็นไปได้ ซึ่งจะช่วยให้การสั่งการด้วยท่าทาง ระบบ AR แบบเต็มตัว การวิเคราะห์ทางกีฬา และการตรวจจับภาษามือเกิดขึ้นได้จริง 

 

Google ได้จำลอง Interface ที่ใช้การสั่งการแบบควบคุมระยะไกลขึ้นเพื่อแสดงประสิทธิภาพของ MediaPipe Holistic โดย Interface นี้จะทำงานในเบราว์เซอร์ของผู้ใช้ ผู้ใช้สามารถควบคุมวัตถุบนหน้าจอ และพิมพ์ลงบนคีย์บอร์ดเสมือนจริงได้ในขณะที่นั่งอยู่บนโซฟา โดยไม่ต้องใช้คีย์บอร์ดและเมาส์จริง และสามารถแตะส่วนที่กำหนดเพื่อปิดกล้องหรือปิดเสียงได้ นอกจากนี้ยังมีระบบตรวจจับมือที่ใช้แทน Trackpad โดยจะตรวจจับไปที่ไหล่ของผู้ใช้งาน ทำให้ควบคุมการสั่งการทางไกลได้ถึง 4 เมตร 

 

เทคนิคการควบคุมและสั่งการด้วยท่าทางนี้จะช่วยให้เราก้าวข้ามไปอีกระดับ และเปิดโอกาสให้เราได้ใช้นวัตกรรมใหม่ ๆ ที่อุปกรณ์อื่นทำไม่ได้ 

สามารถทดลองใช้ได้ที่ MediaPipe Holistic Interface จาก Google ได้ที่: https://mediapipe.dev/demo/holistic_remote/

2021_Deep_AI-04.jpg

MediaPipe สำหรับการวิจัยและการใช้ในเว็บไซต์

 

MediaPipe ได้เปิดตัว Machine Learning เวอร์ชันที่พร้อมใช้งานและปรับแต่งได้ในรูปแบบ Python และ JavaScript เพื่อให้นักวิจัยด้าน Machine Learning และนักพัฒนาเว็บใช้ประโยชน์ได้เต็มที่ โดยนอกจากตัว MediaPipe Holistic แล้วยังมีซอฟต์แวร์ที่ใช้เฉพาะกับใบหน้า ท่าทาง และมืออีกด้วย และยังมีซอฟต์แวร์อื่น ๆ อีกมากที่เตรียมพร้อมจะเปิดตัวตามมาให้รอชม

 

โดย Google มุ่งหวังให้การเปิดตัว MediaPipe Holistic ครั้งนี้เป็นแรงบันดาลใจให้นักพัฒนาได้สร้างแอปพลิเคชันใหม่ ๆ สร้างพื้นที่ให้งานวิจัยในอนาคต และเปิดโอกาสให้สามารถสร้างนวัตกรรมใหม่ เช่น การตรวจจับภาษากาย การสั่งการโดยไม่ต้องสัมผัส หรือนวัตกรรมที่ซับซ้อนขึ้นได้ต่อไป

 

แหล่งอ้างอิง:

https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous-face.html

Related Posts