Data Labeling งานเสริมยุคใหม่ สอน AI ด้วยข้อมูล

DEC 30, 2020

ในปัจจุบันวิธีหนึ่งที่นิยมทำในการระบุประเภทข้อมูล (Data Labeling) คือ วิธี Supervised Learning (แปลเป็นไทยแบบตรง ๆ คือสอนแบบมีคนสั่งสอน) ซึ่งเป็นการสอนให้โมเดล AI/ML (Machine Learning) เรียนรู้จากข้อมูล Labeled Data โดยบอกโมเดลว่าข้อมูลนั้นคืออะไร เช่น ถ้าจะสอนให้โมเดลจำภาพคน สัตว์ สิ่งของจากรูปภาพ ก็ต้องป้อนข้อมูลของรูปคน สัตว์ หรือสิ่งของนั้น ๆ ในแต่ละประเภทแบบหลากหลายให้ AI/ML เรียนรู้ ถ้าจะให้จำตัวหนังสือที่สแกนจากหนังสือก็ต้องป้อนตัวหนังสือต่าง ๆ พร้อม Label ว่ารูปตัวหนังสือเหล่านั้นคืออะไร เสียงพูดก็เช่นเดียวกัน ก็ต้องอัดเสียงคำพูดพร้อมใส่ Label ว่าคำพูดนี้คืออะไร เพราะฉะนั้นเราสามารถประยุกต์ให้ AI/ML ทำการแยกแยะได้ (Classification) โดยป้อนข้อมูลที่บ่งบอกให้โมเดลเรียนรู้ และจดจำข้อมูลนั้น ๆ ซึ่งกระบวนการในการสร้าง Labeled Data ข้อมูลชุดนี้ ต้องใช้แรงงานมากโดยเฉลี่ยอย่างน้อย 25% ของเวลาในการพัฒนา AI/ML

 

มีการคาดการณ์จาก Reportlinker.com ว่าธุรกิจ Data Labeling Service จะเติบโตประมาณ 3,500 ล้านภายในปี 2026 หลาย ๆ องค์กรมักจะจ้างพนักงาน outsource ให้บริษัทที่ทำด้านนี้มาจัดการแทน งาน Labeled Data เป็นงานที่ใช้ทักษะของคนในการแยกแยะข้อมูล ผ่านการใช้คอมพิวเตอร์ highlight เพื่อเลือกข้อมูลที่สนใจ และพิมพ์คำตอบของข้อมูลที่จะให้ Label โดยถือเป็นงานที่สร้างโอกาสด้านดิจิทัลสำหรับผู้ที่ต้องการหารายได้เสริม งานด้านนี้เริ่มมีมาตั้งแต่แรกที่ Amazon Mechanical Turk ซึ่งเป็นตลาดรับงานออนไลน์ที่มีการจ่ายงานเป็นชิ้นเล็ก ๆ (Micro-task) โดยมีเรทราคาที่แตกต่างกันตามที่เจ้าของงานเป็นผู้กำหนด อาจจะจ่ายเป็นรายชิ้นงาน เช่น Label เสียงพูด 100 คลิป ในราคา 100 บาท หรืออาจจะจ่ายเป็นรายชั่วโมง ในวงการนี้มีบริษัทที่เป็นธุรกิจเพื่อสังคมหรือธุรกิจเพื่อการค้าที่น่าสนใจอยู่หลายราย เช่น บริษัท iMerit ประกอบธุรกิจที่มีภารกิจในการสร้างความเท่าเทียมด้านรายได้ให้กับคนในสังคม บริษัทมีพนักงานประจำประมาณ 2,300 คน ส่วนใหญ่อยู่ในประเทศอินเดียและครึ่งหนึ่งเป็นผู้หญิง ขณะที่บริษัท Samasource มีลักษณะธุรกิจคล้าย ๆ กับ iMerit มีการจ้างงานจากคนในประเทศเคนยา และ ยูกันดา และเน้นการจ้างงานเยาวชนของครอบครัวที่มีรายได้ต่ำและคนที่อาศัยอยู่ในชุมชนแออัด เกินครึ่งเป็นคนทำงานผู้หญิงเช่นกัน โดยบริษัทจะจ่ายค่าเล่าเรียนและช่วยเหลือในการหางานที่เป็นหลักแหล่งในอนาคตให้ด้วย ส่วนบริษัท Alegion และบริษัท CloudFactory เน้นไปที่การจ้างงานเป็นรายชั่วโมง ซึ่งพนักงานส่วนใหญ่ของ CloudFactor มองว่างานนี้เป็นรายได้หลักของพวกเขา ขณะที่พนักงานของ Alegion มองว่างานที่ได้รับเป็นแค่รายได้เสริมเท่านั้น

 

บริการของบริษัทเหล่านี้ไม่แตกต่างกันมาก แต่สิ่งที่ผู้ใช้บริการต้องคำนึงถึงคงเป็นเรื่องที่ต้องดูว่ามีการจัดการสิ่งเหล่านี้ดีหรือไม่ เช่น 

  1. การจัดการคนที่จะมาทำ Label ที่สามารถตอบสนองกับงานที่เราต้องการ อย่างงานบางประเภทที่เกี่ยวข้องกับภาษา (เช่น การแยกประโยคภาษาไทย) จำเป็นต้องใช้คนที่เข้าใจในภาษานั้น ๆ เป็นอย่างดีมารับผิดชอบ

  2. การจัดการคุณภาพของข้อมูลที่ถูก Label แล้ว ซึ่งคุณภาพสามารถมองได้หลายมิติ เช่น ความแม่นยำ (Accuracy), ความครบถ้วน (Completeness), ความคงเส้นคงวา (Consistency), ความซื่อสัตย์ (Integrity), ความเป็นเหตุเป็นผล (Reasonability), ตรงต่อเวลา (Timeliness), ไม่ซ้ำซ้อน (Uniqueness/Deduplication), ความถูกต้อง (Validity) และการเข้าถึงได้ (Accessibility)

  3. ราคา และงบประมาณที่เหมาะสมกับโครงการ

  4. มีมาตรการในการดูแลความปลอดภัย และความเป็นส่วนบุคคลของข้อมูล เพื่อไม่ให้เกิดการรั่วไหลของข้อมูล

  5. มีเครื่องมือในการใช้ทำ Label ที่กำหนดมาตราส่วน (Scale) ได้ เพื่อที่จะรองรับงานที่มีปริมาณมากหรือต้องการการตอบสนองที่รวดเร็ว (ต้องใช้คนจำนวนมากมาช่วยในการ Label เพื่อให้งานเสร็จทันเวลา และยังคงความถูกต้องอยู่)

 

ในยุคที่งาน AI/ML มีปริมาณที่เพิ่มขึ้น งาน Data Labeling Service จึงมีความต้องการในการจ้างงานที่สูงขึ้นเช่นกัน ซึ่งเป็นโอกาสที่ดีสำหรับบริษัทในประเทศไทยที่เราจะมีธุรกิจลักษณะนี้เพื่อขยายโอกาสให้กับบุคคลากรในประเทศ เพื่อสร้างรายได้ให้กับผู้ที่ด้อยโอกาส รวมทั้งกลุ่มผู้เปราะบางอย่างแรงงานที่อยู่ในเรือนจำหรือผู้พิการ ซึ่งผมมีโอกาสได้ไปสัมผัสการฝึกงานและงานแสดงสินค้าของผู้ต้องขัง รวมถึงผู้พิการที่เน้นการทำงานด้านหัตถกรรม ผมคิดว่าโลกเราเปลี่ยนไปจากเดิมแล้ว จึงควรสร้างโอกาสให้กับบุคคลเหล่านี้ให้มีส่วนร่วมในโลกดิจิทัลมากขึ้น งานด้าน Data Labeling ก็ถือเป็นขั้นแรกของการต่อยอดโอกาสให้กับผู้ที่ขาดโอกาส ช่วยสร้างรายได้ และยังช่วยลดความเลื่อมล้ำในอนาคตอีกด้วย

บทความโดย
คุณจรัล งามวิโรจน์เจริญ
Chief Data Scientist & VP of Data Innovation Lab
บริษัท เซอร์ทิส จำกัด

Related Posts

CONTACT US

Singapore Office

Sertis International Pte. Ltd.

3 Pickering Street

#03-05 Singapore 048660

Thailand Office

Sertis Co.,Ltd. 

597/5 Sukhumvit Road,

Khlong Tun Nuea, Wattana, Bangkok, Thailand 10110

© 2020 Sertis Co.,Ltd. All rights reserved.

  • Sertis Facebook
  • Sertis Linkedin
  • Sertis Channel
Sertis-Logo_2020.png