Variational Inference: An Introduction

Sertis
17 ธ.ค. 2564
ยาว 1 นาที

ปัญหาหลักที่มักพบเจอกันบ่อย ๆ ในศาสตร์ของสถิติสมัยใหม่นั้น ได้แก่ ปัญหาในการคำนวณการแจกแจงความน่าจะเป็น (Probability distributions) ที่ซับซ้อน ให้ได้อย่างมีประสิทธิภาพ ซึ่งการแก้ปัญหาดังกล่าวให้ได้นั้นเป็นเรื่องที่จำเป็นมากตามหลักสถิติแบบเบย์ (Bayesian statistics) ซึ่งหลักการสำคัญของหลักสถิติแบบเบย์คือการวางกรอบการอนุมานตัวแปรที่ไม่ทราบค่าโดยใช้การคำนวณการแจกแจงความน่าจะเป็นภายหลัง (Posterior probability distribution)

เทคนิคการอนุมานที่แท้จริง หรือ Exact Inference ไม่ว่าจะเป็น อัลกอริธึมแบบ Elimination อัลกอริธึมแบบ Message Passing หรืออัลกอริธึมแบบ Juction tree ล้วนจำเป็นต้องคำนวณการแจกแจงความน่าจะเป็นภายหลังของตัวแปรที่สนใจ อย่างไรก็ตาม ในกรณีที่ชุดข้อมูลมีขนาดใหญ่และฟังก์ชันการแจกแจงความน่าจะเป็นนั้นซับซ้อน หากต้องการให้อัลกอริธึมแบบ Exact Inference คำนวณได้แม่นยำนั้นก็ต้องแลกมาด้วยความเร็วที่ลดลง

ในทางตรงกันข้าม เทคนิคการอนุมานแบบประมาณ หรือ Approximate Inference นั้นสามารถแก้ปัญหาดังกล่าวได้อย่างมีประสิทธิภาพ ด้วยการใช้เทคนิคการประมาณค่าการแจกแจงความน่าจะเป็นแบบภายหลังออกมาคร่าว ๆ แทน ซึ่งเทคนิคแบบ Markov Chain Monte Carlo (MCMC) หลากหลายเทคนิค อาทิ อัลกอริธึมแบบ Metropolis-Hastings หรือการสุ่มตัวอย่างแบบ Gibbs ก็ถือเป็นอัลกอริธึมที่จัดอยู่ในเทคนิคประเภทนี้เช่นกัน

โดยตั้งแต่ต้นทศวรรษที่ 1950 นักวิจัยได้ทำการศึกษาเทคนิคแบบ MCMC อย่างละเอียด และได้พัฒนาต่อมาเป็นเครื่องมือทางสถิติที่จำเป็นมากในการคำนวณ Approximate Inference ในปัจจุบัน แต่ท้ายที่สุดแล้ว วิธีสุ่มตัวอย่างแบบดั้งเดิมเช่นนี้นั้นใช้เวลาค่อนข้างนานในการ Convergence รวมถึงไม่สามารถขยายขนาด (Scalable) ได้อีกด้วย

อีกทางเลือกหนึ่งที่น่าสนใจนั้น ได้แก่ เทคนิค Approximate Inference อีกเทคนิคหนึ่งที่มีชื่อว่า Variational Inference (VI) เทคนิคการอนุมานแบบนี้ช่วยแก้ปัญหาให้สามารถคำนวณการแจกแจงความน่าจะเป็นที่ซับซ้อนได้ง่ายขึ้น ซึ่งหลักการสำคัญของ VI คือการเลือกการประมาณค่าการแจกแจงความน่าจะเป็นโดยใช้เมตริกที่เหมาะสม ซึ่งมักจะเป็นการใช้วิธีวัดความแตกต่างแบบ Kullback–Leibler (KL) divergence ซึ่งวิธีนี้จะเปลี่ยนกรอบในการอนุมานจากการอนุมานเชิงสถิติ เป็นการหาค่าที่เหมาะสมที่สุด (Optimization problem) แทน

Fig. 1: ภาพแสดงการหาค่าต่ำสุดของความต่างแบบ KL-divergence กับการกระจายที่มีสองฐานนิยม (Bimodal distribution) รูปทรงสีฟ้าและสีแดงแสดงให้เห็นถึงความหนาแน่นที่แท้จริงของความน่าจะเป็นการประมาณค่าแบบฐานนิยมเดียว (Unimodal approximation) ตามลำดับ ภาพทางด้านซ้ายและขวาแสดงให้เห็นว่า การหาค่าต่ำสุดของ KL-divergence แบบย้อนกลับ ส่งผลให้การประมาณความหนาแน่นถูกตรึงไว้ที่ฐานนิยมอันใดอันหนึ่ง

ความแตกต่างของ VI จากวิธีการแบบสุ่มอื่น ๆ นั้น คือการที่ VI ยอมแลกการหาค่าที่ดีที่สุด (Optimal solution) แบบ Global เพื่อให้ได้การ Convergence ที่รวดเร็วแทน นอกจากนี้ VI ยังสามารถขยายขนาดและนำไปใช้คู่กับเทคนิคอื่น ๆ เช่น เทคนิค Optimization แบบ Stochastic Gradient เทคนิคการคำนวณแบบขนานบนตัวประมวลผลหลายตัว และเทคนิคการใช้ GPUs ในการเร่งความเร็ว นอกจากนี้ VI ยังสามารถคำนวณค่าขอบเขตล่างสุด (Lower bound) ของการแจกแจงข้อมูลได้อย่างมีประสิทธิภาพ ซึ่งเรามักจะเรียกขอบเขตล่างสุดที่คำนวณได้นี้ว่า Evidence Lower BOund (ELBO) ซึ่งไอเดียหลัก ๆ ของการคำนวณคือยิ่งเราคำนวณได้ค่า Marginal likelihood สูงเท่าไร ก็ยิ่งหมายความว่าเราเลือกโมเดลได้เหมาะสมกับรูปแบบข้อมูลมากเท่านั้น ช่วงปีหลัง ๆ มานี้ เทคนิคการอนุมานแบบ VI ได้รับความนิยมในวงการฟิสิกส์เชิงสถิติและใช้ในการสร้าง Generative model มากขึ้นเรื่อย ๆ โดยเฉพาะกลุ่มโมเดลที่ใช้สร้างข้อมูลรูปภาพ นอกจากนี้ยังมีการใช้เทคนิค VI ในการสร้างแมชชีนเลิร์นนิงแบบอื่น ๆ มากมาย ไม่ว่าจะเป็นการตรวจจับการทำงานที่ผิดปกติ (Anomaly detection) การวิเคราะห์อนุกรมเวลา (Time series estimation) การสร้างโมเดลด้านภาษา การลดมิติของข้อมูล (Dimensionality reduction) และโมเดลแบบ Unsupervised representation learning สองนักวิจัยทางด้านปัญญาประดิษฐ์ (AI) Ankush Ganguly และ Samuel W. F. Earp จากทีม AI ของ Sertis ได้ทำการศึกษาค้นคว้าเทคนิคและการประยุกต์ใช้การอนุมานแบบ VI นี้ โดยได้รวบรวมผลการค้นคว้าทั้งหมด และจัดไว้ในบทความวิจัยที่มีเป้าหมายในการอธิบายพื้นฐานทางคณิตศาสตร์ของ VI รวมถึงระบุปัญหาและแนวคิดในการใช้วิธีการหาความต่างแบบ KL เป็นเมตริกในกระบวนการ Optimization ของ VI ต่อด้วยการอธิบายหลักการและความสำคัญของ ELBO นอกจากนี้ภายในเนื้อหายังมีการสาธิตการใช้งาน VI ร่วมกับการแจกแจงผสมแบบเกาส์ (Gaussian mixture) และยกตัวอย่างการนำ VI ไปใช้งานจริงในแขนงของ Deep Learning และ Computer Vision อีกด้วย อ่านฉบับเต็มได้ที่: https://arxiv.org/abs/2108.13083