Variational Inference: An Introduction

DeepAI-Dec_Sertis1-01.jpg
DEC 17, 2021

ปัญหาหลักที่มักพบเจอกันบ่อย ๆ ในศาสตร์ของสถิติสมัยใหม่นั้น ได้แก่ ปัญหาในการคำนวณการแจกแจงความน่าจะเป็น (Probability distributions) ที่ซับซ้อน ให้ได้อย่างมีประสิทธิภาพ ซึ่งการแก้ปัญหาดังกล่าวให้ได้นั้นเป็นเรื่องที่จำเป็นมากตามหลักสถิติแบบเบย์ (Bayesian statistics) ซึ่งหลักการสำคัญของหลักสถิติแบบเบย์คือการวางกรอบการอนุมานตัวแปรที่ไม่ทราบค่าโดยใช้การคำนวณการแจกแจงความน่าจะเป็นภายหลัง (Posterior probability distribution)

เทคนิคการอนุมานที่แท้จริง หรือ Exact Inference ไม่ว่าจะเป็น อัลกอริธึมแบบ Elimination อัลกอริธึมแบบ Message Passing หรืออัลกอริธึมแบบ Juction tree  ล้วนจำเป็นต้องคำนวณการแจกแจงความน่าจะเป็นภายหลังของตัวแปรที่สนใจ อย่างไรก็ตาม ในกรณีที่ชุดข้อมูลมีขนาดใหญ่และฟังก์ชันการแจกแจงความน่าจะเป็นนั้นซับซ้อน หากต้องการให้อัลกอริธึมแบบ Exact Inference คำนวณได้แม่นยำนั้นก็ต้องแลกมาด้วยความเร็วที่ลดลง

ในทางตรงกันข้าม เทคนิคการอนุมานแบบประมาณ หรือ Approximate Inference นั้นสามารถแก้ปัญหาดังกล่าวได้อย่างมีประสิทธิภาพ ด้วยการใช้เทคนิคการประมาณค่าการแจกแจงความน่าจะเป็นแบบภายหลังออกมาคร่าว ๆ แทน ซึ่งเทคนิคแบบ Markov Chain Monte Carlo (MCMC) หลากหลายเทคนิค อาทิ อัลกอริธึมแบบ Metropolis-Hastings หรือการสุ่มตัวอย่างแบบ Gibbs ก็ถือเป็นอัลกอริธึมที่จัดอยู่ในเทคนิคประเภทนี้เช่นกัน 

โดยตั้งแต่ต้นทศวรรษที่ 1950 นักวิจัยได้ทำการศึกษาเทคนิคแบบ MCMC อย่างละเอียด และได้พัฒนาต่อมาเป็นเครื่องมือทางสถิติที่จำเป็นมากในการคำนวณ Approximate Inference ในปัจจุบัน แต่ท้ายที่สุดแล้ว วิธีสุ่มตัวอย่างแบบดั้งเดิมเช่นนี้นั้นใช้เวลาค่อนข้างนานในการ Convergence รวมถึงไม่สามารถขยายขนาด (Scalable) ได้อีกด้วย

อีกทางเลือกหนึ่งที่น่าสนใจนั้น ได้แก่ เทคนิค Approximate Inference อีกเทคนิคหนึ่งที่มีชื่อว่า Variational Inference (VI) เทคนิคการอนุมานแบบนี้ช่วยแก้ปัญหาให้สามารถคำนวณการแจกแจงความน่าจะเป็นที่ซับซ้อนได้ง่ายขึ้น ซึ่งหลักการสำคัญของ VI คือการเลือกการประมาณค่าการแจกแจงความน่าจะเป็นโดยใช้เมตริกที่เหมาะสม ซึ่งมักจะเป็นการใช้วิธีวัดความแตกต่างแบบ Kullback–Leibler (KL) divergence ซึ่งวิธีนี้จะเปลี่ยนกรอบในการอนุมานจากการอนุมานเชิงสถิติ เป็นการหาค่าที่เหมาะสมที่สุด (Optimization problem) แทน

Fig. 1:  ภาพแสดงการหาค่าต่ำสุดของความต่างแบบ KL-divergence กับการกระจายที่มีสองฐานนิยม (Bimodal distribution) รูปทรงสีฟ้าและสีแดงแสดงให้เห็นถึงความหนาแน่นที่แท้จริงของความน่าจะเป็นการประมาณค่าแบบฐานนิยมเดียว (Unimodal approximation) ตามลำดับ ภาพทางด้านซ้ายและขวาแสดงให้เห็นว่า การหาค่าต่ำสุดของ KL-divergence แบบย้อนกลับ ส่งผลให้การประมาณความหนาแน่นถูกตรึงไว้ที่ฐานนิยมอันใดอันหนึ่ง

ความแตกต่างของ VI จากวิธีการแบบสุ่มอื่น ๆ นั้น คือการที่ VI ยอมแลกการหาค่าที่ดีที่สุด (Optimal solution) แบบ Global เพื่อให้ได้การ Convergence ที่รวดเร็วแทน นอกจากนี้ VI ยังสามารถขยายขนาดและนำไปใช้คู่กับเทคนิคอื่น ๆ เช่น เทคนิค Optimization แบบ Stochastic Gradient เทคนิคการคำนวณแบบขนานบนตัวประมวลผลหลายตัว และเทคนิคการใช้ GPUs ในการเร่งความเร็ว

นอกจากนี้ VI ยังสามารถคำนวณค่าขอบเขตล่างสุด (Lower bound) ของการแจกแจงข้อมูลได้อย่างมีประสิทธิภาพ ซึ่งเรามักจะเรียกขอบเขตล่างสุดที่คำนวณได้นี้ว่า Evidence Lower BOund (ELBO) ซึ่งไอเดียหลัก ๆ ของการคำนวณคือยิ่งเราคำนวณได้ค่า Marginal likelihood สูงเท่าไร ก็ยิ่งหมายความว่าเราเลือกโมเดลได้เหมาะสมกับรูปแบบข้อมูลมากเท่านั้น

ช่วงปีหลัง ๆ มานี้ เทคนิคการอนุมานแบบ VI ได้รับความนิยมในวงการฟิสิกส์เชิงสถิติและใช้ในการสร้าง Generative model มากขึ้นเรื่อย ๆ โดยเฉพาะกลุ่มโมเดลที่ใช้สร้างข้อมูลรูปภาพ นอกจากนี้ยังมีการใช้เทคนิค VI ในการสร้างแมชชีนเลิร์นนิงแบบอื่น ๆ มากมาย ไม่ว่าจะเป็นการตรวจจับการทำงานที่ผิดปกติ (Anomaly detection) การวิเคราะห์อนุกรมเวลา (Time series estimation) การสร้างโมเดลด้านภาษา การลดมิติของข้อมูล (Dimensionality reduction) และโมเดลแบบ Unsupervised representation learning

สองนักวิจัยทางด้านปัญญาประดิษฐ์ (AI) Ankush Ganguly และ Samuel W. F. Earp จากทีม AI ของ Sertis ได้ทำการศึกษาค้นคว้าเทคนิคและการประยุกต์ใช้การอนุมานแบบ VI นี้ โดยได้รวบรวมผลการค้นคว้าทั้งหมด และจัดไว้ในบทความวิจัยที่มีเป้าหมายในการอธิบายพื้นฐานทางคณิตศาสตร์ของ VI รวมถึงระบุปัญหาและแนวคิดในการใช้วิธีการหาความต่างแบบ KL เป็นเมตริกในกระบวนการ Optimization ของ VI ต่อด้วยการอธิบายหลักการและความสำคัญของ ELBO นอกจากนี้ภายในเนื้อหายังมีการสาธิตการใช้งาน VI ร่วมกับการแจกแจงผสมแบบเกาส์ (Gaussian mixture) และยกตัวอย่างการนำ VI ไปใช้งานจริงในแขนงของ Deep Learning และ Computer Vision อีกด้วย

อ่านฉบับเต็มได้ที่: https://arxiv.org/abs/2108.13083

One of the core problems in modern statistics is efficiently computing complex probability distributions. Solving this problem is particularly important in Bayesian statistics, whose core principle is to frame inference about unknown variables as a calculation involving a posterior probability distribution.

Exact inference techniques such as the elimination algorithm, the message-passing algorithm, and the junction-tree algorithm involve analytically computing the posterior distribution over the variables of interest. However, in the case of large data sets and complicated posterior probability densities, exact inference algorithms favour accuracy at the cost of speed.

On the other hand, approximate inference techniques offer an efficient solution by estimating the actual posterior probability distribution. Various Markov Chain Monte Carlo (MCMC) techniques such as Metropolis-Hastings and Gibbs' Sampling fall under this category of algorithms. Since the early 1950s, researchers have extensively studied MCMC techniques that have developed into an indispensable statistical tool for solving approximate inference in recent years. However, these traditional sampling methods are slow to converge and are not scalable.

Alternatively, another approximate inference technique named Variational Inference (VI) offers an efficient solution for tractably computing complex posterior probability distributions. The main idea of VI is to select a tractable approximation to the true posterior distribution by using a suitable metric, which is usually the Kullback–Leibler (KL) divergence. This methodology of VI re-frames the statistical inference problem into an optimization problem.

Fig. 1: An illustration of KL-divergence minimization on a bimodal distribution. The blue and the red contours represent the actual probability density, and the unimodal approximation respectively. The left and the right panels show the reverse KL-divergence minimization results in the approximated density locking on to one of the two modes.

Unlike sampling-based methods, VI trades off finding a globally optimal solution with convergence. Additionally, VI often scales better and can easily be coupled with techniques like stochastic gradient optimization, parallelization over multiple processors, and acceleration using GPUs.

Furthermore, VI enables an efficient computation of a lower bound to the observed data distribution. This lower bound is popularly referred to as the Evidence Lower BOund (ELBO). The idea is that a higher marginal likelihood is indicative of a better fit to the observed data by the chosen statistical model.

In recent years, VI techniques have gained immense popularity in statistical physics and generative modeling, especially for image generation. Additionally, machine learning problems like anomaly detection, time series estimation, language modeling, dimensionality reduction, and unsupervised representation learning have all used VI in one form or the other.

Members from the Sertis AI research team, namely Ankush Ganguly and Samuel W. F. Earp, studied VI and its applications and summarized their findings in a paper. The researchers authored the paper intending to provide an intuitive explanation of the mathematical foundations for VI. The paper describes the problem statement for VI, introduces the idea of using KL-divergence as the metric for the VI optimization process, and discusses the concept of ELBO and its importance. Additionally, the paper demonstrates the application of VI to a mixture of Gaussians. Furthermore, it extends on a few practical applications of VI in deep learning and computer vision.

Read the full research at: https://arxiv.org/abs/2108.13083

Ankush-AI copy.jpg
Written By
Ankush Ganguly
Senior AI Researcher
Sam_AI copy.jpg
Written By
Sam Earp
AI Researcher

Related Posts

Bkkbiz-Dec2021-Metaverse_FN_1.jpg
Bkkbiz-Nov2021-HybridWork-01.jpg
2021_Oct_Article_Article_4.jpg