AI 繪畫原理 CLIP~眾里尋她千百度

如果讓你把左側(cè)三張圖和右側(cè)三句話配對你可以輕松完成這個連線

但對 AI 來說

圖片就是一系列像素點,文本就是一串字符要完成這個工作可不簡單

這需要咐弊AI在海量文本-圖片]數(shù)據(jù)上學習圖片和文本的匹配

圖中綠色方塊是[圖片潛在空間]的N張圖片紫色方塊是T文本潛在空間的N描述語

AI會努力將對應州簡知的11與 T1 (藍色方塊) 匹配而不是12與T3(灰色方塊) 匹配

這個A就是廣泛被用在AI作畫中的CLIP (Contrastive Language-lmage Pre-Training/對比式語言-文字預冊消訓練)

當AI能成功完成這個連線

也就意味著AI建立了[文字潛在空間]到圖片潛在空間]的對應關系這就是上一回中之所以AI能根據(jù)提示語“一只騎摩托車的大熊貓”找到[圖片潛在空間] 中對應(圖片) 點的原因