VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
架构图1.
不再是学习Y跟Yhat,而是\(S_Y和\hat{S_Y}\).思路跟stable diffusion一样.不在真实Y空间学习,而是在Y编码之后的隐空间学习.所以维度更低.效果更好.
2 方法论
我们提出了VL-JEPA(图1),这是一种用于视觉语言任务的具有联合嵌入预测架构(JEPA)的模型。 VL-JEPA 使用三元组\((X_V,X_Q,Y)\)
进行训练&#x

