Neurlps2024论文解析|Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and网站首页 其他

Neurlps2024论文解析|Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and

haimianxiaobao11 2026-06-05 00:01:06

简介Neurlps2024论文解析|Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and

论文标题

Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting 通过无标签提示分布学习和偏差校正增强零样本视觉模型

论文链接

Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting论文下载

论文作者

Xingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang, Yanbin Hao, Hanwang Zhang

内容简介

本文提出了一种名为Frolic的框架，通过无标签提示分布学习和偏差校正来增强零样本视觉模型的性能。现有的视觉语言模型（如CLIP）在使用适当文本描述时展现出良好的泛化能力，但在下游任务中优化提示时需要标注数据，且受限于标注质量。此外，由于CLIP在不平衡的网络数据上进行预训练，导致其存在固有的标签偏差，影响性能。Frolic通过学习提示原型的分布来捕捉多样的视觉表示，并通过置信度匹配将这些表示与原始CLIP模型融合。该方法不仅免于训练，还避免了超参数调整的需求。实验结果表明，Frolic在16个数据集上表现优异，特别是在10个数据集上平均超越最先进的方法2.6%。

在这里插入图片描述

分点关键点

Frolic框架
- Frolic通过无标签提示分布学习来捕捉视觉表示的多样性，利用高斯分布建模提示原型的分布。该方法避免了对标注数据的依赖，适用于零样本场景。
偏差校正机制
- 该框架开发了一种偏差估计机制，通过将采样过程从预训练数据分布转变为下游分布的类条件采样，来纠正CLIP模型的标签偏差，从而实现更平衡的预测。
置信度匹配技术
- Frolic采用置信度匹配技术，将原始CLIP模型的预测与基于高斯分布的模型预测相结合，动态平衡两者的贡献，消除了超参数调整的需求。
实验结果
- 在16个数据集上的实验结果显示，Frolic在多个任务中均表现出色，特别是在ImageNet及其五个分布偏移上，平均提高了1.5%的准确率，证明了其有效性。