引文:
@article{wah2011caltech, title={The caltech-ucsd birds-200-2011 dataset}, author={Wah, Catherine and Branson, Steve and Welinder, Peter and Perona, Pietro and Belongie, Serge}, year={2011}, publisher={California Institute of Technology} }
地址:数据集-OpenDataLab
Caltech-UCSD Birds-200-2011 (CUB-200-2011) 数据集是用于细粒度视觉分类任务的最广泛使用的数据集。它包含属于鸟类的 200 个子类别的 11,788 张图像,其中 5,994 张用于训练,5,794 张用于测试。每个图像都有详细的注释:1 个子类别标签、15 个部分位置、312 个二进制属性和 1 个边界框。文本信息来自 Reed 等人。他们通过收集细粒度的自然语言描述来扩展 CUB-200-2011 数据集。为每个图像收集十个单句描述。自然语言描述是通过 Amazon Mechanical Turk (AMT) 平台收集的,要求至少 10 个单词,没有任何子类别和动作信息。
1. 数据集概览 数据量:总计包含 11,788 张鸟类图像。 训练集:5,994 张图像,用于模型训练。测试集:5,794 张图像,用于模型测试和评估。类别:覆盖 200 个鸟类子类别,每个类别对应一个特定物种。 2. 数据标注CUB-200-2011 数据集提供了丰富且详细的标注信息,适用于多种任务:
子类别标签: 每张图像标注了所属的鸟类子类别。支持细粒度分类任务,区分外观相似的物种。部分位置(15 个点): 提供鸟类的关键部位坐标(例如喙、翅膀、尾巴等),适用于关键点检测任务。二进制属性(312 个): 每张图像包含 312 个二进制属性标注,例如羽毛颜色、腿的长度等,用于属性预测任务。边界框: 提供每只鸟的边界框,用于目标检测任务。 3. 扩展文本信息由 Reed 等人 扩展,CUB-200-2011 包括为每张图像收集的自然语言描述,旨在结合视觉和语言研究。扩展特性包括:
自然语言描述: 每张图像附有 10 条单句描述,通过 Amazon Mechanical Turk (AMT) 平台收集。描述特点: 每条描述至少包含 10 个单词。避免直接包含鸟类子类别或动作信息。示例描述:“This bird has a white belly and a long, pointed beak.”多模态任务支持: 文本描述结合图像用于跨模态任务,例如图像-文本匹配、图像生成和细粒度描述生成。 4. 应用场景CUB-200-2011 数据集广泛用于以下研究领域:
细粒度视觉分类: 解决视觉上难以区分的物种分类问题。关键点检测: 根据 15 个部位标注,用于鸟类关键点定位研究。属性预测: 基于 312 个二进制属性,研究对象特征的精细化分析。目标检测: 通过边界框标注,用于鸟类的目标检测任务。跨模态学习: 将图像和文本结合,研究图像-文本对齐、文本生成和跨模态检索。生成模型研究: 基于文本描述生成鸟类图像,推动生成对抗网络(GANs)等生成模型的发展。 5. 数据集的优势 细粒度标注:提供丰富的细节,适合多任务学习。文本扩展:通过自然语言描述,增强跨模态任务支持。应用广泛:既支持计算机视觉研究,也适用于自然语言处理和跨模态研究。后续如果要做多模态或者多源数据挖掘的时候,可以用这个数据集,记录一下。。。