小样本目标检测作为计算机视觉的重要分支,致力于模拟人类从极少量样本中学习新目标检测的能力。现有方法依赖大量标注数据,且仍受限于预定义类别表征的刚性约束,因此难以适应开放词汇场景。除此之外,CLIP等视觉–语言预训练模型通过跨模态对齐展现了零样本推理潜力,但其聚焦于图像分类任务,而小样本条件下的目标检测模型性能退化仍面临关键挑战。为此,本文提出了一种基于YOLO-World的开放词汇小样本目标检测方法YW-FSVOD。该方法通过构建语言描述引导的多尺度特征对齐机制,将文本语义嵌入至YOLO-World的视觉编码空间,增强模型对未见类别的泛化能力;并采用预计算文本嵌入替代完整语言模型计算,在保证检测精度的同时实现推理速度的显著提升。实验结果表明,YW-FSVOD在COCO和LVIS数据集上表现优异,精度显著优于传统的小样本目标检测框架。Few-shot object detection, as an important branch of computer vision, aims to simulate the human ability to learn new object categories from a minimal number of samples. Existing methods typically rely on large annotated datasets and are constrained by rigid predefined category representations, making them difficult to adapt to open-vocabulary scenarios. Moreover, vision-language pretraining models, such as CLIP, have shown promising zero-shot inference capabilities through cross-modal alignment, but these models are primarily focused on image classification tasks. The performance of object detection models under few-shot conditions still faces significant challenges. To address this issue, we propose a novel open-vocabulary few-shot object detection method, YW-FSVOD, based on YOLO-World. This approach constructs a multi-scale feature alignment mechanism guided by textual descriptions, embedding textual semantics into the visual encoding space of YOLO-World to enhance the model’s generalization ability to unseen categories. Additionally, w
OSNet是一种有效的轻量级行人重识别网络,因其兼具有轻量化和高性能的优异特点引起了行人重识别领域的关注。最近的研究表明:多分支协作OSNet网络——BC-OSNet能取得更高的识别率。本文在此基础上继续研究网络微结构的调整对BC-OSNet模型性能的影响,重点通过通用池化GeM、连续高斯Dropout、注意力学习Batch DropBlock(BDB)/Relation-Aware Global Attention(RGA)等微结构的有效融入,研究微结构优化的BC-OSNet性能提升效果。实验结果表明:经微结构优化的BC-OSNet在四个行人重识别数据集Market1501,Duke,CUHK03_Labeled和CUHK03_Detected上的mAP分别达到了89.9%,82.1%,84.2%和81.5%,相比初始的BC-OSNet提高0.6%,1.4%,1.1%和1.7%。
数据集类别不平衡性是机器学习领域的常见问题,对迁移学习也不例外。本文针对迁移学习下数据集类别不平衡性的影响研究不足的问题,重点研究了以下几种不平衡性处理方法对迁移学习的影响效果分析:过采样、欠采样、加权随机采样、加权交叉熵损失函数、Focal Loss函数和基于元学习的L2RW(Learning to Reweight)算法。其中,前三种方法通过随机采样消除数据集的不平衡性,加权交叉熵损失函数和Focal Loss函数通过调整传统分类算法的损失函数以适应不平衡数据集的训练,L2RW算法则采用元学习机制动态调整样本权重以实现更好的泛化能力。大量实验结果表明,在上述各种不平衡性处理方法中,过采样处理和加权随机采样处理更适合迁移学习。