ImageNet 历年冠军和相关 CNN 模型

aUY0K8

ImageNet

  1. 是一个超过 15 million 的图像数据集,大约有 22,000 类。
  2. 是由李飞飞团队从 2007 年开始,耗费大量人力,通过各种方式(网络抓取,人工标注,亚马逊众包平台)收集制作而成,它作为论文在 CVPR-2009 发布。当时人们还很怀疑通过更多数据就能改进算法的看法。
  3. 深度学习发展起来有几个关键的因素,一个就是庞大的数据(比如说 ImageNet),一个是 GPU 的出现。(还有更优的深度模型,更好的优化算法,可以说数据和 GPU 推动了这些的产生,这些产生继续推动深度学习的发展)。

ILSVRC

  1. 是一个比赛,全称是 ImageNet Large-Scale Visual Recognition Challenge,平常说的 ImageNet 比赛指的是这个比赛。
  2. 使用的数据集是 ImageNet 数据集的一个子集,一般说的 ImageNet(数据集)实际上指的是 ImageNet 的这个子集,总共有 1000 类,每类大约有 1000 张图像。具体地,有大约 1.2 million 的训练集,5 万验证集,15 万测试集。
  3. ILSVRC 从 2010 年开始举办,到 2017 年是最后一届。ILSVRC-2012 的数据集被用在 2012-2014 年的挑战赛中(VGG 论文中提到)。ILSVRC-2010 是唯一提供了 test set 的一年。
  4. ImageNet 可能是指整个数据集(15 million),也可能指比赛用的那个子集(1000 类,大约每类 1000 张),也可能指 ILSVRC 这个比赛。需要根据语境自行判断。
  5. 12-15 年期间在 ImageNet 比赛上提出了一些经典网络,比如 AlexNet,ZFNet,OverFeat,VGG,Inception,ResNet。我在 CNN 经典结构 1 中做了相应介绍。
  6. 16 年之后也有一些经典网络,比如 WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet。我在 CNN 经典结构 2 中做了相应介绍。

ImageNet 的分类结果(加粗为冠军)

网络 / 队名 val top-1 val top-5 test top-5 备注
2012 AlexNet 38.1% 16.4% 16.42% 5 CNNs
2012 AlexNet 36.7% 15.4% 15.32% 7CNNs。用了 2011 年的数据
2013 OverFeat 14.18% 7 fast models
2013 OverFeat 13.6% 赛后。7 big models
2013 ZFNet 13.51% ZFNet 论文上的结果是 14.8
2013 Clarifai 11.74%
2013 Clarifai 11.20% 用了 2011 年的数据
2014 VGG 7.32% 7 nets, dense eval
2014 VGG(亚军) 23.7% 6.8% 6.8% 赛后。2 nets
2014 GoogleNet v1 6.67% 7 nets, 144 crops
2014 GoogleNet v2 20.1% 4.9% 4.82% 赛后。6 nets, 144 crops
2014 GoogleNet v3 17.2% 3.58% 赛后。4 nets, 144 crops
2014 GoogleNet v4 16.5% 3.1% 3.08% 赛后。v4+Inception-Res-v2
2015 ResNet 3.57% 6 models
2016 Trimps-Soushen 2.99% 公安三所
2016 ResNeXt(亚军) 3.03% 加州大学圣地亚哥分校
2017 SENet 2.25% Momenta 与牛津大学

ImageNet 的定位结果(加粗为冠军)

网络 / 队名 val top-5 test top-5 备注
2012 AlexNet 34.19% 多伦多大学 Hinton 和他学生
2012 AlexNet 33.55% 用了 2011 年的数据
2013 OverFeat 30.0% 29.87% 纽约大学 Lecun 团队
2014 GoogleNet 26.44% 谷歌
2014 VGG 26.9% 25.32% 牛津大学
2015 ResNet 8.9% 9.02% 微软
2016 Trimps-Soushen 7.71% 公安三所,以 Inception, resNet, WRN 等为基础
2017 DPN 6.23% 新加坡国立大学与奇虎 360

ImageNet 的检测结果(加粗为冠军)

网络 / 队名 mAP(%) 备注
2013 OverFeat 19.40 使用了 12 年的分类数据预训练
2013 UvA 22.58
2013 OverFeat 24.3 赛后。使用了 12 年的分类数据预训练
2014 GoogleNet 43.93 R-CNN
2015 ResNet 62.07 Faster R-CNN
2016 CUImage 66.28 商汤和港中文,以 GBD-Net 等为基础
2017 BDAT 73.41 南京信息工程大学和帝国理工学院

其它
HikVision(海康威视):2016 年的场景分类第一

发表回复

登录... 后才能评论