ImageNet
ImageNet项目是一个大型视觉数据库,用于视觉目标识别软件研究。该项目已手动注释了1400多万张图像[1][2],以指出图片中的对象,并在至少100万张图像中提供了边框[3]。ImageNet包含2万多个典型类别[2],例如“气球”或“草莓”,每一类包含数百张图像[4]。尽管实际图像不归ImageNet所有,但可以直接从ImageNet免费获得标注的第三方图像URL[5]。2010年以来,ImageNet项目每年举办一次软件竞赛,即ImageNet大规模视觉识别挑战赛(ILSVRC)。挑战赛使用1000个“整理”后的非重叠类[6],软件程序比赛正确分类和检测目标及场景。
历史
AI研究员李飞飞从2006年开始研究ImageNet的想法。在大多数AI研究专注于模型和算法的时候,李飞飞则希望扩展和改进可用于训练AI算法的数据[7]。2007年,李飞飞与普林斯顿大学教授克里斯蒂安·费尔鲍姆会面讨论了该项目,他是WordNet的创建者之一。之后李继续从WordNet的单词数据库开始构建ImageNet,并使用了其许多功能[8]。作为普林斯顿大学的助理教授,李飞飞组建了一个研究团队,致力于ImageNet项目。他们使用Amazon Mechanical Turk来帮助分类图像[8]。他们在2009年美国佛罗里达州举行的计算机视觉与模式识别会议上首次以学术海报的形式展示了自己的数据库[8][9][10]。
ImageNet挑战赛
ILSVRC旨在延续2005年起举办的较小规模的PASCAL VOC挑战赛,后者仅包含约2万张图像和20个对象类别[6]。为了使ImageNet“民主化”,李飞飞向PASCAL VOC团队提出了一项合作,从2010年开始,研究团队将在给定的数据集上评估他们的算法,并在几项视觉识别任务上争夺更高的准确率[8]。由此产生的年度竞赛现在称为ImageNet大规模视觉识别挑战赛(ILSVRC)。ILSVRC使用仅1000个“整理后的”图像类别——例如完整的ImageNet类别中,狗的类别共有120种,而在“整理后的”图像类别中,包括了120个犬种中的90个[6]。
2010年代,图像处理获取了巨大进步。2011年,良好的ILSVRC分类错误率为25%。2012年,AlexNet深层卷积神经网络达到了15.3%的错误率,比第二名低10.8个百分点[11]。在接下来的几年中,错误率下降到百分之几[12]。尽管2012年的突破是“结合了之前有过的组件”,但大幅量化的改进标志着全行业人工智能热潮的开始[4]。2015年,微软的研究人员报告称,他们的卷积神经网络在ILSVRC任务中超过了人类水平,并赢得了当年的ImageNet挑战赛[13][14]。但是,正如挑战赛的组织者之一奥尔加·卢萨科夫斯基在2015年指出的那样,这些程序只需要识别出图像属于一千个类别中的哪一个即可,而人类可以识别更多类别,并且还可以判断图像的上下文[15]。
到2014年,超过50家机构参加了ILSVRC[6]。2015年,百度科学家因使用不同的帐号提交,大大超过了每周两次的提交限制,而被禁止参加比赛一年[16][17]。百度随后表示已解雇相关团队的负责人,并将建立一个科学顾问小组[18]。
2017年,38个参赛团队中有29个的错误率低于5%[19]。2017年,ImageNet表示将在2018年推出一个新的、难度更大的挑战赛,其中涉及使用自然语言对三维对象进行分类。由于创建三维数据比标注现有二维图像的成本更高,因此预计数据集会更小。这方面的进展应用范围从机器人导航到增强现实[1]。
数据集
ImageNet通过众包进行注释。图像级注释表明图像中是否存在目标类别,例如“此图像中有老虎”或“此图像中没有老虎”。对象级注释为对象(的可见部分)周围提供了一个边界框。ImageNet使用宽泛的WordNet模式的变体对目标进行分类,并增加了120个犬种类别,以显示细粒度分类[6]。2012年,ImageNet是全球最大的Mechanical Turk学术用户,其雇用的普通工人每分钟可以识别50张图像[2]。
ImageNet中的偏差
2019年对ImageNet和WordNet的多个层面(分类学,目标类别和标签)的历史进行的研究表明了用于各种图像的大多数分类方法如何嵌入了偏见[20][21][22]。ImageNet正在努力解决各种来源的偏见[23]。
参见
参考资料
- ^ 1.0 1.1 New computer vision challenge wants to teach robots to see in 3D. New Scientist. 2017-04-07 [2018-02-03]. (原始内容存档于2018-10-30).
- ^ 2.0 2.1 2.2 Markoff, John. For Web Images, Creating New Technology to Seek and Find. The New York Times. 2012-11-19 [2018-02-03]. (原始内容存档于2019-02-16).
- ^ ImageNet Summary and Statistics. ImageNet. [2016-06-22]. (原始内容存档于2019-03-20).
- ^ 4.0 4.1 From not working to neural networking. The Economist. 2016-06-25 [2018-02-03]. (原始内容存档于2016-12-31).
- ^ ImageNet Overview. ImageNet. [2016-06-22]. (原始内容存档于2016-07-04).
- ^ 6.0 6.1 6.2 6.3 6.4 Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
- ^ Hempel, Jesse. Fei-Fei Li's Quest to Make AI Better for Humanity. Wired. 2018-11-13 [2019-05-05]. (原始内容存档于2018-12-06).
When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator.
- ^ 8.0 8.1 8.2 8.3 Gershgorn, Dave. The data that transformed AI research—and possibly the world. Quartz. Atlantic Media Co. 2017-07-26 [2017-07-26]. (原始内容存档于2017-07-27).
Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.
- ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li, ImageNet: A Large-Scale Hierarchical Image Database (PDF), 2009 conference on Computer Vision and Pattern Recognition, 2009 [2020-01-15], (原始内容存档 (PDF)于2021-01-15)
- ^ Li, Fei-Fei, How we're teaching computers to understand pictures, [2018-12-16], (原始内容存档于2018-11-16)
- ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. ImageNet classification with deep convolutional neural networks (PDF). Communications of the ACM. June 2017, 60 (6): 84–90 [2017-05-24]. ISSN 0001-0782. doi:10.1145/3065386. (原始内容存档 (PDF)于2017-05-16).
- ^ Robbins, Martin. Does an AI need to make love to Rembrandt's girlfriend to make art?. The Guardian. 2016-05-06 [2016-06-22]. (原始内容存档于2016-06-17).
- ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Deep Residual Learning for Image Recognition.. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016: 770–778. ISBN 978-1-4673-8851-1. arXiv:1512.03385 . doi:10.1109/CVPR.2016.90.
- ^ Markoff, John. A Learning Advance in Artificial Intelligence Rivals Human Abilities. The New York Times. 2015-12-10 [2016-06-22]. (原始内容存档于2016-04-17).
- ^ Aron, Jacob. Forget the Turing test – there are better ways of judging AI. New Scientist. 2015-09-21 [2016-06-22]. (原始内容存档于2016-04-13).
- ^ Markoff, John. Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition. The New York Times. 2015-06-03 [2016-06-22]. (原始内容存档于2016-05-23).
- ^ Chinese search giant Baidu disqualified from AI test. BBC News. 2015-06-14 [2016-06-22]. (原始内容存档于2016-08-17).
- ^ Baidu fires researcher involved in AI contest flap. PC World. 2015-06-11 [2016-06-22]. (原始内容存档于2016-08-28).
- ^ Gershgorn, Dave. The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?. Quartz. 2017-09-10 [2018-02-03]. (原始内容存档于2018-02-02).
- ^ The Viral App That Labels You Isn't Quite What You Think. Wired. [2019-09-22]. ISSN 1059-1028. (原始内容存档于2019-09-22).
- ^ Wong, Julia Carrie. The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur. The Guardian. 2019-09-18 [2019-09-22]. ISSN 0261-3077. (原始内容存档于2019-09-21).
- ^ Crawford, Kate; Paglen, Trevor. Excavating AI: The Politics of Training Sets for Machine Learning. -. 2019-09-19 [2019-09-22]. (原始内容存档于2019-09-21).
- ^ Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy. image-net.org. 2019-09-17 [2019-09-22]. (原始内容存档于2019-09-22).
外部链接
- 官方网站 (英文)