源 | 大数据每日评论
编译 | 大数据每日评论-陈志扬、刘恒
计算机视觉:
自20世纪50年第一台“会思考的机器”在一间地下室诞生开始,教计算机如何去“看”就一直是研究者所追求的目标。但是,计算机视觉的真正发展应该追溯到人们首次用金属板捕获光线,并且贯穿数字革命和当下的人工智能(AI)浪潮。从人脸识别到无人驾驶,计算机视觉的发展影响了我们身边的一切,而关于它的事情,我们还得从这里说起——
1839年1月的一次巴黎沙龙上,Louis-Jacques-Mandé Daguerre通过展示一种永久捕获图像的方法——银板照相法,成功地震惊了整个法国科学院。银板照相法是将涂有碘化银的铜片暴露在光线下,然后通过汞蒸汽和食盐溶液来显影。哇哦,照相机诞生了!
胶卷的发明 (1888)
1888年,George Eastman创立了柯达——一种带有固定透镜的简单盒式相机。这项发明最重要的创新点是:它将图像存储在了胶片而不是金属板上。相机的所有者一次能拍摄多达100张图片,但是在这之后便需要将设备送回工厂处理图片以及重装相机。
即显摄影 (1947)
1947年2月,Edwin Land发布“宝丽来95型”相机之后,急切的“快门”爱好者再也不需要花时间等待照片处理。20世纪80年代末第一台商业数码相机出现以前,宝丽来相机始终是能够获取图像的最快工具。Outkast的歌曲《Hey Ya!》中的“shake it like a Polaroid picture”作为一个短语至今仍被人们广泛使用。
AI的提出 (1956)
19世纪50年代中期,几位杰出的科学家Marvin Minsky、Claude Shannon、John McCarthy和Nathaniel Rochester提议在达特茅斯进行为期两个月的夏季项目研究“如何使机器具有语言和抽象思维能力,解决人类目前无法解决的问题并自我提升”。据记载这是“人工智能”这个词有第一次被正式提出。
像素的诞生 (1957)
1957年春天,美国国家标准局的科学家Russell Kirsch为他的儿子Walden拍了一张照,并将其扫描到了东部标准自动计算机(SEAC)中。为了使图片可以放进SEAC有限的存储空间中,他将图片分割成176176的网格——共30976位二进制,并进行了多次扫描。这张边长5厘米的正方形图片就是历史上第一张数字图像,从某种意义上来讲它甚至是CT扫描、卫星图像和数码摄影的鼻祖。
三维世界的积木 (1963)
1963年五月,MIT研究生Larry Roberts提交了一份关于机器如何通过二维图像感知三维物体的博士论文。Roberts提出的“积木世界”理论为日后的计算机视觉发展打下了基础。他之后继续监督阿帕网——当今互联网的先驱。
“夏季视觉项目”(1966)
第一次AI热潮的十年后,MIT教授Seymour Papert给他的学生一项暑期作业开发一个视觉系统,将图片分类为“可能是物体,可能是背景区域,和混乱无意义的”三部分。这便是人工智能在模式识别方面的第一次应用。
CCD的发明 (1969)
1969年秋天,大约是阿帕网正式启动的时候,贝尔实验室的两位科学家Willard S. Boyle和George E. Smith正忙于电荷耦合器件(CCD)的研发。CCD,一种将光子转化为电脉冲的器件,很快成为了高质量数字图像采集任务的新宠。他们还因这项工作在2009年10月而被授予诺贝尔物理学奖。
第一台数码相机 (1975)
1975年12月,柯达公司工程师Steven Sasson创造性地利用Super 8摄像机的废弃零件、一个电压表、一个100100像素的精细CCD以及六块电路板,制造出了世界上第一台数码相机。这个八磅重的相机花了23秒来拍摄一张百万像素级的黑白图像。拍摄下来的图片被记录在盒式磁带上,并可以在黑白电视机上显示。
卷积神经网络(20世纪80年代)
动物视觉皮层通常同时使用简单和复杂的脑细胞处理图像,受此启发,卷积神经网络(CNN)利用多层神经元叠加来识别和区别不同的模式。其中比较著名的是Kunihiko Fukushima的神经认知机和Yann LeCun的LeNet。如今,卷积神经网络已经是图像、语音和手写识别系统中的重要组成部分。
DARPA超级挑战赛 (2005)
2005年10月第一辆依靠计算机视觉识别地貌特征并避开障碍的全自动驾驶汽车在内华达沙漠完成了132英里的长途跋涉,并获得了由DARPA提供的200万美元奖金。获奖车辆由斯坦福大学的一支队伍建造,仅用了6小时53分钟就在严酷的环境中完成了任务。
神经网络,在游戏中发展 (2005)
训练神经网络一向是一项资源密集且极其缓慢的工作,这一状况直到2005年才有所改善。微软的Dave Steinkraus、Patrice Simard,以及英伟达的Ian Buck在论文中描述了如何使用游戏主机中现成的图像处理单元(GPU)来训练神经网络。自此之后,训练的速度和准确率有了大幅度的提升,训练成本也有所降低。
生成对抗网络的碰撞 (2014)
2014年,蒙特利尔大学的一个研究团队提出了一个观点:拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。随着时间的推移,两个网络都会得到训练:生成器可以生成能以假乱真的数据。生成对抗网络(GAN)被认为是计算机视觉领域的下一个重大突破。
机器VS人 1:0 (2015)
从2010年开始,ImageNet大规模视觉识别挑战赛让人与计算机在识别图片方面进行着长期的较量。2015年,机器取得了胜利,谷歌和微软构建的神经网络相较于人类有着更低的错误率。大约同时,Facebook也声称其DeepFace人脸识别算法有着97.35%的识别准确率,几乎与人类不分上下。从此以后,还有谁需要弱小的人类呢?
有“眼睛”的亚马逊无人机(2016)
作为亚马逊无人驾驶自主运输系统的一部分,这个网络零售行业的巨头正计划为它的Prime Air无人机加上识别障碍和着陆区域的能力。借用计算机视觉方面相关知识,亚马逊希望它的无人机可以区分草地和游泳池,或是一棵真实的树和其在窗户中的倒影。
自动驾驶汽车上路 (2017)
沃尔沃宣布今年将在瑞典哥德堡投放100辆具有自动驾驶功能的XC90轿车。Drive Me项目是沃尔沃为在2021年向顾客出售全自动驾驶汽车而计划的下一步。福特也透露了将于2017年在欧洲对100辆自动驾驶汽车进行道路测试。通用汽车、宝马和谷歌旗下的Waymo都加大了对于视觉制导汽车的测试力度,埃隆·马斯克宣布,一辆搭载自动驾驶仪的特斯拉会在2017年底之前从洛杉矶开往纽约。
联邦调查局:人脑识别引发的“血案” (2017)
三月的美国国会听证会将FBI的人脸识别数据库推到了舆论的风口浪尖之上。众议院政府监督和改革委员会的成员发现,FBI未能就包含大约50%的美国公民的图像数据库对个人隐私的影响进行评估。同时,这个数据库被发现有严重的数据偏差和种族歧视。委员会呼吁应该对这些数据的收集和使用有更严格的监管力度。