Google ：五万个视频可以让机器人更懂人类？

网易智能 2017-10-26 9:41:51 0 业界资讯 | Google, 技术, 数据

机器人正在看着我们，谷歌在YouTube上发布了一组视频，帮助机器了解人类如何在这个世界上生存。

“原子视觉动作”（AVA）是人们从事日常活动的三秒钟视频，比如喝水、拍照、演奏乐器、拥抱、站立或烹饪等。每段视频都标明了人工智能应该关注的人，以及他们的姿势描述，还有他们是否与某个物体或其他人进行互动。

谷歌最近在一篇博客文章中描述了这个新的数据集，称：“尽管过去几年在图像分类和寻找物体方面取得了令人激动的突破，但认识人类行为仍然是一个巨大的挑战。这是因为，从本质上讲，动作比视频中的物体更不明确。”

57600个视频片段只强调了80个动作，但却需要给超过96000人贴上标签。谷歌从流行电影中截取部分片段，强调它们来自“不同的流派和国家”。如果一段视频中有两个人，每个人都被分别标记，这样机器就可以知道，两个人需要互相握手，或者有时人们在拥抱时接吻。

这项技术将帮助谷歌分析多年的视频，还能帮助广告商更好地瞄准消费者，因为他们更有可能观看视频。一篇附带的研究论文称，谷歌的最终目标是教计算机社交视觉智能，即“理解人类在做什么，下一步该做什么，以及他们想要达到什么目标。”

审校小小

选自 nypost

翻译网易见外机器人

网易智能

网易智能（公众号 smartman163），定位人工智能等前沿科技领域的垂直媒体及产品服务平台，面向人工智能等领域的从业者和关注者。运营栏目包括大型策划栏目《AI英雄》，行业研究与分析栏目《AI研究院》等，提供原生内容、新闻策划、数据报告、产品评测等服务。

IT思维