公众号/ ScienceAI(ID:Philosophyai)
编辑 | 绿萝
机器感知是计算机以类似于人类感知世界的方式接收和处理感官信息的能力。它可能依赖于模仿人类常见感官的传感器——视觉、听觉、触觉、味觉——以及以人类无法获取的方式获取信息。
机器感知和处理信息通常需要专门的硬件和软件。这是一个多步骤的过程,用于接收原始数据,然后将其转换或转化为人类(和动物)感知世界的整体扫描和焦点的详细选择。
感知也是许多人工智能 (AI) 感官模型的第一阶段。这些算法将从世界收集的数据转换为感知内容的原始模型。下一阶段是建立对感知世界的更广泛理解,这个阶段有时称为认知。之后是制定战略和选择行动方式。
在某些情况下,目标不是让机器完全像人类一样思考,而只是以相似的方式思考。许多用于医学诊断的算法可能会提供比人类更好的答案,因为计算机可以获得比人类所能感知的更精确的图像或数据。目标不是教人工智能算法像人类一样思考,而是提供对疾病的有用见解,以帮助人类医生和护士。也就是说,机器的感知与人类不同是可以的,有时甚至更可取。
机器感知的类型
这里有一些类型的机器感知,处于不同的发展阶段:
通过光学相机的机器或计算机视觉
通过麦克风进行机器试听(电脑试听)
通过触觉传感器进行机器触摸
通过电子鼻的机器气味(嗅觉)
通过电子舌机器品尝
通过 LiDAR 传感器或扫描仪进行 3D 成像或扫描
通过加速度计、陀螺仪、磁力计或融合传感器进行运动检测
通过红外扫描仪进行热成像或物体检测
从理论上讲,任何直接的、基于计算机的从世界上收集的信息都是机器感知。
许多通常被认为是开发良好机器感知的挑战的领域是人类擅长的领域,但这些领域不容易编码为简单的规则。例如,人类的笔迹通常因字而异。人类可以辨别一种模式,但很难教计算机准确地识别字母,因为其中存在太多微小的变化。
由于不同的字体和印刷中的细微变化,即使理解印刷文本也可能是一个挑战。光学字符识别需要对计算机进行编程以思考更大的问题,例如字母的基本形状,并在字体拉伸某些方面时进行调整。
一些机器感知领域的研究人员想要建立与计算机的连接,从而真正开始复制人类感知世界的方式。有些人正在建造电子鼻子和舌头,试图模仿甚至复制人脑解释的化学反应。
在某些情况下,电子设备比等效的人体器官提供更好的传感。许多麦克风可以感知远在人类范围之外的声音频率。它们还可以拾取人类无法察觉的太轻的声音。尽管如此,我们的目标还是要了解如何让计算机像人类一样感知世界。
一些机器感知科学家专注于尝试模拟人类如何能够锁定特定的声音。例如,人脑通常能够在嘈杂的环境中跟踪特定的对话。滤除背景噪音对计算机来说是一项挑战,因为它需要从嘈杂的噪音中识别出显着特征。
机器可以很好地模仿人类的哪些感官?
计算机依靠许多不同的传感器让它们与世界连接,但它们的行为都不同于感知相同事物的人体器官。有些更准确,可以更精确地捕获有关环境的更多信息。其他人则不那么准确。
机器视觉可能是最强大的感官,这要归功于可以收集更多光线的精密相机和光学镜头。虽然这些相机中有许多都经过有意调整以复制人眼对颜色的反应方式,但特殊相机可以拾取更广泛的颜色,包括一些人眼看不到的颜色。例如,红外传感器通常用于搜索房屋中的热泄漏。
摄像头对光线强度的细微变化也更加敏感,因此计算机可能比人类更能感知细微变化。例如,摄像头可以捕捉到血液流过面部毛细血管时出现的细微潮红,从而追踪一个人的心跳。
声音通常是下一个最成功的机器感知类型。麦克风很小,通常比人耳更灵敏,尤其是老年人的耳朵。它们可以检测到人类范围之外的频率,使计算机能够听到人类无法听到的事件和声音。
麦克风也可以以阵列的形式放置,计算机同时跟踪多个麦克风,使其能够比人类更有效地估计声源的位置。具有三个或更多麦克风的阵列可以提供比只有两只耳朵的人类更好的估计。
计算机可以感知触觉,但通常只在特殊情况下。手机和笔记本电脑上的触摸屏或触摸板可以非常精确。他们可以检测到多个手指和小动作。开发人员还努力让这些传感器检测触摸长度的差异,这样长按或短按等动作就可以具有不同的含义。
机器感知开发人员不太常处理嗅觉和味觉问题。很少有传感器试图模仿这些人类感官,也许是因为这些感官基于如此复杂的化学反应。不过,在一些实验室中,研究人员已经能够将这些过程分解成足够小的步骤,以至于一些人工智能算法可以开始闻或尝。
机器感知难吗?
人工智能科学家很快了解到,一些对人类来说最简单的任务对于计算机来说可能非常困难。例如,对我们大多数人来说,看房间并寻找坐下的地方会自动发生。对于机器人来说,这仍然是一项艰巨的任务。
在 20 世纪 80 年代,汉斯·莫拉维克 (Hans Moravec) 是这样描述这个悖论的:「让计算机在智力测试或下跳棋时表现出成人水平的表现相对容易,但当计算机面临挑战时,却很难或不可能让它们具备一岁儿童的技能。感知和移动性。」
其中一部分是因为人类没有注意到他们的大脑在解释其感官方面有多么努力。脑科学家经常估计,超过一半的大脑工作是为了理解我们的眼睛在注视什么。我们倾向于在没有有意识地决定寻找它们的情况下看到事物,至少在正常照明下是这样。只有在黑暗或雾中,人类才会寻找关于物体及其可能位置的视觉线索。
机器视觉只是机器感知的一个领域,科学家们仍在努力复制最简单的人类任务。当算法起作用时,它们会返回直接的答案,主要是数字,并且通常缺乏上下文或解释。传感器可能能够在特定位置发现红色物体,但很难识别它,甚至确定它是否是另一个物体的一部分。
主要的人工智能公司如何处理机器感知?
销售人工智能算法的主要公司都提供各种工具来感知和处理从视觉到语言的人类感知类型。它们最常见的区别在于处理、分析和呈现感官发现和预测的软件算法。他们为希望从基础开始工作的企业提供原始工具,以及解决特定问题的特定领域工具,例如在视频源中搜索异常行为或与客户交谈。
IBM
IBM 在改进其算法以像人类一样看待世界的能力方面一直处于领先地位。例如,其 Watson AI 系统从复杂的自然语言处理 (NLP) 层开始,为其提供对话界面。客户可以使用 IBM 的 Watson Studio 分析问题,提出假设性答案,然后在证据语料库中搜索正确答案。在 Jeopardy 游戏中赢得人类冠军的版本是一个很好的例子,说明可以与人类互动的良好社会化算法,因为它们或多或少地像人类一样感知单词。
亚马逊
亚马逊提供广泛的产品和服务,从基本工具开始,还包括专用工具。例如,Amazon Comprehend 从自然语言中提取信息。一个专门的版本,Amazon Comprehend Medical,专注于提供医院和医生办公室所需的那种自动化分析和编码。Amazon HealthLake 是一种数据存储产品,它折叠在人工智能例程中,以从存储的数据中提取意义并做出预测。
谷歌
谷歌提供了许多云产品来解决基本和集中的问题。它还一直在悄悄地将更好的机器感知算法添加到其标准产品中,使它们更有用且通常更直观。例如,Google Drive 将悄悄地应用光学字符识别算法来读取电子邮件或存储文件中的文本。这让用户可以成功地搜索可能只出现在图像或模因中的词。Google Photo 将使用更高级别的分类算法,以便根据图像的内容搜索图像。
微软
Microsoft 提供了广泛的服务来帮助客户构建更具感知力的工具。Azure Percept 提供了一组预构建的 AI 模型,可以使用简单的 Studio IDE 进行自定义和部署。这些边缘产品旨在将软件和定制硬件集成到一个产品中。Microsoft 的开发工具专注于理解自然语言以及可能由物联网 (IoT) 设备收集的视频和音频源。
Meta
Meta 还使用各种 NLP 算法来改进其基本产品,即社交网络。公司也开始探索元宇宙,积极利用自然语言界面和机器视觉算法帮助用户创建和使用元宇宙。例如,用户想要装饰自己的个人空间,而良好的 AI 界面可以让人们更轻松地创建和探索不同的设计。
初创公司和挑战者如何接近机器感知?
许多公司、初创公司以及老牌挑战者都在努力让他们的模型像人类一样表现。
对此非常感兴趣的一个领域是自主运输。当人工智能要与人类司机和行人共享道路时,人工智能将需要像人类一样了解世界。Waymo、Pony AI、Aeye、Cruise Automation 和 Argo 等初创公司是一些拥有大量资金的大公司,它们正在制造已经在一些城市街道上行驶的汽车。他们正在整合精心设计的人工智能,这些人工智能可以对道路上的障碍进行分类和避开。
一些初创公司更专注于构建跟踪物体和自主运动潜在障碍的软件。aiMotive、StradVision、Phantom AI 和 CalmCar 等公司只是创建「感知堆栈」以管理来自各种传感器的所有信息的公司的几个例子。
这些系统通常在很多方面都优于人类。有时,他们依赖于一组可以同时在车辆周围 360 度观察的摄像头。在其他情况下,他们使用特殊的受控照明(例如激光)来提取有关物体位置的更精确数据。
理解单词并超越基本的关键字搜索是一些初创公司正在应对的挑战。Blackbird.ai、Basis Technology 和 Narrative Science(现在是 Tableau 的一部分)是想要了解编写文本的人的意图的公司的好例子。他们谈论的不仅仅是简单地识别关键词,而是检测叙述。
一些人正在寻找一种预测方法,通过寻找视觉线索来预测人类可能计划做什么。Humanising Autonomy 希望通过从视频源构建人类预测模型来减少责任并消除事故。
一些公司专注于解决特定的实际问题。例如,AMP Robotics 正在建造分拣机,可以将可回收材料从废物流中分离出来。这些机器使用机器视觉和学习算法来完成人类在分拣过程中所做的事情。
有些人只是简单地使用人工智能来通过理解人类的感知来增强人类的体验。例如,Pensa Systems 使用摄像机检查商店货架并寻找不良陈列。这种「货架智能」旨在提高可见度和位置,让顾客更容易找到他们想要的东西。
机器感知不能做什么?
计算机的思维方式与人类不同。他们特别擅长简单的算术计算和记住大量的数字或字母。但要找到一套算法,让它们能够像人类一样看到、听到或感受周围的世界,则更具挑战性。
成功的程度各不相同。有些任务,比如在图像中发现物体并区分它们,非常复杂和困难。机器视觉科学家创造的算法可以工作,但它们仍然很脆弱,并且会犯蹒跚学步的孩子会避免的错误。
这在很大程度上是因为我们没有关于我们如何理解世界的可靠、合乎逻辑的模型。像椅子这样的物品的定义对人类来说是显而易见的,但要求计算机区分凳子和矮桌是一项挑战。
最成功的算法通常主要是统计性的。机器学习系统收集大量数据,然后计算复杂的、自适应的统计模型,这些模型有时会生成正确的答案。这些机器学习算法和神经网络是许多可以识别图像中对象的分类算法的基础。
尽管取得了所有成功,但这些统计机制只是近似值。它们更像是客厅里的把戏。它们近似于人类的思维方式,但实际上并不以相同的方式思考。这使得很难预测它们何时会失败。
一般来说,机器感知算法是有用的,但它们会在不可预测的时刻出错并产生不正确的结果。这在很大程度上是因为我们不太了解人类的感知。我们有一些来自物理学和心理学的良好逻辑构建块,但它们仅仅是个开始。我们真的不知道人类是如何感知世界的,所以我们暂时使用统计模型。
有时最好更多地关注机器做得更好的地方。例如,许多相机和图像传感器可以检测到人眼无法看到的波长的光。例如,韦伯太空望远镜完全使用红外线工作。我们看到的图像被计算机修改为可见范围内的颜色。这些科学家没有建造可以复制人类感知能力的东西,而是创造了一种望远镜,可以扩大人类的视野范围,可以看到其他方式看不到的东西。
参考内容:https://venturebeat.com/ai/venturebeat-lab-to-launch-in-depth-ai-article-series-with-insights-from-microsoft-and-nvidia/