公众号/大数据文摘
大数据文摘作品
编译:傅一洋、丁慧、Aileen
目前在AI技术领域中,投入资金最多的当属对神经网络的研究了。在众人眼中,神经网络技术貌似就是“程序构造的大脑”(虽然比喻很不准确)。
神经网络的概念早在20世纪40年代就被提出,但直到现在,人们对于神经元及大脑的工作方式仍然知之甚少,最近几年,科研界关于神经网络技术创新的呼声越来越强,渴望重启神经网络的热潮……
其实,除了神经网络以外,AI领域中还包含很多更有趣、更新颖,更有前景的技术,文章中就将这些技术介绍给大家。
Knol指信息单元,也就是关键字、词等,Knol提取技术则是从文本中提取关键信息的过程。举个简单的例子:比如“顾名思义,章鱼有8条腿”这句话经过提取后,就变成了这个样子:{“章鱼”:{“腿的数目”:8}}。
我们常用的Google搜索引擎就依赖于这项技术,后续介绍的技术中,很多也都包含了这项技术。
本体构建
本体构建是基于NLP的技术,旨在用软件来构建实体名词的层次结构,这一技术对实现AI会话大有帮助。虽然本体构建表面看起来简单,但事实上构建却并不容易,主要因为事物之间的实际联系比我们所认为的要复杂的多。
例如,利用NLP分析文本来建立实体关系集:
例句:“我的拉布拉多犬刚刚生了一群小狗崽,它们的父亲是只狮子狗,所以它们是拉布拉多贵宾犬(一种混血犬)”这句话被转换后,就变成了:{“小狗崽”:{“可能是”:“拉布拉多贵宾犬”,“拥有/生(have)”:“父亲”},“拉布拉多犬”:{“拥有/生(have)”:“小狗崽”}}。
但是,人类在进行语言表达时,通常不会将所有的关系都陈述出来,比如这句话中,是要通过推断才能得出“我的拉布拉多犬为雌性”这一事实,这就是本体构建的难点所在。
正如此,本体构建技术目前只应用在了顶尖的聊天机器人中。
自定义启发式
启发式是一种用于分类的规则,通常类似于“如果这件物品是红色的”或“如果Bob在家里”这样的条件语句,这些条件语句常伴随某项动作或决定,例如:
如果某物[“成分”]属性中包含“砷”这一元素:
则它的[“毒药”]属性为“True”。
对于每个新的信息,都伴随着新的启发式和新的关系,随着新的启发式的建立,又可以对相关的名词产生新的理解。比如:
启发式一:”puppies”(小狗)说明是幼崽(Babies);
启发式二:幼崽(Babies)说明很年轻;
通过以上两个启发式推断出:”puppies”都很年轻。
启发式的难点在于,多数情况下,规则并不会如“If/Then”一样简单。类似于“有些人头发是金色的”这样的语句,就很难用启发式来表述。所以我们有了“认知论”(见下)。
认识论是本体构建和自定义启发式的结合,并在其中加入了概率特性,通过概率表示名词与任一属性产生关联的可能。比如,用这样本体结构:
{‘人’:{‘性别’:{‘男’:0.49,’女’:0.51},’种族’:{‘亚裔’:0.6,’非洲裔’:0.14}}
来表示对一个人性别和种族的判断。同时,概率能帮助识别一些具有多重含义的“混合型”词组,比如像“梅子像是打了激素的葡萄干”这句话中,因为“打了激素”这一词组很大可能地意味着“体积较大”,从而得出,这句话很大可能的意思是“梅子体积比葡萄干大”。
认识论的实现相比本体构建要困难得多。首先,它需要更多的数据;并且,由于其结构的复杂性,很难在确定规则后快速地建立起数据库来实现查找;还有,规则的确定通常基于某项事物在一段文字中被提及的频率,但文字却未必能真实地反映现实情况。
认识论与Asimov提出的“张量流”理论很相似。Google开发的同名TensorFlow系统并不是真正基于张量,而认识论是基于张量的。
自动量规技术
一个量规系统,必定包含相应的评估标准。想象一下,在选购房子时,有房屋面积,位置,价格和风格等因素需要考量,而这些因素未必都是积极的,这就需要有通过衡量取舍来决策。比如,相比价格你更在乎房屋面积,就会宁愿多花几倍的钱来购买大房子。
自评估技术通过你对不同因素的重视程度来确定每项因素的权重,从而提出决策建议。通过这一过程,还可以预测库存变化,推荐产品,实现自动驾驶等。也就是说,大多数神经网络可以实现的功能,自动量规技术都能胜任,尽管需要更长的训练时间,但却有着快几个数量级的决策速度。
矢量差分技术常用于图像分析,也可用于时变数据的处理。通过对目标构建抽象矢量图,将候选对象与待识别目标对象进行比较,从而判断出是否为“最佳的约会脸型”或“最佳的买入时机”等。
通常,目标对象之间差异都伴随一个衡量差异程度的量化规则,通过特征的矢量化,将一些“模糊”的概念,简单、清晰的表示出来。
比如,对于人类来讲,我们笼统地认为对称的脸型更具有吸引力,但是对于计算机,就需要精确的计算来判断,而这时,通过30个三角形来进行脸部抽象,比通过完整脸部图像来进行运算对比,能节省很多的计算时间和存储空间。
对于非图像的数据的处理也是可以的。比如股票价格变动、每股收益与保证金的比率等,通过对这些数据矢量化,将其与理想值进行比较,就可以确定一次投资的利好或风险程度。
卷积矩阵常用于图像处理领域中的边缘检测和提高对比度等方面,例如,PhotoShop中的许多滤镜都是基于卷积矩阵或叠加卷积(按特定顺序进行多个卷积运算)实现的。
同时,卷积矩阵还可用于处理非图像数据。比如,当使用卷积矩阵对时序向量进行处理时,可以像边缘检测那样,快速地找出模式来,再在最小或最大值处查找特定值或范围,从而做出判断。
一项决定的做出并不简单。多视角决策系统以一种更民主的形式,多方面地作出决定。
比如,在刚刚房子的例子中,你对于某套房子的看好可能基于并不全面的因素,而之后的一个“这套房子建在悬崖上”的事实(当然,这种压倒性因素可能来自于Knol提取)就会消除你先前的所有好感,让你重新决策。
所以,决策需要通过更全面的因素考量,而多视角决策系统,可以利用两个人的两套标准(比如你和你的配偶)来衡量决策。多视角决策系统还可应用于自动驾驶领域,比如,收集10000个车主的看法来制定新标准等。
许多人眼中只有一把工具,掉进“我有的就是一把锤子,所以一切都是钉子”的深坑。诸如Recognant这样的公司,在应用神经网络的同时,也同样在应用文章中这些相对冷门的技术,毕竟相比于神经网络硬件系统,
这些软件技术的优势就在于,能针对不同情况进行随时的调整和开发,而无需花费额外的成本。所以,技术面窄,就有可能被一些情况所困住,而技术面越宽,面对问题就越容易迎刃而解。
原文链接:
https://www.linkedin.com/pulse/8-ai-technologies-aint-neural-networks-brandon-wirtz/