公众号/将门创投
来源:news.mit.edu 编译:T.R
为了解决情感计算中面临的问题,来自麻省理工媒体实验室情感计算研究组提出了一种可以超越传统方法捕捉微小的面部表情,并更好的测量人类情绪的机器学习模型。除此之外,通过额外的小规模数据可以将模型高效的迁移到不同的人群中去,在保持精度效率的同时提高了模型的适应性。
精准的个性化情绪识别
传统的情感计算模型利用一刀切的思想来训练模型,将在某一数据集上训练描绘不同表情的优化特征作为通用特征用于整个全新的新数据集。与过去较为单一的方式不同的是,MIT的研究人员提出了一种模型个性化技术,称为”混合专家(mixture of experts MoE)”的模型。这种模型可以从个体中发掘出更为细粒度的表情数据。
上图是研究中提出的模型架构,其中研究人员首先利用Faster R-CNN从视频帧中提取出面部区域,随后利用ResNet-50学习出面部的深度特征,并将这些特征馈入个性化专家网络(personalized expert network PEN)中,用于自动估计主体的预约和兴奋程度。同时还包括了门网络(gating network CN),在推断新图像时为PEN中不同的专家分配权重。
在MoEs中,一系列被称为“专家”的神经网络模型被训练来独立地处理特定的任务并生成单一的结果。同时研究人员还利用了被称为“门网络”结构来计算不同神经网络对于未知主体情绪的检测概率,从而找出对于给定图像最合适的专家检测器。
利用情感计算数据集RECOLA中的18个独立视频,研究人员们将MoEs中的每一个专家网络与其中的一个视频进行匹配训练。在训练时将所有的视频分解为独立的帧,在其中9个上做训练,并在另外9个上做验证。
每一个专家网络和门网络一起负责跟踪每一个个体面部表情。模型会根据每一帧中面部表情的愉悦程度和兴奋状态打分。而在训练时,这些打分的标签由6位人类专家完成,分值从-1(low)到+1(high)之间。
随后研究人员测试的模型的个性化能力。在训练完模型后,利用余下被测者的部分视频帧进一步训练模型,而后用模型从未见过的帧来进行测试。结果表明,对于新的人群只需要5%~10%的数据,模型就可以大幅度超过传统方法,在对于面部表情的愉悦和兴奋程度解读更接近于人类专家的水平。
这一结果显示出了模型利用少数数据,具有人群和个体间迁移能力的潜力,而这也是处理这一问题的关键。我们通常会在某一人群上训练出一个较好的算法,但当面临完全不一样的人群时,算法的表现就会降低很多。但只要从新的人群中进行少数采样来优化模型,模型就会适应新的人群特征得到较好的结果。这是模型个性化最为重要的优势。
虽然目前的训练数据在肤色上缺乏多样性,但研究人员表示一旦有适合的数据集,模型将在更具多样性的人口数据上进行训练以适应更加多样性的文化。
更好的人机交互
训练个性化模型的另一个重要原因在于,这会为机器人和计算机带来强大的学习能力,可以通过很少的数据就能训练并学习会如何感受我们人类情绪的微妙变化,从而更好的为人类服务。这会为很多应用场景带来完全不同的便捷体验。
例如它可以在电脑或移动设备的后台运行来跟踪用户的视频对话从而学习用户在不同情形下面部表情的微妙变化。利用web技术或者app可以识别出用户的焦虑、痛苦、紧张、沮丧等负面情绪,并为用户及时提供相应的建议。通过情绪识别还可以计算出用户日常情绪的偏离状况,并作为健康和幸福指数的度量来描述用户的状态。
这在人机交互中十分重要。机器人需要识别不同个体的心理状态,并根据识别出的情绪提供相应的响应。例如在教育机器人中可以利用情绪识别来判断学生的专注程度,从而及时调整授课的方式和内容。甚至这也是识别儿童孤独症的有效手段。
个性化的情绪识别将为为情感认知提供更好的保证。通过训练多个专家并对结果进行聚合优于训练单个超级专家的情况,结合个性化的能力使得情感识别的准确性和通用性大幅提高。通过情绪识别,在未来得以将许多人机交互场景变为现实。也许更懂你的机器人、陪你彻夜长谈的mate、默契的好伙伴将在不远的将来走进我们的生活中。
group:https://www.media.mit.edu/groups/affective-computing/overview/
demo:https://affect.media.mit.edu/
paper:https://dam-prod.media.mit.edu/x/2018/05/01/personalized-mixture-supervised_final_tYWcW0Y.pdf
recola Dataset:https://diuf.unifr.ch/diva/recola/index.html