公众号:将门创投
整理编译:T.R
人脸识别作为深度学习最具代表性的技术之一,近年来得到了飞速的发展,无论是在精度、速度和规模上都有了极大的提高。在取得如此巨大成功的同时,科学家们将目光转向了一个尚未充分探索的领域——卡通人脸识别,即将卡通动画作品中的人脸进行准确的检测和识别。
随着数字技术和新媒体技术的快速发展我们的生活中出现了越来越多的卡通化人物,它们不仅成为了孩子们认识世界的窗口,更提供了教学辅助和科研传播的功能,甚至用于描述个人观点甚至传播社会思想。与标准的绘画作品相比,卡通、漫画、幽默作品以一种十分夸张的方式来表现,并导致了人脸的大幅形变和特征转移。对于卡通人脸的检测在动画行业中的需求也日渐增加,主要包括:通过图像搜索引擎在网络中搜索相似的卡通图像;通过识别和语音合成帮助视觉障碍认识享受卡通电影的乐趣;同时还能作为内容控制和审查软件的一部分来对社交媒体的内容进行处理。
为了实现这一目标,研究人员们利用了IIIT-CFW卡通数据集作为燃料,基于深度学习实现了卡通人脸检测、识别工作,并超过了传统的方法达到了优秀的检测效果。
这一数据集中包含了8928张带标记的卡通人脸图像,其中不仅包含了不同年龄、性别、情感的基本人脸数据,同时还包括各个人种、人脸位置以及讽刺隐喻等高维度信息,其标注信息示例如下,包括了七个特征维度和包括角色名字的五个人脸位置维度信息:
作者对于卡通人脸主要进行了三个方面的工作:人脸检测、人脸识别和性别检测,并在检测的过程中对卡通人脸的关键点进行了识别和抽取。
对于人脸检测,研究人员们主要使用了MTCNN(Multi-task Cascaded Convolutional Network)网络,这一架构包含三个主要的部分分别是通过图像金字塔提出候选框的建议网络P-Net、随后是用于提炼优化结果的精炼网络R-Net,最后是用于生成最终人脸框和五个标志结果的输出网络O-Net。
对于人脸识别工作,研究人员们提出两种方式,第一种是利用Inceptionv3+SVM来进行识别,首先利用Inception来高效抽取图像特征,并在最后使用分类器来对最终2048维结果进行分类实现识别。
另一种方式利用了建议系统来构建了标志抽取系统,并基于多输入多输出的CNN分类器实现了人脸识别。首先将卡通图像进行灰度和归一化处理,随后对卡通人脸图像的15个特征点坐标进行抽取。在检测过程中,使用了5层的神经网络对特征点进行检测(利用真实的人脸进行了训练,以提高人脸特征检测能力)。最后这一结果和像素处理的结果同时送入到建议人脸识别架构网络中去,通过CNN的多输入多输出结果进行识别。
通过对于上述网络的训练后,得到了良好的检测结果。在人脸检测的表现上,作者同时和基于HOG特征及Harr特征的结果进行了比较,在真阳性、假阳性、假阴性的指标都超过了这些方法。
在卡通人脸关键点提取任务中也表现良好。
这一工作的主要贡献在于利用MTCNN架构实现了卡通人脸的检测,并在多个指标上有了较大的提高,同时在卡通人脸识别任务上利用了预训练的Inception架构和SVM特征分类器实现了更高的效果。并提出了基于LeNet的多输入多输出HCNN架构降低了top5的错误率。
值得一提的是,在卡通图像领域还有很多的工作可以去填坑,包括卡通人脸识别、验证、性别识别,照片到卡通图像的相互转换(类似风格迁移)、卡通人脸检测、位置估计和关键点检测、相关特性识别以及基于卡通图像特征的搜索引擎。同时还包括通过照片转化为一系列卡通表情的生成、草图绘制和渲染,以及相应的逆问题。还有很多应用和点可以再卡通领域进行探索,甚至GANs和VAE也是一个不错的选择呢!
如果你想上手尝试下你喜欢的二次元角色的话,可以参考下面的资料:
一个曾经的demo:https://github.com/nagadomi/animeface-2009
paper:https://arxiv.org/pdf/1804.01753.pdf
database:https://link.springer.com/chapter/10.1007/978-3-319-46604-0_3
还有一些其他的人脸database:http://web.mit.edu/emeyers/www/face_databases.html
-The End-