九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

聚焦信息技术领域 为产业发声

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

导读

美是人类一直追求的目标。“手如柔荑,肤如凝脂,领如蝤蛴,齿如瓠犀,螓首蛾眉,巧笑倩兮,美目盼兮”描写了人们对美貌女子的欣赏。现而今,随着科技的发展,我们可以通过各种方式来达到“美”的目的,比如通过人工智能一键智能美妆、妆容迁移。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

犀牛鸟基金:2013年,CCF与腾讯合作发起犀牛鸟基金,旨在助力青年学者开展致力于提升人类生活品质的创新研究,推动研究成果的产业应用和落地。至今,犀牛鸟基金已经走过了五年,期间共计760名优秀青年学者提交申请,共计支持89项科研基金项目,78项创意基金项目。

1.九州连线:了解到您现在正在进行图像的像素级语义理解研究,能否具体解释一下您的研究?有哪些成果可以应用到我们的日常生活中?

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

刘偲:与传统的图像语义理解相比,图像的像素级语义理解更加细致。比如桌子上放着两只企鹅,那传统的图像分类可以分析出,桌子上有企鹅。但是像素级语义理解就可以找到企鹅的位置,并把企鹅的轮廓描绘出来,使我们可以在此基础上进行PS或者其他应用。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

2.九州连线:

您刚才提到,图像的像素级语义理解可以应用在人脸解析上,比如智能美妆、妆容迁移、人脸年龄迁移,这个是如何做到的?

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

刘偲:我们定义一下这里所说的人脸解析问题。对于给定的一张人脸图片,我们希望得到不同语义部位(比如眼睛、鼻子、嘴等)的分割结果,换句话说就是将图像中的每个像素标注为对应的类别。我们

通过一个自适应调节视野域的算法模型,可以让网络自动地去调节视野域以得到最好的分割结果。通过分割我们可以获得嘴唇、眉毛、眼睛等部位的结果。

基于人脸解析,我们开展了智能美妆、妆容迁移、人脸老化三个工作。

智能美妆是根据人脸解析的结果,我们将指定的美妆产品应用于图片,最终得到美妆的结果。有了这一系统,我们可以在不用手动化妆、卸妆的情况下尝试不同的妆容效果。针对妆容迁移的问题,我们先通过人脸解析算法得到妆容的关键区域,然后使用风格迁移的算法将不同区域的妆容转移至对应的区域。根据不同的参考妆容可以获得不同的迁移结果。通过控制迁移时的参数,我们还可以控制妆容的浓淡。

针对人脸年龄变换,仍然是先通过人脸解析提取人脸的主要部分,然后使用图片以及对应的年龄信息训练一个生成对抗网络(GAN)。在训练好模型后,将一个人的照片以及想转换到的年龄信息输入进这个模型,就可以得到相应年龄段的照片。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

3.九州连线:在完成妆容后,要对效果进行评价。目前有什么样的依据来评价最后的美妆效果?

刘偲:目前从三个维度进行评价,首先是合成效果要自然。不能化妆化的特别假,我们有一些类似FID这样的评价指标;第二个,

化完妆后要像她本人,不能面目全非;第三个,要符合指定条件。比如用户想要日妆,不能化成韩妆。

4.九州连线:您刚才还提到在人脸的语义理解上还可以做到“人脸年龄变换”,这个具体是如何做的?

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

刘偲:是的,我们可以实时生成10年后、20年后,或者小时候的样子,这个技术不仅可以用于娱乐,还可以做一些人的身份比对。比如有很多孩子小时候走失了,过了很多年,家长依然在找孩子,那就可以利用这个跨年龄段的应用来进行对照。这也是我们正在探索的方向。

在人脸老化上,我们会在不同阶段,针对不同个体做不同的处理。比如下图中,第一列是原始的人脸图像,从第二列至最后一列是合成的不同年龄段人脸图像。女性的人脸老化就在脸上加一些皱纹和眼袋,男性除了纹理变化之外,还会加一些胡子,而且根据年龄段加不一样的胡子,比如50岁加的胡子是灰色的,70岁加的胡子是白色的。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

5.九州连线:在“返老还童”的时候,人脸相应的会变小,而且不同年龄阶段五官的形状、相对位置也会发生改变,难度是不是会更大?这个你们是如何处理的?

刘偲:我们想让计算机最终通过生成对抗网络学习出来一套规律。首先我们会收集数据并进行分类,这些数据可能是通用的,比如10岁以下、10岁到20岁、20岁到30岁,每个年龄段采集了可能是几千或者上万张图片。然后通过机器学习的方法,学习到每个年龄段共有的属性,比如年轻人的皮肤就比较光滑。老了的话,有白头发。以此形成一定的规则,再来一张照片的话,就可以应用到这个规则并对应出结果。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

6.九州连线:目前是只面向C端用户么?有没有考虑为B端客户服务?

刘偲:有的,我们的图像的像素级语义理解还可以应用在电商上,比如,用户在网上选择化妆品的时候,可以化在脸上尝试,这样会提高电商用户的体验感和购买力。比如在小红书这样的网站上,分析其中一些博主的照片,看哪些人喜欢化什么妆?建立起人与妆容之间的对应关系,然后再对个人进行相对个性化的推荐。再比如,你跟某知名博主长得比较像,她比较适合这种的口红,那也可以为你个性推荐这样的口红。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

7.九州连线:您当时为什么选择进行像素级语义理解在人脸美化方面的研究?是否跟您本身是女性有关?

刘偲:对,做科研的男性占比相对比较大,他们更注重对所研究项目的性能、速度做一些提升。自己本身作为一个女生,希望结合自己的独特感受,做一些比较好玩的应用。而且,对比男性科研人员,女性比较有韧性,在课题中遇到问题后,会想尽各种办法去解决。所以我在招学生的时候,会有意识地特意招一些女学生。因为女生做我这方面的课题也有一些优势,比如人脸美妆、一键换衣等,女性有很好的审美,也更热情,因为兴趣是最好的老师。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

8.九州连线:那您目前团队情况如何?是否有一些经验跟大家分享?

刘偲:目前团队多是90-95后的学生。因为在回国之前,我在新加坡进行了五年的研究,回国后的三年间,才组成了自己的年轻团队。也正因为目前团队多是年轻人,所以在带团队的过程中会更加融入一些年轻人的特色。比如做一个课题,一般的是师兄师姐带师弟师妹,这样的话,就会形成一种很好的合作机制,也可以锻炼师兄师姐的组织领导能力。甚至在平时做一些团建——狼人杀,锻炼成员们的逻辑分析能力和表达能力。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

9.九州连线:除了团队力量,是否还借助了一些外部力量帮助项目落地?

刘偲:是的,因为我们在研究过程中发现,做深度学习主要看三个元素——数据、算力、算法模型。然而,高校做深度学习有优势,也有劣势。首先,高校的算法相对强大,但是高校的数据有所欠缺。其次,高校的高性能计算GPU远远满足不了需求。对比之下,企业不仅有大量标注的数据,在高性能计算GPU上也可以满足需求。因此,我们最终通过CCF-腾讯犀牛鸟基金与腾讯团队进行了合作,优势互补。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

10.九州连线:在科研与产业的结合中,对双方而言都会遇到一些挑战,您对于科研和产业之间的关系以及如何让科研更好地产业化,有什么看法?

刘偲:确实,我们在合作过程中发现,实际应用中企业更关心算法的性能、速度、功耗的平衡。因此在与企业合作中需要考虑如何在不降低精度的情况下保障速度。所以我觉得科研和产业的结合要形成一个闭环,需要不断地与企业进行反馈。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

目前我们与腾讯视频合作开发出一套算法,由腾讯的合作伙伴把算法部署到相应的系统中,同时让获得实验反馈。也许第一个原型没那么好,但是,我们可以针对这些问题把各种信息,比如精度、速度进行改进,然后进行多次反馈,这样,最终的效果才会比较好落地。合作必然都是双方互相磨合的结果,既有高标准的学术价值,又有可以解决实际问题的应用价值,这样的合作一定是要经过多次磨合、反馈才能出来的结果。

九州连线专访丨中科院信工所刘偲:图像之美像素级语义理解研究

黄河连线系太原九州连线文化传媒有限公司旗下品牌


分享到:


相關文章: