1.5秒连拍90张挑出最好的,谷歌公开Pixel 3“最佳镜头”技术细节

最佳镜头(Top Shot)是Google最近推出刚放进Pixel 3的新功能,可以帮助使用者在按下快门时,自动地精确捕捉有价值的瞬间。最佳镜头使用电脑视觉技术,即时保存和分析装置上快门按下前后的图像,并推荐使用者替代的高品质HDR+照片。Google今日公开其技术细节。

1.5秒连拍90张挑出最好的,谷歌公开Pixel 3“最佳镜头”技术细节

Google在其自家旗舰手机Pixel 3加入了许多先进技术,以提升拍照品质,包括让数码变焦比拟光学变焦的画质,还有强大的Night Sight功能,即便是晚上低光照都能拍得清楚,以及使用机器学习改善人像模式景深效果,不只这样,Pixel 3的相机还预设启用最佳镜头功能,帮助使用者捕捉最佳镜头。

当用户打开Pixel 3照相应用程式时,预设情况下就会启动最佳镜头功能,当使用按下快门时,系统会自动从按下快门前与后的1.5秒,在3秒间拍摄90张照片,最后使用者可以选择两张高分辨率的照片,除了原本按下快门的那一张,还会有一张高解析替代图片供使用者选择。系统会对使用者按下快门前后所拍下的图像,进行判断主体是否微笑等质性特征分析,同时也会把图像中的光流、曝光时间以及陀螺仪等感测资料,作为评估图像品质的特征。

1.5秒连拍90张挑出最好的,谷歌公开Pixel 3“最佳镜头”技术细节

最佳镜头参考三个关键属性,第一,诸如打光等功能品质,第二、主观品质,像是照片人物的眼睛是否睁开,抑或是表情有没有微笑,第三,情绪表达等客观品质。Google设计了一个电脑视觉模型,以便低延迟的在装置上进行这些属性辨识。

而为了提供即时低延迟的拍照体验,Pixel 3上使用Google Visual Core来处理这些HDR+图像,并嵌入到动态照片中。Google提到,由于最佳镜头功能是后台程序,必须要非常省电,所以最佳镜头使用硬件加速的MobileNet SSD(Single Shot Detector),不过最佳化模型的执行,仍受到电力以及热的限制。

这个神经网路设计,在前面网路层进行较低阶的视觉属性侦测,进行物体模糊程度等判断,之后才进行比较复杂的的主观与客观属性判断。Google在训练和推理期间,量化(Quantization)大量各类型脸部照片,并且使用神经网路知识蒸馏(Knowledge Distillation)技术,接着使用分层广义加法模型(GAM)来为脸部评估品质分数,组合成加权平均影格脸部(Frame Faces)分数。

1.5秒连拍90张挑出最好的,谷歌公开Pixel 3“最佳镜头”技术细节

Google提到,这个模型让他们能够简单的解释知识识别成功与失败的原因,进而实现快速迭代,以提高属性模型的品质与性能。虽然最佳镜头会优先处理脸部特征,但在部分非脸部为主体的场景,则主要考察物体运动、全局运动模糊以及自动曝光、自动对焦和自动白平衡3A的分数。

为了测试最佳镜头的品质,Google找来数百名自愿者进行测试评估,贡献的资料集涵盖肖像、自拍、动作和风景等拍照情境,而且为了确保最佳镜头对所有用户都提供一致的体验,Google针对性别、年龄以及种族等不同子群集进行测试,以确保这些模型使用的属性在每个子群集中都同样精确。


分享到:


相關文章: