1.5秒连拍90张挑出最好的，谷歌公开Pixel 3“最佳镜头”技术细节攝影頭條網

1.5秒连拍90张挑出最好的，谷歌公开Pixel 3“最佳镜头”技术细节

最佳镜头（Top Shot）是Google最近推出刚放进Pixel 3的新功能，可以帮助使用者在按下快门时，自动地精确捕捉有价值的瞬间。最佳镜头使用电脑视觉技术，即时保存和分析装置上快门按下前后的图像，并推荐使用者替代的高品质HDR+照片。Google今日公开其技术细节。

Google在其自家旗舰手机Pixel 3加入了许多先进技术，以提升拍照品质，包括让数码变焦比拟光学变焦的画质，还有强大的Night Sight功能，即便是晚上低光照都能拍得清楚，以及使用机器学习改善人像模式景深效果，不只这样，Pixel 3的相机还预设启用最佳镜头功能，帮助使用者捕捉最佳镜头。

当用户打开Pixel 3照相应用程式时，预设情况下就会启动最佳镜头功能，当使用按下快门时，系统会自动从按下快门前与后的1.5秒，在3秒间拍摄90张照片，最后使用者可以选择两张高分辨率的照片，除了原本按下快门的那一张，还会有一张高解析替代图片供使用者选择。系统会对使用者按下快门前后所拍下的图像，进行判断主体是否微笑等质性特征分析，同时也会把图像中的光流、曝光时间以及陀螺仪等感测资料，作为评估图像品质的特征。

最佳镜头参考三个关键属性，第一，诸如打光等功能品质，第二、主观品质，像是照片人物的眼睛是否睁开，抑或是表情有没有微笑，第三，情绪表达等客观品质。Google设计了一个电脑视觉模型，以便低延迟的在装置上进行这些属性辨识。

而为了提供即时低延迟的拍照体验，Pixel 3上使用Google Visual Core来处理这些HDR+图像，并嵌入到动态照片中。Google提到，由于最佳镜头功能是后台程序，必须要非常省电，所以最佳镜头使用硬件加速的MobileNet SSD（Single Shot Detector），不过最佳化模型的执行，仍受到电力以及热的限制。

这个神经网路设计，在前面网路层进行较低阶的视觉属性侦测，进行物体模糊程度等判断，之后才进行比较复杂的的主观与客观属性判断。Google在训练和推理期间，量化（Quantization）大量各类型脸部照片，并且使用神经网路知识蒸馏（Knowledge Distillation）技术，接着使用分层广义加法模型（GAM）来为脸部评估品质分数，组合成加权平均影格脸部（Frame Faces）分数。

Google提到，这个模型让他们能够简单的解释知识识别成功与失败的原因，进而实现快速迭代，以提高属性模型的品质与性能。虽然最佳镜头会优先处理脸部特征，但在部分非脸部为主体的场景，则主要考察物体运动、全局运动模糊以及自动曝光、自动对焦和自动白平衡3A的分数。

为了测试最佳镜头的品质，Google找来数百名自愿者进行测试评估，贡献的资料集涵盖肖像、自拍、动作和风景等拍照情境，而且为了确保最佳镜头对所有用户都提供一致的体验，Google针对性别、年龄以及种族等不同子群集进行测试，以确保这些模型使用的属性在每个子群集中都同样精确。

分享到:

閱讀更多 IT情報局菊長 的文章

關鍵字: Google 手机技术细节