从实时视频或视频文件中检测面部表情和意识。背后的灵感是什么?通过网络摄像头看着我,但被深度学习所取代
实时视频分类器演示
介绍
本教程的目标?使用fast.ai库训练面部表情分类模型,从您的网络摄像头或视频文件中读取面部表情,最后添加面部标记以跟踪您的眼睛以确定意识!、
、在进行该项目时,面临的一大挑战是弄清楚如何使用经过训练的分类器,使其能够有效地用于实时视频和视频文件。
第一步是用卷积神经网络训练图像分类模型。我使用的数据来自https://www.kaggle.com/jonathanoheix/face-expression-recognition-dataset
我使用了构建在PyTorch之上的fast.ai库来训练我的分类模型。使用resnet34预训练的权重和训练数据集对模型进行训练,并以.pkl文件的形式导出。有关分步说明,请在我的存储库中查看Google colab笔记本,其中包含用于训练模型的所有代码:https : //github.com/jy6zheng/FacialExpressionRecognition
最大的挑战是首先找到一个公共数据集,然后清理数据。最初,当我使用Kaggle数据集时,我只能训练到0.328191的错误率,这意味着大约68%的时间它是正确的(一点也不好)。当我绘制产生最大损失的图像时,我很快意识到大量数据被错误地标记了(左边是模型的预测表达,右边是被标记的情感)。
清除数据后,错误率降低了16%以上。现在,分类器的准确度约为84%,这意味着它可以正确识别84%的面部图像。仍然有一些不正确和肮脏的数据,因此还有更多改进的空间。
如您所见,中性和悲伤的面孔最容易让人感到困惑
在直播视频上使用训练好的模型
现在,是时候采用我们的分类器并将其用于实时视频流了。首先,最好创建一个虚拟环境,以便该项目具有自己的依赖性,并且不会干扰任何其他项目。然后,下载所需的软件包和库。创建一个名为liveVideoFrame.py的文件(或任何您想命名的文件)并导入以下内容:
<code>from scipy.spatial import distance as dist import numpy as np import cv2 from imutils import face_utils from imutils.video import VideoStream from fastai.vision import * import imutils import argparse import time import dlib/<code>
我想要该选项将预测保存在.csv文件中并保存标记的视频,因此我添加了参数解析功能。我还导出了训练有素的分类模型,并将其移至我的工作目录。
<code>ap = argparse.ArgumentParser() ap.add_argument("--save", dest="save", action = "store_true") ap.add_argument("--no-save", dest="save", action = "store_false") ap.set_defaults(save = False) ap.add_argument("--savedata", dest="savedata", action = "store_true") ap.add_argument("--no-savedata", dest="savedata", action = "store_false") ap.set_defaults(savedata = False) args = vars(ap.parse_args())path = '/Users/joycezheng/FacialRecognitionVideo/' #change this depending on the path of your exported model learn = load_learner(path, 'export.pkl')/<code>
现在是时候开始我们的视频流了。我从imutils.video使用VideoStream,因为我发现它比cv2.VideoCapture的运行速度更快。注意:内置网络摄像头的视频流源为0,如果您使用其他摄像头(例如插件),则视频流的源将不同。
Haar级联分类器用于识别视频帧中的正面。我们有一个名为data的数组来存储我们的预测。timer和time_value用于在我们的数据中标记每个预测的时间,以便在.csv文件中预测增加1s。
<code>face_cascade = cv2.CascadeClassifier("haarcascade_frontalface_default.xml") vs = VideoStream(class="lazy" data-original=0).start() start = time.perf_counter() data = [] time_value = 0 if args["save"]: out = cv2.VideoWriter(path + "liveoutput.avi", cv2.VideoWriter_fourcc('M','J','P','G'), 10, (450,253))/<code>
现在,我们将实现一个while循环,该循环从视频流中读取每个帧:
- 由于图像分类器是在灰度图像上训练的,因此每个帧都转换为灰度
- 级联分类器用于查找框架中的人脸。我将minneighbors参数设置为5,因为我发现它在实时视频中效果最好。对于录制的视频文件,我将其设置为较高的值,因为可以保证每帧中都有一张脸
- 由于我们的分类器是在没有太多背景的特写脸部上训练的,因此使用0.3的缓冲区为脸部裁剪了灰度图像
- 然后将文本和边界框绘制到每个框架上并显示
- 然后使用out.write(frame)将每个帧保存到视频编写器
<code>while True: frame = vs.read() frame = imutils.resize(frame, width=450) gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) face_coord = face_cascade.detectMultiScale(gray, 1.1, 5, minSize=(30, 30)) for coords in face_coord: X, Y, w, h = coords H, W, _ = frame.shape X_1, X_2 = (max(0, X - int(w * 0.3)), min(X + int(1.3 * w), W)) Y_1, Y_2 = (max(0, Y - int(0.3 * h)), min(Y + int(1.3 * h), H)) img_cp = gray[Y_1:Y_2, X_1:X_2].copy() prediction, idx, probability = learn.predict(Image(pil2tensor(img_cp, np.float32).div_(225))) cv2.rectangle( img=frame, pt1=(X_1, Y_1), pt2=(X_2, Y_2), color=(128, 128, 0), thickness=2, ) cv2.putText(frame, str(prediction), (10, frame.shape[0] - 25), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (225, 255, 255), 2) cv2.imshow("frame", frame) if args["save"]: out.write(frame) if cv2.waitKey(1) & 0xFF == ord("q"): breakvs.stop() if args["save"]: print("done saving video") out.release() cv2.destroyAllWindows()/<code>
现在,我们有了与imutils和OpenCV一起使用的fast.ai学习模型,可以根据实时视频预测面孔!
接下来,是时候确定面部的意识了。函数eye_aspect_ratio从眼睛的坐标计算出眼睛的纵横比。每只眼睛的位置和坐标可从dlib预训练的面部界标检测器中找到。函数data_time用于每1秒间隔将预测添加到数据数组中。
<code>EYE_AR_THRESH = 0.20 EYE_AR_CONSEC_FRAMES = 10COUNTER = 0def eye_aspect_ratio(eye): A = dist.euclidean(eye[1], eye[5]) B = dist.euclidean(eye[2], eye[4]) C = dist.euclidean(eye[0], eye[3]) ear = (A + B) / (2.0 * C) return eardef data_time(time_value, prediction, probability, ear): current_time = int(time.perf_counter()-start) if current_time != time_value: data.append([current_time, prediction, probability, ear]) time_value = current_time return time_valuepredictor = dlib.shape_predictor("shape_predictor_68_face_landmarks.dat")(lStart, lEnd) = face_utils.FACIAL_LANDMARKS_IDXS["left_eye"] (rStart, rEnd) = face_utils.FACIAL_LANDMARKS_IDXS["right_eye"]/<code>
在循环人脸坐标的for循环中,添加以下代码块。使用dlib人脸界标检测器检测眼睛并将其绘制到框架上。当两只眼睛之间的平均计算出的眼睛纵横比小于十个连续帧(您可以根据自己的喜好进行修改)的阈值时,该脸部将标记为分散注意力。
<code> rect = dlib.rectangle(X, Y, X+w, Y+h) shape = predictor(gray, rect) shape = face_utils.shape_to_np(shape) leftEye = shape[lStart:lEnd] rightEye = shape[rStart:rEnd] leftEAR = eye_aspect_ratio(leftEye) rightEAR = eye_aspect_ratio(rightEye) ear = (leftEAR + rightEAR) / 2.0 leftEyeHull = cv2.convexHull(leftEye) rightEyeHull = cv2.convexHull(rightEye) cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1) cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1) if ear < EYE_AR_THRESH: COUNTER += 1 if COUNTER >= EYE_AR_CONSEC_FRAMES: cv2.putText(frame, "Distracted", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2) else: COUNTER = 0 cv2.putText(frame, "Eye Ratio: {:.2f}".format(ear), (250, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2) time_value = data_time(time_value, prediction, probability, ear)/<code>
最后,在代码的底部,我们可以将数据另存为数据框,然后另存为.csv文件。
if args["savedata"]:
df = pd.DataFrame(data, columns = ['Time (seconds)', 'Expression', 'Probability', 'EAR'])
df.to_csv(path+'/exportlive.csv')
print("data saved to exportlive.csv")
您可以通过运行以下命令在命令行中测试代码:
<code>python liveVideoFrameRead.py --save --savedata/<code>
与实时视频相比,我对视频文件使用了非常相似的方法。主要区别在于,预测会每帧数发生一次,可以使用命令行参数“ frame-step”进行修改。完整的代码如下:就是这样!现在,您可以从视频文件和实时网络摄像头中预测面部表情。
感谢阅读!