背景
在上一篇文章里,我提到了长期以来都被一种病困扰:工作日的早上总是睡过闹钟。于是,我产生了一个 idea:
能不能有这样一个闹钟,在工作日才会工作,到点就能够智能检测我是不是在赖床。一旦发现我又要迟到,就放音乐把我叫醒。
海淘了一个 Amazon Echo Dot 后,这个想法越来越觉得有那么一定可行性。于是拿着尘封4年的安卓手机开始尝试。中间遇到了不少问题,没想到最后还实现了,效果还不错,录制了一个 demo 各位可以戳链接看看:
在上一篇文章里,我已经分享了整体的流程设计,主要是 Home Assistant 相关的部分。
这一篇里,会分享如何啃下另一个硬骨头:怎么判断人是不是在赖床。
思路
让摄像头对着床拍一张照片,判断有人在/没人在两种结果。在分析这个问题时,我想到这个不就是一个 典型的图片分类问题 吗?
马上想起以前阅读过@王树义老师的文章:利用苹果深度学习框架 TuriCreate 做模型训练。
对于如何使用开源框架做机器学习训练,王树义老师有大量的文章已经详细介绍过,从安装到训练手把手教学。非常建议感兴趣的同学前去阅读,或者动手实现一遍。
我基本上也是依葫芦画瓢地操作。不过,要让模型能正确辨认我在不在床上,关键就在于:
我需要准备几百张高质量床照。
样本准备
既然是图片分类问题,那我就要准备 在床上 和 不在床上 两堆照片。我选择的办法是录视频,然后再截取成图片。
而且,要让机器学得更聪明,样本要尽量覆盖所有情况,例如翻身、正面、趴着、倒立、巴黎铁塔反转再反转...
光线也要注意,晴天、阴天、暴雨天的光线也是不一样的,所以样本里的光线也要各种各样。
影响因素 | 覆盖场景 | 拍摄注意事项 |
---|---|---|
颜色 | 床单颜色、被子颜色、枕头颜色、睡衣颜色 | 请准备多套床戏戏服 |
人 | 位置、蜷缩方向等 | 请包含各种体位 |
床上物品 | 被子、枕头等 | 玩具和公仔就不要随便带上床了,变量太多机器容易智障 |
光线 | 晴天、阴天、雨天 | 可以用窗帘或者灯调控光线 |
素材准备要真诚,如果平时不叠被子,请不要在这个时候刻意叠被子谢谢
现场的情况虽然有一点羞耻,但在科学的感召下,我一个人在床上辗转腾挪,认真地拍摄了床照。把在床上和不在床上两种场景的视频都剪成图片之后,终于我得到了几百张私密床照。
视频剪切有很多种方法,有很多的软件可以完成。我使用的是 OpenCV 的 Python 包,文档地址。
import cv2
# 读取视频
vc = cv2.VideoCapture('/Users/patrick/Downloads/xxxx.mp4')
rval, frame = vc.read()
# 视频帧计数间隔频率
duration = 10
# 循环读取视频
c = 1
while rval:
rval, frame = vc.read()
# 每隔10帧就保存照片
if(c%timeF == 0):
# 存储为图像
cv2.imwrite('smart_alarm/image/training/'occupied_' + str(c) + '.jpg', frame)
c = c + 1
cv2.waitKey(1)
训练模型
数据都准备了差不多,就可以训练模型了。要了解从安装到训练的操作,再一次推荐阅读王树义老师的文章。我只是依葫芦画瓢,核心操作如下:
import turicreate as tc
# 读取我在床上的图片,并打上标签:occupied
data = tc.image_analysis.load_images('/Users/patrick/CodeLab/alarm/image/training_occupied/', with_path=True)
data['label'] = 'occupied'
# 读取我不在床上的图片,并打上标签:empty
data_2 = tc.image_analysis.load_images('/Users/patrick/CodeLab/alarm/image/training_empty/', with_path=True)
data_2['label'] = 'empty'
# 合并到一个数据集里
data = data.join(data_2, how='outer')
然后,数据已经准备好了,只需要一行代码,开始训练模型:
# 训练模型,选择 TuriCreate 里面的 image_classifier
model = tc.image_classifier.create(data, target='label', max_iterations=15)
点下回车,模型自己开始噼里啪啦一顿操作,半分钟左右,毫无预兆地就训练成功了。
苹果的这个机器学习框架真的非常优秀,也太适合我这种不求甚解、跑通就行的人。
部署
用测试集完成一些简单测试后,我基本认为这个模型能用了。接下来,就是把它从代码里抠出来,部署到实际的流程中了。
首先,把本地训练好的 model 保存好。
# 保存到你的一个文件里
model.save('/Users/patrick/CodeLab/alarm/model')
把模型丢到你的服务器中去。
和本地训练不同在于,我们会用 Flask 构建一个 API 接口。每次都加载这个模型,然后做图像分析。
在 VPS 里创建一个 face_recognition.py
文件,完成判断的核心逻辑:
import base64
import turicreate as tc
# 读取模型
model = tc.load_model('/root/codelab/alarm/model')
# 接口中要传输图像,可以使用 base64 的方式
def b64_to_file(data, filename):
'''
data: base64.b64encode(file)
filenmae: name of the file
'''
img_data = base64.b64decode(data)
path = '/root/codelab/alarm/tmp' + filename
try:
with open(path, 'wb') as f:
f.write(img_data)
return {
'result': 'success',
'path': path
}
except Exception as e:
return {
'result': 'fail',
'error': str(e)
}
def get_result(data, filename):
a = b64_to_file(data, filename)
if a['result'] == 'success':
prediction = model.predict(tc.Image(path=a['path']))
return {
'resultCode': '0000',
'prediction': prediction
}
else:
return {
'resultCode': '0001',
'error': a['error']
}
在 VPS 里创建一个 main.py
文件,完成 API 接口逻辑:
from flask import Flask, jsonify
from flask import request
from flask import make_response
from flask import abort
import face_recognition as fr
app = Flask(__name__)
# 这个就是接口地址
@app.route('/api/facerecognition/v1.0/checkface', methods=['GET', 'POST'])
def check_face():
if len(request.form['data']) < 10:
abort(404)
result = fr.get_result(request.form['data'], request.form['filename'])
return jsonify(result)
@app.errorhandler(404)
def not_found(error):
return make_response(jsonify({'error': 'Not found'}), 404)
@app.errorhandler(400)
def missing_params(error):
return make_response(jsonify({'error': '参数缺失'}), 400)
if __name__ == '__main__':
app.run(host='0.0.0.0', port=80, debug=True)
最后,为了稳定性,我还使用了 gunicorn
来运行。
一切就绪,我使用一张照片进行测试。
嗯还行,成功地识别到我在赖床。
最后
欢迎回顾项目的第一篇文章。我觉得这个想法还是比较有意思的,但我也知道整个项目仔细琢磨的话,肯定有很多问题,例如隐私问题,安全问题。所以,核心点还是用来练手。感谢大家的阅读,期待在评论区听到大家的看法~