我的 2018 Final 个人挑战(PART 2):用深度学习为闹钟提供视觉能力

背景

上一篇文章里,我提到了长期以来都被一种病困扰:工作日的早上总是睡过闹钟。于是,我产生了一个 idea:

能不能有这样一个闹钟,在工作日才会工作,到点就能够智能检测我是不是在赖床。一旦发现我又要迟到,就放音乐把我叫醒。

海淘了一个 Amazon Echo Dot 后,这个想法越来越觉得有那么一定可行性。于是拿着尘封4年的安卓手机开始尝试。中间遇到了不少问题,没想到最后还实现了,效果还不错,录制了一个 demo 各位可以戳链接看看:

上一篇文章里,我已经分享了整体的流程设计,主要是 Home Assistant 相关的部分。

这一篇里,会分享如何啃下另一个硬骨头:怎么判断人是不是在赖床。

思路

让摄像头对着床拍一张照片,判断有人在/没人在两种结果。在分析这个问题时,我想到这个不就是一个 典型的图片分类问题 吗?

马上想起以前阅读过@王树义老师文章:利用苹果深度学习框架 TuriCreate 做模型训练。


对于如何使用开源框架做机器学习训练,王树义老师有大量的文章已经详细介绍过,从安装到训练手把手教学。非常建议感兴趣的同学前去阅读,或者动手实现一遍。

我基本上也是依葫芦画瓢地操作。不过,要让模型能正确辨认我在不在床上,关键就在于:
我需要准备几百张高质量床照。

样本准备

既然是图片分类问题,那我就要准备 在床上不在床上 两堆照片。我选择的办法是录视频,然后再截取成图片。

而且,要让机器学得更聪明,样本要尽量覆盖所有情况,例如翻身、正面、趴着、倒立、巴黎铁塔反转再反转...

光线也要注意,晴天、阴天、暴雨天的光线也是不一样的,所以样本里的光线也要各种各样。

影响因素 覆盖场景 拍摄注意事项
颜色 床单颜色、被子颜色、枕头颜色、睡衣颜色 请准备多套床戏戏服
位置、蜷缩方向等 请包含各种体位
床上物品 被子、枕头等 玩具和公仔就不要随便带上床了,变量太多机器容易智障
光线 晴天、阴天、雨天 可以用窗帘或者灯调控光线

素材准备要真诚,如果平时不叠被子,请不要在这个时候刻意叠被子谢谢

现场的情况虽然有一点羞耻,但在科学的感召下,我一个人在床上辗转腾挪,认真地拍摄了床照。把在床上和不在床上两种场景的视频都剪成图片之后,终于我得到了几百张私密床照。

舍不着孩子套不着狼应该是自古以来的真理
舍不着孩子套不着狼应该是自古以来的真理

视频剪切有很多种方法,有很多的软件可以完成。我使用的是 OpenCV 的 Python 包,文档地址

import cv2
# 读取视频
vc = cv2.VideoCapture('/Users/patrick/Downloads/xxxx.mp4') 
rval, frame = vc.read()
# 视频帧计数间隔频率
duration = 10
# 循环读取视频
c = 1
while rval:
    rval, frame = vc.read()
    # 每隔10帧就保存照片
    if(c%timeF == 0):
        # 存储为图像
        cv2.imwrite('smart_alarm/image/training/'occupied_' + str(c) + '.jpg', frame) 
    c = c + 1
    cv2.waitKey(1)

训练模型

数据都准备了差不多,就可以训练模型了。要了解从安装到训练的操作,再一次推荐阅读王树义老师的文章。我只是依葫芦画瓢,核心操作如下:

import turicreate as tc

# 读取我在床上的图片,并打上标签:occupied
data = tc.image_analysis.load_images('/Users/patrick/CodeLab/alarm/image/training_occupied/', with_path=True)
data['label'] = 'occupied'
# 读取我不在床上的图片,并打上标签:empty
data_2 = tc.image_analysis.load_images('/Users/patrick/CodeLab/alarm/image/training_empty/', with_path=True)
data_2['label'] = 'empty'
# 合并到一个数据集里
data = data.join(data_2, how='outer')

然后,数据已经准备好了,只需要一行代码,开始训练模型:

# 训练模型,选择 TuriCreate 里面的 image_classifier
model = tc.image_classifier.create(data, target='label', max_iterations=15)

这个需求很简单,怎么实现我不管
这个需求很简单,怎么实现我不管

点下回车,模型自己开始噼里啪啦一顿操作,半分钟左右,毫无预兆地就训练成功了。
苹果的这个机器学习框架真的非常优秀,也太适合我这种不求甚解、跑通就行的人。

部署

用测试集完成一些简单测试后,我基本认为这个模型能用了。接下来,就是把它从代码里抠出来,部署到实际的流程中了。

把模型放到服务器上,那你的相机和闹钟就不用关心具体的识别逻辑,只需要根据结果来做自己的事情
把模型放到服务器上,那你的相机和闹钟就不用关心具体的识别逻辑,只需要根据结果来做自己的事情

首先,把本地训练好的 model 保存好。

# 保存到你的一个文件里
model.save('/Users/patrick/CodeLab/alarm/model')

模型可以导出到本地,就这堆看不懂的东西
模型可以导出到本地,就这堆看不懂的东西

把模型丢到你的服务器中去。
和本地训练不同在于,我们会用 Flask 构建一个 API 接口。每次都加载这个模型,然后做图像分析。

在 VPS 里创建一个 face_recognition.py 文件,完成判断的核心逻辑:

import base64
import turicreate as tc

# 读取模型
model = tc.load_model('/root/codelab/alarm/model')

# 接口中要传输图像,可以使用 base64 的方式
def b64_to_file(data, filename):
    '''
    data: base64.b64encode(file)
    filenmae: name of the file
    '''
    img_data = base64.b64decode(data)
    path = '/root/codelab/alarm/tmp' + filename
    try:
        with open(path, 'wb') as f:
            f.write(img_data)
        return {
            'result': 'success',
            'path': path
        }
    except Exception as e:
        return {
            'result': 'fail',
            'error': str(e)
        }
def get_result(data, filename):
    a = b64_to_file(data, filename)
    if a['result'] == 'success':
        prediction = model.predict(tc.Image(path=a['path']))
        return {
            'resultCode': '0000',
            'prediction': prediction
        }
    else:
        return {
            'resultCode': '0001',
            'error': a['error']
        }

在 VPS 里创建一个 main.py 文件,完成 API 接口逻辑:

from flask import Flask, jsonify
from flask import request
from flask import make_response
from flask import abort
import face_recognition as fr

app = Flask(__name__)

# 这个就是接口地址
@app.route('/api/facerecognition/v1.0/checkface', methods=['GET', 'POST'])
def check_face():
    if len(request.form['data']) < 10:
        abort(404)
    result = fr.get_result(request.form['data'], request.form['filename'])
    return jsonify(result)

@app.errorhandler(404)
def not_found(error):
    return make_response(jsonify({'error': 'Not found'}), 404)

@app.errorhandler(400)
def missing_params(error):
    return make_response(jsonify({'error': '参数缺失'}), 400)

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=80, debug=True)

最后,为了稳定性,我还使用了 gunicorn 来运行。

一切就绪,我使用一张照片进行测试。

TA到底能否看懂这熟悉的郁郁寡欢的背影?
TA到底能否看懂这熟悉的郁郁寡欢的背影?

嗯还行,成功地识别到我在赖床。

请输入图片标题

最后

整体流程
整体流程

欢迎回顾项目的第一篇文章。我觉得这个想法还是比较有意思的,但我也知道整个项目仔细琢磨的话,肯定有很多问题,例如隐私问题,安全问题。所以,核心点还是用来练手。感谢大家的阅读,期待在评论区听到大家的看法~


20

评论(5)
最热 最新