危险行为识别(调研)

"百度接口"

Posted by wxf on September 16, 2019

危险行为识别

调研接口描述(百度)

针对5s内的监控视频片段,识别行为类别,目前支持7类行为:单人-情绪性指人、单人-摔倒、单人-激烈抱怨、单人-砸东西、单人-正常、双人-危险(包含出拳/拉扯/推搡/激烈搂抱/砸按/踢踹等)、双人-正常。

注:不支持红外摄像头、支持普通照片与监控、当视频中人物超过2人时(比如有围观或者劝架)可能出现误识别(比如输出也是双人-危险)

测试结果

类别 正确率 结果(括号中为错误预测结果)
双人危险 6/6 1568628948397
双人正常 1/6 1568628987120
单人摔倒 2/6 1568629034775
单人-砸东西 1/4 1568787377097
单人-激烈抱怨 0/1 1568787436864
单人-情绪性指人 0/2 1568787460600
单人-正常 1/2 1568787468128

测试结论

  • 因为对暴力容错率较低,推测其设定为高召回率。从而导致双人有正常肢体接触(比如握手、拥抱、跳舞)就会判定为危险。

  • 大部分场景都超过2个人,因此使用受限。

  • 单人场景不准确,且时常检测出两个人。

  • 处理时间较长,2 ~ 4 视频片段要30s ~ 100s,甚至更长,不适合实时使用。

    能够使用的场景为:明显打架斗殴场景检测

大致原理(以TSN为例)

Temporal segment network

1568787974603

将输入视频分为K个片段、接着从每个片段随机选择一帧丢入空间结构(Spatial ConvNet)、以及选择一段片段(Snippets)丢入时间结构(Temporal ConvNet)、不同片段的类别得分采用段共识函数(The segmental consensus function)进行融合来产生段共识(segmental consensus),这是一个视频级的预测。然后对所有模式的预测融合产生最终的预测结果。

源码地址

论文地址