摘要

研究视频场景中人体行为自然语言描述的实现方法。首先建立三维人体的语义模型和主要的关节点运动模型,并建立人体运动语义描述基本数据库。应用图像自动场景标注技术来描述背景图像。通过人体简单动作的语义逻辑运算,得到人的组合动作和相互动作。将人的行为动作组合场景语义,从而准确描述出人在复杂场景的语义行为。最后建立简单的中文语法规则,得到人在场景中行为的自然语言描述。实验结果表明:与传统的二维模型相比,三维模型结合了场景语义并能解决遮挡问题,可以准确表达更为复杂的人类行为。