在许多线上会议中,利用AI算法实现多语言机器翻译已经越来越常见了。那么,如果是用手语交流,又该如何进行翻译呢?对于不懂手语的人来讲,通过AI算法进行机器翻译,实用又方便。但是手语并非基于语音,因此无法以来语音识别实现转换,而是需要用到计算机视觉技术。
目前,基于计算机视觉的手势识别方案越来越多样化,而且效果逐渐成熟。比如,谷歌在2019年开源的MediaPipe手势识别算法,就已经可以识别单手21个骨骼节点,甚至在2020年底更新后,可识别手指之间的遮挡。
而利用MediaPipe算法,机翻手语技术公司SignAll研发了一种基于手势识别的手语翻译SDK,它不仅可以翻译手语,还可以将手语作为一种输入方式,听障人士无需打字就能输入指令和文字。
据了解,SignAllSDK可作为一种手语识别基础,帮助开发者在自己的应用中加入手语翻译功能。此前,SignAll的解决方案依赖多颗摄像头和配有彩色标记的手套,而现在结合MediaPipe算法,只需要手机的一颗摄像头,无需追踪手套即可实现手语识别。除此之外,SignAll还发布了手语学习app:《AceASL》,可以让你一边学手语,一边通过手势识别验证学习结果。
据悉,谷歌在开源MediaPipe时就曾表示:该算法可识别基础手语,可实现手势操控,用于AR/VR。因此,将MediaPipe用于手语识别本身就是自然的场景,SignAll是在原本算法基础上进一步对手语识别进行优化。
细节方面,MediaPipe框架有3个模型组成,包括:手掌识别模型BlazePalm(用于识别手的整体框架和方向)、Landmark模型(识别立体手部节点)、手势识别模型(将识别到的节点分类成一系列手势)。
其中,BlazePalm是一个可识别单帧图像的模型,主要为Landmark模型提供准确剪裁的手掌图像,在经过训练后手掌识别准确率可达95.7%。这大大降低了对旋转、转化和缩放等数据增强方式的依赖,让算法将更多计算能力用在提高预测准确性上。此外,BlazePalm可识别多种不同手掌大小,还能识别手部遮挡,并且能通过对手臂、躯干或个人特征等的识别来准确定位手部。
而Landmark模型,则是在BlazePalm基础上识别到的21个立体节点坐标,这些节点之间的位置遮挡也可被识别。
接下来,通过手势识别模型,从Landmark提取的数据来推断每根手指伸直或弯曲等动作,接着将这些动作与预设的手势匹配,以预测基础的静态手势。这些预设手势包括一些美国、欧洲、中国通用的数数手势,以及竖大拇指、握拳、OK、“蜘蛛侠”等等。
在兼容性方面,尽管手套方案与无手套方案依然存在一些差异,但足以在无手套方案中,利用已经标记的30多万个手语视频进行算法培训。
不过,为了能够在单颗摄像头方案中实现准确的手语识别,因此SignAll需要加入额外的算法逻辑,将单颗摄像头捕捉到的2D数据转化为3D手势。比如:根据摄像头移动来动态识别3D手势,等等。
此外,还需要重新训练3D手势识别算法,在原来的训练视频基础上,进一步标记更多细节。于是,SignAll可以通过处理过的动捕数据,模拟手指、骨骼、面部特征在各个角度的样子。
目前,SignAll的手语识别算法支持手机端等平台,不过其性能依然受不同摄像头配置和算力影响。而功能性上,它可以用来输入人名、签名、填写地址、点餐等等。或者,也可以在多人视频会议中,帮助不懂手语的人进行翻译。
总之,手语识别和翻译可作为语音输入之外的另一种输入方式,尤其是对于听障人士,是一个有价值的应用。如果用手语作为AR/VR头显的输入方式,甚至可能进一步提升听障人士远程沟通效率。参考: