专家们找到了一种方法来了解你在视频通话中输入的内容

一个新的攻击框架旨在通过简单地利用视频馈送将可观察到的身体运动与正在键入的文本关联起来,推断目标用户在视频会议电话的另一端键入的击键。
这项研究由Mohd Sabra和德州大学圣安东尼奥分校的Murtuza Jadliwala和俄克拉何马大学的Anindya Maiti共同完成。他们说,只要网络摄像头的视野捕捉到目标用户可见的上身动作,攻击就可以扩展到YouTube和Twitch上的实时视频源之外。
研究人员说:“随着智能手机、平板电脑和笔记本电脑等许多消费类电子产品中嵌入的视频捕获硬件的普及,通过视觉通道泄露信息的威胁已经扩大。”。“对手的目标是利用所有记录帧中可观察到的上身运动来推断目标键入的私人文本。”
To achieve this, the recorded video is fed into a video-based keystroke inference framework that goes through three stages —
- 预处理,在去除背景的情况下,视频被转换为灰度,然后根据通过称为Facebox的模型检测到的个人面部分割左臂和右臂区域
- 击键检测,检索分割的手臂帧以计算结构相似性指数(SSIM),目的是量化左右两侧视频片段中连续帧之间的身体运动,并识别发生击键的潜在帧
- 单词预测,其中击键帧段用于检测每次检测到的击键前后的运动特征,使用它们通过基于词典的预测算法推断特定单词
换句话说,从检测到的击键池中,利用检测到的击键次数以及连续击键之间手臂位移的大小和方向来推断单词。
这种位移是用一种称为稀疏光流的计算机视觉技术测量的,该技术用于跟踪按时间顺序的击键帧中肩部和手臂的运动。

此外,还绘制了“标准QWERTY键盘上的击键方向”模板,用左手和右手混合表示“打字机的手应该遵循的理想方向”。
然后,单词预测算法搜索最可能的单词,这些单词与左右手击键的顺序和数量以及手臂位移的方向与模板击键间的方向相匹配。
研究人员说,他们在一个受控场景中对20名参与者(9名女性和11名男性)进行了框架测试,采用了打猎、啄啄和触摸输入的混合方法,除了在不同背景、网络摄像头模型、服装(尤其是袖子设计)、键盘和,甚至还有各种视频通话软件,比如Zoom、Hangouts和Skype。
研究结果显示,hunt和peck打字机以及那些穿无袖衣服的人,以及Logitech网络摄像头的用户,更容易受到单词推理攻击,从而比那些使用Anivia外部网络摄像头的人更好地恢复单词。

再次对另外10名参与者(3名女性和7名男性)进行了测试,这次是在一个实验性的家庭设置中,成功推断出91.1%的用户名、95.6%的电子邮件地址和66.7%的参与者输入的网站,但只有18.9%的密码和21.1%的参与者输入的英语单词。
Sabra、Maiti和Jadliwala指出:“我们的准确度比实验室环境差的原因之一是,参考词典的排名是基于英语句子中的单词使用频率,而不是基于人们产生的随机单词。”。
研究人员表示,模糊、像素化和跳帧是一种有效的缓解策略,视频数据可以与通话中的音频数据相结合,以进一步提高击键检测。
研究人员强调:“由于最近发生的世界性事件,视频通话已成为个人和专业远程通信的新常态。”。“然而,如果视频通话中的参与者不小心,他/她可以在通话中向其他人透露他/她的私人信息。我们在常见和现实环境下相对较高的击键推理准确率突出了对此类攻击的意识和对策的需要。”
研究结果预计将于今天晚些时候在网络和分布式系统安全研讨会(NDSS)上公布。