脑电图 (EEG) :语音脑机接口(BCI)的理想选择
运动性语言障碍是一种严重的医疗状况,它让患者几乎或完全失去说话能力。这种状况在帕金森病患者中的发生率为90%,在中风患者中的发生率为45.2%,在肌萎缩侧索硬化症(ALS)患者中的发生率为95%。典型的针对语言障碍的沟通辅助设备,如使用眼动追踪器的设备,其交流速度远低于自发性语言,特别是在ALS晚期,视觉损失和眼球运动缺陷可能导致疲劳问题,使得这些设备无法使用。与此相反,近期在语音脑机接口(BCIs)方面取得的进展显示,侵入性神经记录技术,比如皮层内微电极阵列和皮层电图(ECoG),在实现接近自然语言的词汇产生速率方面展现出了显著的前景,同时也为用户提供了一个较少负担的替代选择。然而,这些方法需要在大脑中植入电极,侵入性很高,带来了显著的心理和物理障碍。因此,对于使用非侵入性神经记录技术的语音BCI的需求日益增长,这种技术的使用门槛要低得多。
在非侵入性神经活动记录中,EEG能够实现便携且实时的BCI。功能性磁共振成像(fMRI)和脑磁图(MEG)需要大型磁场设备,因此不适用于日常使用。近红外光谱成像(NIRS)则是适合日常使用的一种神经记录方法。然而,由于它测量的是神经活动的次级效应——血流变化,其时间分辨率不足以实现连续语音的实时解码,其中音节以几百毫秒的间隔发生。EEG是一种非侵入性的、常规可获得的记录技术,能够在相对较低的成本下以足够高的时间分辨率捕捉语音特征。
EEG的优势在于它是一种非侵入性技术,可以测量大脑活动产生的电信号,这些信号能够穿过头骨和皮肤被外部电极所记录。这使得EEG成为一种可以广泛获取的记录技术,适合于连续语音的实时解码。然而,EEG信号在传输过程中会减弱,并且容易受到噪声和肌电伪迹的影响。肌电伪迹是由面部和颈部肌肉活动产生的电信号,它们可能会干扰EEG记录的脑电信号。
尽管存在这些挑战,EEG作为一种非侵入性技术,仍然具有巨大的潜力,可以用于开发语音脑机接口。EEG能够提供足够高的时间分辨率来捕捉语音产生的快速变化的神经活动。此外,EEG设备的便携性使其有潜力在各种环境中使用,包括家庭和医院之外的场所。
EEG的另一个重要优势是其成本效益。与其他需要昂贵设备的神经记录技术相比,EEG系统通常更加经济实惠,这使得它们更容易被广泛采用。这种成本效益也有助于推动EEG在脑机接口领域的研究和开发。
1 EEG 数据解码语音方法
1.1 数据收集
- 参与者:一名健康的成年男性。
- 数据记录:参与者朗读文本时,同时记录 EEG、眼电图(EOG)、口轮匝肌肌电图(EMG)和语音信号。
- 记录时长:48 天,共 175 小时。
1.2 数据预处理
- EEG 降噪:使用 MNE-Python 进行滤波和去噪处理。
- EMG 去除:使用自适应滤波器(NLMS)去除 EEG 信号中的 EMG 干扰。
- 分段:将 EEG 和音频信号分割成 5 秒的片段,并进行归一化处理。
- 数据划分:按照时间顺序将数据划分为训练集、验证集和测试集。
1.3 模型构建
- EEG 编码器:结合 HTNet 和 Conformer 架构,提取 EEG 信号的潜在表示。
- 音频编码器:使用预训练的 wav2vec2.0、Whisper 或 Encodec 模型,提取音频信号的潜在表示。
- 解码器:基于 CLIP 损失函数,训练 EEG 编码器,使 EEG 和音频的潜在表示更加相似。
1.4 训练过程
- 使用预训练的音频编码器,固定其权重。
- 使用 AdamW 或 Lamb 优化器训练 EEG 编码器。
- 使用 AdamW 优化器训练扩散声码器。
1.5 评估指标
- 零样本言语片段分类准确率:计算 EEG 潜在表示与音频潜在表示之间的余弦相似度,并根据相似度进行分类。
- 语音重建质量:使用梅尔倒谱失真(MCD)评估重建语音与原始语音之间的相似度。
1.6 数据增强
- 为了训练模型忽略 EMG 信号,将不同试验的 EMG 信号混合到 EEG 信号中。
- 模型在训练时忽略 EMG 信号的音频潜在表示,只关注 EEG 信号的音频潜在表示。
2 结果
基于 CLIP 的 EEG 言语解码方法具有很高的准确率,并且对 EMG 干扰具有一定的鲁棒性。
2.1 零样本言语片段分类准确率
使用 wav2vec2.0 音频编码器时,模型的 top-1 准确率达到 48.5%,top-10 准确率达到 76.0%。
随着训练数据量的增加,分类准确率不断提高,表明数据量对解码性能有显著影响。
与之前的研究相比,本研究的解码准确率更高,说明言语解码比听力解码更具挑战性。
2.2 数据规模对分类准确率的影响
随着训练数据量的增加,分类准确率逐渐提高,且没有达到饱和状态。这表明增加数据量可以进一步提高解码性能。
2.3 语音识别
研究发现, EEG 潜在表示中包含了清晰的言语片段时间结构。这表明解码器可以无需显式测量单词识别,就能够识别言语片段。
2.4 语音重建
使用扩散声码器,从 EEG 潜在表示中重建语音波形。重建语音与原始语音之间的 MCD 为 4.68 dB,与侵入式言语解码的 SOTA 结果相当。
然而,重建语音的清晰度仍有待提高。
2.5 EMG 干扰的影响
研究发现,模型对 EMG 干扰具有一定的鲁棒性。通过数据增强的方法,可以使模型在解码时忽略 EMG 信号的影响。
这表明 EEG 信号可以有效地解码言语,而不会受到肌肉活动的影响。