Nature:人类言语生成的单神经元机制

摘要

摘要图
本文使用超高密度Neuropixels记录技术,分析了人类语言主导前额叶皮层中的单神经元活动,揭示了语音生成过程的基础神经元机制。研究发现,这些神经元能够编码计划语音的音素排列和构成,预测即将发出的词汇音素、音节及形态学组成。研究进一步展示了神经元活动从语音规划到生成的时序动态,并表明神经元能够区分听觉感知和言语生成的特异性过程。这些发现为理解语音生成提供了神经元尺度的细粒度洞察。

关键词

  • 言语生成 (Speech Production)
  • 神经元活动 (Neuronal Activity)
  • 语言前额叶皮层 (Language Prefrontal Cortex)
  • 音素表示 (Phonetic Representation)
  • 自然语音 (Natural Speech)
  • 语言编码 (Language Encoding)

研究背景

人类通过协调复杂的发音运动组合生成语音,这一过程涉及对音素顺序、音节分割及语法成分的快速规划。然而,目前对支持语音生成的基本神经元单元的理解仍然有限。尽管动物模型和人类脑成像研究为声乐生成提供了重要见解,但无法解析单个神经元如何对语言单位进行编码及其组织方式。为解决这一问题,本研究结合了超高密度神经记录技术和自然语音任务,旨在揭示支持语音生成的神经元机制及其在语言前额叶皮层中的组织。

创新点

  • 首次揭示了人类语言主导前额叶皮层中单神经元对语音生成的编码机制。
  • 提出了语音生成过程中音素、音节和形态学成分的神经元时序动态模型。
  • 开发了结合Neuropixels记录技术和自然语音跟踪的新方法,用于解析语音生成的神经元活动。

研究内容

本研究利用超高密度Neuropixels探针记录了人类前额叶皮层中单神经元的活动,分析其在语音生成中的功能。实验通过记录参与语言任务的受试者的神经元活动,发现这些神经元编码了即将生成的语音音素、音节及形态学成分的具体顺序和结构,并能够准确预测语音生成的子词汇特征。研究进一步展示了神经元活动从语音规划到生成的时序动态,证明语音生成过程中的神经编码具有时间顺序性。此外,研究发现这些神经元的活动能够区分言语生成和听觉感知的过程,为语音生成的神经机制提供了全面的理解。

图1
图1 | 自然语音生成过程中前额叶神经元对语音表示的追踪。

(a) 左侧,单神经元记录定位于语言主导的前额叶皮质后中额回区域,此区域已知与单词规划和生成相关(参见扩展数据图1a,b);右侧,使用Neuropixels阵列进行的急性单神经元记录(参见扩展数据图1c,d);底部,语音生成任务及其对照(参见扩展数据图2a)。
(b) 基于预定发音部位的语音组示例(参见扩展数据表1)。
(c) 构建了一个十维特征空间,用于提供每个单词的所有音素的组成表示。
(d) 通过将每个神经元的动作电位(AP)对齐到单词开始时刻,以毫秒级分辨率构建事件时间直方图。数据以平均值(线条)± 标准误差(阴影)表示。插图:动作电位波形形态和比例尺(0.5 ms)。
(e) 左侧,反映对特定计划音素活动选择性变化的调节神经元比例;右侧,显示对软腭辅音具有选择性调谐的细胞调谐曲线。
(f) 平均标准化(z-score)放电率,作为偏好音素组合的汉明距离(Hamming distance)函数,其中距离为0表示单词的音素组合相同,距离为1表示相差一个音素。数据以平均值(线条)± 标准误差(阴影)表示。
(g) 计划音素的解码性能。橙色点显示分类器的ROC-AUC采样分布;n=50次随机测试/训练拆分;P=7.1 × 10⁻¹⁸,两侧Mann-Whitney U检验。数据以均值±标准差表示。

图2
图2 | 编码音素排列和分段为不同音节的细胞。

(a) 通过将每个神经元的动作电位(AP)对齐到单词开始时刻构建事件时间直方图。数据以平均值(线条)± 标准误差(阴影)表示。示例展示了两个对特定计划音节选择性活动变化的代表性神经元。插图:动作电位波形形态和比例尺(0.5 ms)。
(b) 散点图显示D2值(特定特征解释神经元响应的程度,n=272个单元)与计划音素、音节和词素的关系。
(c) 平均标准化(z-score)放电率,作为偏好音节组成和神经元所有其他组成之间汉明距离的函数。数据以平均值(线条)± 标准误差(阴影)表示。
(d) 计划音节的解码性能。橙色点显示分类器的ROC-AUC值采样分布(n=50次随机测试/训练拆分;P=7.1 × 10⁻¹⁸,双侧Mann-Whitney U检验)。数据以均值±标准差表示。
(e) 为评估神经元对特定音节的选择性,比较了其对包含每个神经元偏好音节的单词(即,神经元最强烈响应的音节;绿色)的活动,与以下情况的活动: (i) 包含一个或多个相同单音素但不一定包含偏好音节的单词,(ii) 包含不同音素和音节的单词,(iii) 包含相同音素但分布在不同音节中的单词,以及 (iv) 包含相同音素但音素顺序不同的音节中的单词(灰色)。神经元活动与绿色点的比较在所有情况下均显著(n=113;P分别为6.2 × 10⁻²⁰, 8.8 × 10⁻²⁰, 4.2 × 10⁻²⁰ 和 1.4 × 10⁻²⁰;双侧Wilcoxon符号秩检验)。数据以均值(点)± 标准误差表示。

图3
图3 | 音素、音节和词素表征的时间结构和组织。

(a) 左侧,使用tSNE方法可视化神经元对特定单词特征(音素、音节和词素)的响应选择性(即,响应特性相似的神经元被绘制在更接近的位置)。每个点的色调表示对某个子词汇特征的选择性程度,而点的大小表示这些特征解释神经元响应的程度。插图显示了选择性神经元的相对比例及其重叠情况。右侧,D2指标(特定特征解释神经元响应的程度)按特征单独显示每个细胞的值。
(b) 神经元活动被音素、音节和词素特征解释的相对程度(D2指标)及其层级结构(凝聚层次聚类分析)。
(c) 音素、音节和词素的峰值解码性能分布,按单词发音开始对齐。显著差异的峰值解码时间在样本分布中标记(括号内为统计数据;n=50次随机测试/训练拆分;P分别为0.024, 0.002和0.002;音素对比音节、音节对比词素以及音素对比词素的中位数差异两侧置换检验)。数据以中位值(点)± 引导标准误差表示。

图4
图4 | 神经元群体从单词规划到生成的过渡。

(a) 顶部,神经元活动的D2值(特定特征解释神经元响应的程度,n=272个单元)在单词规划(绿色)和生成(橙色)阶段的分布。中间,单词规划和生成阶段神经元活动(n=272个单元)对音素(Spearman’s ρ=0.69)、音节(Spearman’s ρ=0.40)和词素(Spearman’s ρ=0.08)的解释能力关系(分别为P=1.3 × 10⁻³⁹, P=6.6 × 10⁻¹², P=0.18,双侧Spearman秩序相关检验)。底部,每个单元在生成阶段按特征解释的D2值分布(n=272个单元)。
(b) 左上,语音规划(蓝色平面)和生成(红色平面)子空间示意图,不同音素的神经元轨迹(黄色箭头;参见扩展数据图9)。右上,子空间对齐性通过对齐指数(红色)或Grassmannian chordal距离(红色)量化,与预期的随机对齐(灰色)相比,表明神经群体在规划和生成期间所占据的子空间是不同的。底部,将神经群体活动(n=272个单元)在规划(蓝色)和生成(红色)阶段投影到规划(上排)和生成(下排)子空间的前三个主成分上。

结论与展望

本研究揭示了支持语音生成的单神经元机制及其在语言前额叶皮层中的组织方式,为理解语言生成提供了新的神经科学基础。未来研究可探索更广泛的脑区和复杂的语义处理过程,进一步扩展对自然语音生成的神经机制的认识。

论文直达

原文标题:Single-neuronal elements of speech production in humans

Nature, 2024, 626, 603–609.

点击以下链接阅读原文:

原论文链接 >>>