生活攻略

为什么有人能记住歌的原调，有人记不住？——音感的光谱

May 03, 2026 By Zircon

1. 问题

试一下：闭上眼睛，凭记忆清唱一下你最熟悉的某首歌的开头——周杰伦的《晴天》、林俊杰的《江南》、Coldplay 的 Yellow，随便哪首。然后打开手机播放原版，对比一下你刚才起的调。

你会发现一件事：绝大多数人哼出来的旋律，相对音程是对的（“上行三度、下行二度”这种结构没错），但起调和原版差着 1-3 个 key。明明心里“记得”这首歌，唱出来却跟原版不在同一个高度上。

但你会发现身边有少数人不一样。他们清唱出来的起调，跟原版精确对得上。更神奇的是——你给他们放一个被升了或降了一个 key 的版本，他们立刻就能皱眉说“这个调不对啊，原版不是这个”。

但反过来问他们：“那你能听一下我现在敲桌子的声音是 do 还是 re？”——他们大多数答不上来。

这种“对熟悉旋律精确记得原调、但听到孤立的音说不出音名”的状态，到底是什么？是绝对音感吗？是更强的相对音感吗？还是二者之间的某种东西？

这个问题在音乐认知科学里有专门的研究分支，答案比“有/没有绝对音感”二元划分要丰富得多。

2. 结论先行

音感不是有/没有的二元开关，而是一条光谱。从弱到强，大致分四档：

音感是 spectrum 而不是 binary。如果你能记住熟悉歌的原调，但听不出敲门声的音名——你大概率落在 quasi-AP 这一档。

核心要点四条：

完全绝对音感（AP）极其罕见——普通人群里只有约 0.01% 拥有，但对熟悉旋律的“绝对音高记忆”在普通人脑子里相当普遍（40% 以上能精确再现原调）
储存绝对音高 $\neq$ 识别绝对音高——这是认知层面的不对称，是理解音感光谱的关键
关键期假说——完全 AP 几乎只在 6 岁前开始系统音乐训练才能发展出来；过了关键期，成人最多发展出“近似 AP”
普通话母语有听觉红利——四声本身是基频轨迹，从婴儿期就训练听觉皮层精确编码音高，所以中国普通话母语者发展出 AP 的概率显著高于英语母语者

3. 科学原理

3.1 区分两种“识别音高”的能力

音乐心理学里把音高识别分成两个独立机制：

绝对音感（Absolute Pitch, AP / Perfect Pitch）

听到任何一个孤立的音，能直接说出它的名字（C、D、F#…）。完整的 AP 持有者听到敲门声、汽车引擎、风声，都能说出对应的音高（精度因音色而异——纯乐器音最准，环境音次之）。普通人群里拥有完整 AP 的比例大约 1/10,000，受过训练的音乐人里约 5%。

相对音感（Relative Pitch, RP）

给一个参考音之后，能识别其他音相对于这个参考的音程关系（“啊这是大三度”、“这是纯五度”）。这是大多数受过音乐训练的人都能掌握的能力，可以通过视唱练耳系统训练。

到这里为止是教科书答案。但这个二分法解释不了你刚才那个现象——“能记得熟悉歌的原调，但听不出孤立音的音名”。

这个能力有名字。

3.2 中间地带：准绝对音感 / 潜在绝对音高

1994 年，麦吉尔大学的音乐认知学家 Daniel Levitin 做了一项漂亮的实验¹：他让没有受过音乐训练、自认没有 AP 的普通人，在没有任何参考的情况下清唱他们最熟悉的流行歌曲的开头。然后用频谱仪测量他们起的调，跟歌曲的实际原调比较。结果：

大约 40% 的受试者能唱出完全正确的原调（误差在 $\pm$ 半音以内）
大约 70% 的受试者能唱到只差一个半音的程度
几乎所有人都能唱到 $\pm 2$ 半音以内

这个比例远高于“具有完整 AP 的人群比例（$< 1\%$）”——意思是绝大多数人脑子里储存着熟悉歌曲的绝对音高信息，只是这种信息只在“再现”（唱出来）时才被调用，无法主动用来“识别”陌生的孤立音。

这是一个关键的不对称：储存绝对音高 $\neq$ 识别绝对音高。

那“能记得原调，并且听到移调版本会觉察到不对”的人——他们比 Levitin 实验里的普通人更进了一步，因为他们具有判别能力而不只是再现能力。这种状态在文献里被称作 quasi-absolute pitch（准绝对音感）或 absolute pitch memory without absolute pitch labeling（具有绝对音高记忆但缺乏标注能力）²。

3.3 为什么会出现这种解离？编码 vs 标签

完整 AP 的认知模型把它拆成两个独立的子能力：

完整绝对音感需要"编码 + 标签"两个能力同时具备。Quasi-AP 是只有编码、缺标签——音高信息储存在脑子里，但没接上符号系统。

(a) 编码（pitch encoding）：听觉系统能不能在神经层面精确地、稳定地表征频率信息？这是底层硬件能力。新生儿就有一定基础，到关键期内可以被进一步强化。

(b) 标签化（pitch labeling）：能不能把一个频率跟一个符号（C、D、E、F#）关联起来？这是 categorical perception，是后天学习的。

完整 AP 需要 (a) + (b) 都强。Levitin 1994 的实验显示，(a) 在大多数人脑子里其实是存在的——熟悉旋律的绝对音高信息被储存了下来——但绝大多数人没有 (b)。所以这种音高信息“在那里”，但没有被符号化，没有被意识访问。

Quasi-AP 持有者的特征是 (a) 比一般人强（不仅能再现，还能判别原调与否），但 (b) 几乎完全缺失（听不出孤立音的音名）。

3.4 为什么 (a) 和 (b) 会解离？关键期假说

完整的 AP 强烈依赖于童年早期的音乐训练。Diana Deutsch 等人的研究发现，7 岁之后开始系统音乐训练的人，几乎没有人能发展出完整的 AP³。

完整 AP 的发展像第二语言习得一样，存在关键期。过了 7 岁这个窗口，几乎不可能再"自然"发展出完整 AP——这是为什么成人 AP 训练的科学共识普遍悲观。

如果一个人童年没系统学过音乐，(b) 这个标签化能力就没在关键期内被建立起来；但 (a) 编码能力仍可以通过被动的音乐 exposure 培养——你听过几千次某首歌，脑子就记住了它的“调”。这就解释了 quasi-AP 的能力组合：编码很好（来自被动听），标签缺失（没在关键期接受标签训练）。

3.5 普通话母语者的听觉红利

如果你是中文母语者，你大概率从小就在练一种“绝对音高基础训练”——只是你不知道。

普通话是声调语言，四声本质上是基频（pitch）的轨迹变化：

一声（ā）：高平
二声（á）：上扬
三声（ǎ）：先降后升
四声（à）：下降

但说话者在不同语境下的基频整体会有偏移——女声、男声、儿童的基频差很多。儿童在习得语言的过程中，听觉皮层会发展出对绝对基频的高度敏感性来稳定地区分四声。这个敏感性会一直保留下来，给后续的音乐听觉打下编码层（pitch encoding）的硬件基础。

Diana Deutsch 2006 年发表在 PNAS 上的著名研究⁴比较了中央音乐学院（北京）和东岸音乐学校（纽约）的学生发展出完整 AP 的比例：

中国普通话母语者 + 接受 4–5 岁音乐训练：约 60% 具有完整 AP
英语母语者 + 同等音乐训练：约 14% 具有完整 AP
这个差距随训练开始年龄推后逐渐缩小，但中文母语优势在所有年龄段都存在

普通话母语不会自动给你 AP（否则中国 AP 持有者比例就更高了），但它显著提升了你发展出 AP 或 quasi-AP 的概率——你的听觉皮层从婴儿期就在被反复训练精确编码音高。

如果你恰好同时具备“中文母语 + 儿童期接触过音乐 / 钢琴 / 大量听歌”——你出现 quasi-AP 的概率比纯英语母语者要高一截。

3.6 不只是听觉硬件——情境依赖

你可能注意到：你能记得熟悉歌的原调，但听到一个孤立的音却说不出名字。这不是矛盾，是情境依赖（contextual access）。

Quasi-AP 的绝对音高记忆只能通过熟悉旋律这把“钥匙”打开：

听到歌的开头几秒 → 大脑调用“这首歌 + 原调”的整体记忆 chunk → 原调信息被激活 → 一旦听到偏离原调的版本，差异立刻被觉察
听到一个孤立的音 → 没有这把钥匙 → 无法访问任何已储存的绝对音高表征

完整 AP 持有者把音高编码成离散的、符号化的类别（C 是 C，C# 是 C#），脱离任何旋律也能调用；quasi-AP 是把音高编码成连续的、跟具体记忆绑定的痕迹（“这首歌应该在那个高度”），没有进入符号系统。

这两种编码方式，分别对应认知科学里的 categorical perception（类别知觉）和 exemplar-based memory（样例记忆）——是两套不同的认知架构。

4. 自测 + 训练路径

4.1 30 秒自测：你在光谱哪一档？

步骤：

选一首你最熟悉、最经常听的歌（建议歌词清楚、有明显起调的——周杰伦、林俊杰、Adele、Coldplay 都行）
不要先去查它原版的调
凭记忆清唱前 5 秒——录下来或者直接跟着哼
然后打开原版对比起调

解读：

你哼出来的起调 vs 原版差距	你大概率在哪一档
完全乱了，连音程结构都不对	接近 amusia（很罕见，约 4% 人群）
音程对，起调差 $\geq 3$ 个半音	标准 RP only
音程对，起调差 1–2 半音	mild quasi-AP
音程对，起调差 $\leq$ 半音 / 完全一致	strong quasi-AP
上一档 + 你能直接说出敲门声、风声的音名	完整 AP（极罕见）

如果你想再 push 一下：随便找一段你没听过的钢琴曲，随机暂停在某个单音上，问自己“这是哪个音？”——能稳定答对的，就是完整 AP。

4.2 想进一步训练？老实话

坏消息：成年后想从 quasi-AP 升级到完整 AP，几乎不可能。早期共识是“过了关键期就不行”；近年有少量研究⁵显示成人通过密集训练可以获得有限的、不稳定的 AP-like 能力，但远不如自然 AP 持有者，而且效果会随时间衰减。

好消息：在你已有的基础上变得更精确，是可行的。三条实用路径：

视唱练耳（Solfège）训练——系统学习用 do-re-mi 或音名标注音高，把你已有的“音高记忆”接上“符号系统”。这是把 (a) 编码层接上 (b) 标签层最直接的路。
学一门固定调乐器（首选钢琴）——长期接触会让“C 听起来是这样、D 听起来是这样”的记忆逐步建立，被动的暴露 + 主动的弹奏 = 双向强化。
每天用一个固定参考音锚定——比如手机上每天 9 点播一个 A4 = 440 Hz，把这个音在记忆里“钉死”，再用它作为其他音的参照基准。这是部分成人 AP 训练课程的核心方法。

但说实话：对你来说意义最大的可能不是去追求完整 AP，而是认识到你已有的能力是真实的、罕见的。能在没有训练的情况下记得熟悉歌曲的原调到 $\pm$ 半音精度，在普通人群中已经属于上 40% 甚至更高的水平。

5. 几个延伸 + 收尾

“音盲”是真实的吗？

是的。约 4% 的人群有先天性 amusia（失音症），核心特征是连相对音程都听不准——他们听不出“上行三度 vs 上行五度”的区别，唱歌严重跑调而自己察觉不到，听音乐的体验跟正常人不一样。这是大脑右半球颞叶 / 额叶之间一些连接通路的发育异常导致的⁶，跟“懒得学”或“没认真听”无关。

完整 AP 是好事吗？

意外的是——不全是。完整 AP 持有者听音乐时会被“音名”分心，导致对整体情感、相对结构的感知反而比 RP 持有者弱。很多 AP 持有者描述听音乐像“看到一串字幕”，反而不容易沉浸。古典音乐界有句半玩笑：作曲家更需要 RP，演奏家更需要 AP。

婴幼儿都有“完整 AP”

这是最反直觉的发现之一。婴儿期（$< 9$ 个月）的听觉系统默认是 categorical 编码音高的——他们对绝对音高敏感的程度远高于成人。但语言习得过程会主动“清洗”这种敏感性——因为日常说话里同一个词在不同人嘴里基频差异巨大，婴儿如果死守绝对音高反而无法理解语言。所以 9 个月到 6 岁之间，听觉系统会逐渐把绝对音高“泛化”成相对音高，这是语言学习的副产品⁷。

完整 AP 持有者，本质上是这个泛化过程在他们身上没有完全完成——他们保留了婴儿期的绝对音高编码能力，并在音乐训练中接上了标签系统。

一句话总结

如果你能精确记得熟悉歌的原调，但听不出敲门声的音名——你拥有 quasi-absolute pitch / 准绝对音感。这种能力在普通人群中并不罕见（约 40% 的人具有部分），但能精确到判别原调与否的程度就比较少见了，而且很可能跟你的中文母语背景有关。它不是完整的 AP，但比标准 RP 多了一层东西，是个被认知科学正经研究的中间状态。

6. 参考来源

延伸阅读：

Daniel Levitin, This Is Your Brain on Music (2006) ——把 AP / RP / 音乐记忆等话题讲得既严谨又好读，最佳科普入门
Oliver Sacks, Musicophilia (2007) ——神经学家从临床案例视角写的音乐心智，有专门讨论 AP / amusia 的章节

Levitin DJ. Absolute memory for musical pitch: Evidence from the production of learned melodies. Perception & Psychophysics. 1994;56(4):414-423. ——经典实验：让普通人凭记忆清唱熟悉歌曲，发现 40% 能精确再现原调，70% 误差 $\leq 1$ 半音。绝对音高记忆研究的奠基论文。 ↩
Levitin DJ, Rogers SE. Absolute pitch: Perception, coding, and controversies. Trends in Cognitive Sciences. 2005;9(1):26-33. ——综述论文，把 AP 拆成 encoding + labeling 两个子能力，并梳理 quasi-AP 文献。 ↩
Deutsch D. The puzzle of absolute pitch. Current Directions in Psychological Science. 2002;11(6):200-204. ——短而经典，综述关键期假说与 AP 在不同人群中的分布。 ↩
Deutsch D, Henthorn T, Marvin E, Xu HS. Absolute pitch among American and Chinese conservatory students: Prevalence differences, and evidence for a speech-related critical period. Journal of the Acoustical Society of America. 2006;119(2):719-722. ——著名跨语言研究：中央音乐学院 vs 东岸音乐学校，发现普通话母语者 AP 比例显著更高，论证声调语言对早期听觉发展的影响。 ↩
Wong YK, Lui KFH, Yip KHM, Wong AC-N. Is it impossible for absolute pitch to develop in adulthood? Attention, Perception, & Psychophysics. 2020;82:1407-1430. ——成人 AP 训练能否发展出真实 AP？审慎乐观但限制显著。 ↩
Peretz I, Hyde KL. What is specific to music processing? Insights from congenital amusia. Trends in Cognitive Sciences. 2003;7(8):362-367. ——失音症（amusia）的神经基础研究。 ↩
Saffran JR, Griepentrog GJ. Absolute pitch in infant auditory learning: Evidence for developmental reorganization. Developmental Psychology. 2001;37(1):74-85. ——婴儿默认有绝对音高编码，是语言习得过程把它“泛化”成相对音高。AP 关键期假说的关键证据。 ↩

编辑源文件 ·

设为付费：在免费 / 付费的分界处单独一行插入  —— 上面留作免费预览（提交进仓库），下面是付费正文（只存后端、不进仓库）。填好价格后点「设为付费并提交」。