MBTI 在心理学界到底混得有多差？一份来自论文堆的冷知识合集

By jiligulu2026-04-204 min read

MBTI / SBTI 测试方法学

如果你最近在简历、对象档案、微信签名里看到 "INFP"、"ENTJ" 这种字母串，恭喜，你进入的这个赛道叫 MBTI。一个被 HR 拿来团建、被相亲群拿来筛选、被朋友圈拿来人设装修的四字母系统。

但心理学界的评价——礼貌地说——不太配合演出。

它在学界不是"有点争议"，是被集体翻白眼 30 年

1991 年，美国国家研究委员会（National Research Council）发了一份报告，对各种人格测试做了检阅。关于 MBTI，他们写得相当客气但杀伤力极强：

"该测试的流行，与其被证实的科学价值不成比例，令人不安。"

更狠的评价来自人格心理学家 Robert Hogan：

"大多数人格心理学家把 MBTI 看作一个有点精致的幸运饼干。"

沃顿商学院教授 Adam Grant 写过一篇著名的吐槽，标题直接就是 《MBTI 是 nerd 版的占星术》。他亲自测过，第一次是 INTJ（冷静理性战略家），几个月后再测变成了 ESFP（派对动物）。他问的是一个很朴素的问题：到底是我在那几个月里脱胎换骨了，还是这个测试在糊弄我？

这种怀疑后来被他总结成一句更冷的话："MBTI 的准确度大概在占星术和心电图中间，偏占星术那边。"

最硬的那一刀：5 周后你可能就换人了

心理测量学里有个基本概念叫 test-retest reliability（重测信度）——同一个测试，短时间内测两次，结果应该基本一样。一个号称能分辨 16 种"天生人格"的工具，按理说不能每次测都送你一个新身份。

Pittenger（2005）综述多项独立研究给出的数字是：间隔 5 周再测，有 39% ~ 76% 的人会拿到一个完全不同的四字母类型。维基百科引用的数字则是：9 个月内重测，只有约 50% 的人保持同一类型；超过 9 个月这个比例掉到 36%。

Myers-Briggs 官方当然不服，他们在 2018 年手册里给出的数据是：在 4 周重测里，65% 的人四个字母全对，93% 至少三个对得上，并且强调这"比随机高 8 倍"。

这里其实双方都没撒谎，但问题在于：一个分类测试，如果你每三次能被重新分配一次身份，它还适不适合被写在简历上？

2025 年，Erford 在 Journal of Counseling & Development 发了一篇 25 年 MBTI Form M 的心理测量学综述，结论微妙：内部一致性（同一次测里题目的协同性）有 0.845–0.921，确实不差；但他顺手点了名——这 25 年里，关于 MBTI 结构效度和重测信度的高质量研究，几乎是空白。

官方数据好看，第三方数据难看，学界想要的数据压根没人做。这就是 MBTI 科学性话题的真实画面。

另一刀：它测出来的根本不是"两极"

MBTI 的设计逻辑是：E 和 I 是对立的，T 和 F 是对立的。你要么这头，要么那头。理论上测出来应该是双峰分布（两个驼峰，中间少人）。

实际数据长什么样？正态分布——一个钟形曲线，大多数人挤在中间。

也就是说，一个得分 51 的"轻度外向"和一个得分 49 的"轻度内向"，他们俩的真实状态几乎一模一样，但 MBTI 会把他们塞进两个命名不同、描述相反的盒子里，再告诉他们："你们是两种人。"

难怪 Scientific American 引用的一项研究发现：大五人格在预测 37 项生活结果上，准确率差不多是 MBTI 式测试的两倍。更尴尬的是，同一篇文章里，MBTI 的预测准确度"大致落在科学和占星术中间"。

而且 MBTI 少了一个重要维度——神经质（neuroticism）。而神经质恰好是大五里预测抑郁、焦虑、职业满意度、甚至自杀风险最强的那个。MBTI 的"温柔"某种程度上正是因为它偷偷回避了所有会让你不舒服的信息。

"那为什么我测出来的真的很像我？"

因为巴纳姆效应（Barnum Effect）——人会把足够模糊、足够好听的描述自动对号入座。同样的机制让星座运势看起来很准，让塔罗牌感觉命中。MBTI 的类型描述写法，从这个角度看，和杂志上"双鱼座本周运势"的套路是一条赛道。

UMass Amherst 的心理学家 Susan Krauss Whitbourne 直接这么说：MBTI 和星座本质上是一回事，都吃的是巴纳姆效应的红利。

Scientific American 还挖到一个很有意思的数据：只有 10% 的人说自己不喜欢 MBTI 结果，而对大五的这个数字是 19%。MBTI 的用户体验更好——代价是更弱的预测力。 这就是我们喜欢它的原因：它夸你、不得罪你、给你一个能挂在胸口的标签。

那它就一无是处了吗？

也不至于。MBTI 作为自我反思的话题启动器挺好用——第一次约会、面试破冰、朋友圈自我介绍，它起到的是一个"词汇表"的作用，而不是诊断工具。问题只在于：当它被写进 HR 招聘流程、相亲筛选条件、"xx 型请勿打扰" 时，它承载了自己承载不起的决策权重。

知乎有句话总结得不错：与其说 MBTI 的维度本身有问题，不如说它这种思辨式的建构方式，不符合当代心理测量的科学标准。 它是 1940 年代两位没有心理学博士学位的女性基于荣格理论的尝试——放在那个年代算有勇气，放在 2026 年的 HR 系统里就有点尴尬。

你也可以来我们这里玩一圈

如果你看腻了四字母、想换一套不装科学但同样能聊出东西的坐标系，可以试试我们的 SBTI 人格测试——15 个维度 29 种类型（外加一个隐藏款），我们从来没说自己是学术标准，但至少我们没把"心理测量学"三个字印在脸上。

想看性别换了之后你会变成谁，试 GSTI 性转人格测试。想看你这颗脑子在互联网上变成了什么东西，试赛博基因检测。

测试的意义在于你愿意多看自己一眼，而不是测试本身多么神圣。MBTI 的问题不在于它好玩，而在于它被好多人当成了圣经。幸运饼干可以吃，但别拿它填人生志愿表。

本文是心理学科普和自我观察材料，不构成医学、心理咨询或诊断建议。

Sources / 参考资料

Written by

jiligulu

Personality psychology explainers, self-discovery tests, AI assistants, and creative web tools. Articles on jiligulu are written from first-hand engineering and product practice, with sources cited where the topic is not direct experience.

jiligulu 上的文章都来自一手工程和产品实践，话题不在直接经验范围内时会标注参考资料。

Published: 2026-04-20
Status: Original
Read time: 4 min
Length: 1,749 chars/words

About the author Reach out

Interested in taking a test?

sbti gsti cyber

Continue reading

Articles that build on the same threads — picked by topic overlap rather than recency, so the next read stays close to the question you came in with.

和当前文章在主题或相关测试上有重叠的下一篇——按内容相关度排，而不是按时间排。

Back to all articles