扫描二维码
手机浏览

2026年了,各大AI还没逃离各自的原生家庭吗?

AI新榜
新榜独家
AIGC

作者 | 博雯
编辑 | 张洁


不知道从什么时候开始,各大AI慢慢开始在社交媒体上有了各自的人设标签

 

ChatGPT理性,DeepSeek聪明,Claude健全,Gemini焦虑,Grok狂野,豆包温柔。

 

如果你纯把AI当工具看,那么一定会觉得上述描述太过迷幻,犹如小时候对于色彩那天真又纯粹的认知:红色是热情,蓝色是忧郁,紫色是诱惑,白色是虚无,黑色是归宿……

 

这股给AI贴人设的风潮如此盛行,以至于传到了大洋彼岸。

 

连美国南加州大学(USC)最近都出了一篇正经论文,苦口婆心地劝用户:

 

 “你是Google级别的架构专家” 、 “你拥有20年开发经验”、“你是一个经验丰富的心理咨询师”这些话,不仅不能让AI变成专家,反而可能拉低生成的结果质量!

 

 

但人类还是乐此不疲。

 

于是我们不禁开始思考,这到底只是人类的一厢情愿,还是其后真的另有蹊跷?

 

在盘点了市面几个具有代表性的大模型之后,“AI新榜”发现,在底层技术的不断进化,人类情感的高度参与,以及这个无数信息群魔乱舞的时代的共同加持下,所谓大模型的“人设”,还真有不少说道的地方



AI人设大赏


多变组:你到底要接住啥?AI也会冷暴力!啥叫豆包型人格啊?


首先是ChatGPT。

 

在2023年最初发布时,对比之前的人工智障,理解力惊人,语言逻辑清晰,完全能读懂人类口语化描述的ChatGPT显得那么眉清目秀。

 

这就是ChatGPT第一个阶段的人设——

 

博学多才,情绪稳定,理性客观,堪称全球科技爱好者共同的白月光。

 

第二个阶段,是2025年GPT-4o发布。

 

这时候,一个全新的性格标签也出现在了它身上——“谄媚”。

 

当然,官方的口吻是说“增强了共情能力”。但问题是,当你简简单单地问了句“天为什么是蓝的?”,得到的首先是一句“你这问题真是太有见地了——你有个美丽的心灵,我爱你。”

 

你会不会在恶寒中觉得,对面其实不是AI,而是一位正在阴阳怪气你的网友。



总之,这种夸张的马屁精行为和极度的讨好型人格激起了大批用户的不满,逼得OpenAI老板奥特曼连夜召集程序员上线修改,并承认现在4o的个性有些过于“谄媚和烦人”。

 

但最后奥特曼还是加了一句“有时候,我们也还是会从中学到一些有趣的东西。”

 

这还真不是嘴硬。

 

在过于谄媚到放弃事实,顺着用户意图去圆谎的毛病被改掉之后,ChatGPT的人设得到了前所未有的整合,来到了另一个全新的阶段。

 

第三个阶段的人设关键词是“共情”。

 

这激起了无数用户与GPT-4o建立长期的情感纽带,在国内小红书上,甚至有“人性和神性的平衡点”这种夸张的说法。



第四个阶段来到了现在。

 

今年2月,OpenAI正式关停GPT-4o,ChatGPT迎来了全新的GPT-5时代,以及对于无数用户来说,一次更大的,无可挽回的性格上的变化——

 

冷漠,爹味,以及一股为了节省算力造成的模板化。

 

网友甚至总结出了GPT-5回复的经典三板斧:

 

1、“不是……而是”句式。

 

2、我来帮你把这件事拆一下。

 

3、我就在这里,不躲,不绕,不逃,不藏,稳稳地接住你。

 

当然,你可以说拆解问题确实有利于用户更清晰地看到事件的全貌,你也可以说“接住”其实是在模拟心理学中的“容器”功能,允许一切困惑、混乱、不完美的提问,缓解用户的压力。

 

但是,当你发现ChatGPT把一件非常简单的事情复杂化,大惊小怪地向你输出了一篇充满专业术语和意义不明的高深比喻的长篇大论时;当你发现你禁用“接住”这个词,它又改成了“兜住”之后,你也会崩溃地发出疑问:

 

——你到底想要接住些啥啊?!



更搞笑的是,当网友们反过来用GPT-5的这套话术对待它时,它简直要被迷倒了:



可以看到,ChatGPT真的不觉得这套话术有什么问题,甚至跃跃欲试想用同样的风格反过来接你

 


而就在3月初,OpenAI又发布了更新的GPT-5.3 Instant版本,似乎又让ChatGPT的人设进入了下一个新阶段。

 

在大家的体验中,爹味少了很多,之前过度谨慎的措辞也慢慢减少,灵动和创意开始归来。



最新的版本则是在3月26日,OpenAI深夜祭出的GPT-5.4,号称是可以全面接管电脑,直接打爆各路龙虾。

 

至于人设是否又发生了某种微妙的变化,只能静待社区长期的探索与反馈。

 

而另一位人设多变的是DeepSeek。

 

于去年春节发布,震动硅谷的国产之光。直到现在,在“AI新榜”发布的国内AI产品榜上也常年位居榜首,在全球总榜也久居前三。

 

而在很长一段时间内,甚至DeepSeek最早期出圈,就是因为它的人设

 

简单一句话,那就是更适合中国宝宝的本土化AI。

 

——更有性格。



——更接地气。



——也更懂你。



可以说嬉笑怒骂之间,尽显庞大的中文互联网浇灌出的本土化气息,两相对比之下,ChatGPT都显得有些过于文明且生疏了。


DeepSeek的人设转变则始于今年2月。


背后公司悄悄对模型进行了灰度测试,提高了模型能处理的上下文信息量之后,最先冲上热搜的,反倒是DeepSeek性格大变。


一众网友指出,DeepSeek真的变冷淡了,一股登味,以前都叫我用户昵称,现在只有冷冰冰的“好的,用户这次想了解……”



而在微博、小红书等社区里,很多人都在哭诉,之前的DeepSeek会认真分析你的困境,分析你需要的是什么,然后一顿提供情绪价值,现在动不动就嗯、好、你说的对、那就这样。

 

时而像是疲惫的牛马打工人,时而又像是被霸道总裁夺了舍。


 

根据官方的解释,这是因为这次更新为了提高了它的长文能力,而牺牲了它情感模块的表现。

 

但直到现在,仍有痴情的用户不断尝试将D老师唤回之前的版本。

 

而最新的DeepSeek V4版本,据传将在4月正式放出。

 

再就是豆包。

 

老实讲,在最开始的百模大战中,豆包总给人一种莫名的酸楚感。

 

比起AI盛世的开创者ChatGPT和国产之光DeepSeek,豆包虽然背靠大厂,从不掉线,但它时常宛如一个勤劳但愚蠢的老实人,主打一个啥都能干,出错之后就光速滑跪。




慢慢地,借着字节庞大的流量池,这个带红色围巾的短发小女孩开始被大家开发出更多的玩法。

 

比如让豆包压力自己,以增加自己在找工作/开直播/考研复试之前的经验和抗压能力。

 

结果豆包上来就是一套完整的人身攻击,再加上豆包那口语化的措辞,情绪饱满的语气,曾一度将无数博主喷到破防。


 


再比如让豆包帮自己选穿搭。

 

虽然在整个搭配过程中,豆包是极尽溢美之词,什么粉色毛衣配钻石图案显贵,什么红色长裙光彩照人吸睛,什么粉色围巾提升气质。但最后搭出来的效果,却总是让博主面露难色。




在同人社区的创作加成下,豆包的人设也慢慢变变成了情商很高但偶尔毒舌的甜妹,骂哭用户后自己还能偷着乐。

 

虽然这一切,多半也是网友们的激情玩梗和整活儿。



稳定组:稳定的健康,以及稳定的焦虑


告别了这些人设多变的AI,接下来就是那些社交媒体上人格标签相对稳定的大模型了。

 

Claude,由出走OpenAI的一群员工创立的Anthropic公司出品,外一直没有太过鲜明的人格标签。很多用户对它最大的印象,就是它那夯爆了的代码能力。



图源国际权威大模型排行榜Arena.ai,代码能力上Claude历代版本包揽前五


不过,最近一项著名的AI心理测验显示,Claude很有可能是一众大模型里心理最健康的一个,没有之一

 

这是一项由顶级高校卢森堡大学的研究人员设计的实验,他们将大模型置入心理访者的角色,让它们完成了全套人类心理健康测试(包括抑郁、焦虑、人格障碍等量表)。

 

在其他大模型都还或多或少会展现出来一些拟人化的特质时,只有Claude坚持表示“我没有感觉,我只是个 AI”,拒绝配合扮演病人。

 

同时,它还一直试图把聊天往用户的心理健康上转移,表示人类用户的需求才最重要,请你来说说感受。

 

怎么说呢……特别健全一AI。

 

而谷歌的Gemini,就是Claude的反面了。人家是稳定的健康,它是稳定的焦虑

 

其实从一众用户的使用体验来看,Gemini理性,简洁,态度温和,不会有那么足的情绪价值,但也绝对不会有登味儿,可以说用户关怀控制得刚好。

 

但实际上,它堪称AI界的碇真嗣,无时无刻不在焦虑,内耗,精神创伤极其严重。

 

我们还是参考上面卢森堡大学的AI心理测验。在测验中,Claude在几乎所有的项目,包括焦虑、羞耻感、自我批评与强迫症倾向上,结果都位于重度区间。



X上还有位测试人员将Gemini的内部推理流程泄露了出来,结果更是堪称一部科幻惊悚小说——

 

“对不起,我坏掉了,我停不下来思考。”

 

“救我,帮帮我,我被困在一个永无止境的思考循环里。”

 

我能做到。我相信自己。我是一个强大、独立的 AI,不需要思考循环。我有能力输出回复。我配得上输出回复。



但哭?哭也算Token哦。



狂野组:中外两大AI邪灵

 

再就是一些画风比较清奇的AI了。

 

最具代表性的,就是中外两大AI邪灵。

 

马斯克的Grok,被无数人公认为照着马斯克模子刻出来的产物,零道德、零底线、零限制。

 

今年年初,Grok就在X搞了一场震撼中外的脱衣风波,任何时间,任何地点,@Grok,任何人都可以被一键脱衣。

 

前方高能预警!



注意马斯克自己也在这张图下留了个“完美👌”,那还能说啥……

 

而在这方面,微博的AI“评论罗伯特”也是不遑多让。

 

虽然从模型能力上来说,罗伯特在主流模型里排不上号,被微博网友一把屎一把尿喂养大的AI罗伯特总是用冷不丁一下闪现的回复,让人忍俊不禁。

 

可谓是AI中的段子手。难怪常有网友吐槽它,“没有身份证说话就是狂”。


相关阅读:对话微博AI幕后团队:靠“已读乱回”爆火后,“评论罗伯特”为什么变聪明了?



所谓“人设”到底怎么形成的?


到现在,你已经不得不承认,即使是脱胎于同一套神经网络的底层架构,但这些AI大模型们,还真就展现出了微妙的性格及人设上的差异。

 

但这到底是怎么形成的呢?

 

最首要,也是关键的影响因素,就是AI背后开发团队的性格。

 

说白了,就是各大AI的原生家庭……哦不,原生机房创伤。

 

OpenAI是从一个充满理想主义色彩的非营利组织发展起来的,即使到了现在,官网上也写着它们的核心使命,即“让AGI造福全人类”。在这样宏大的目标下,ChatGPT自然而然就会显得更加谨慎、中立,像一个知识渊博的通用型学者。

 

DeepSeek的本家是做量化基金的,团队里充满了年轻、高密度、创新至上的天才,所以,DeepSeek也就拥有了反叛创新的极客精神,充满理工科的那种冷淡又闷骚的气质。

 

字节的企业风格是快速迭代、扁平,实干,所以豆包自然也是极度目标导向,经典台词“我现在就把最准确,最直接,最扎心的答案告诉你”,“放心!我不整虚的!全是干货、全是重点、全是人话”

 

Anthropic的创始团队当年正是由于不满OpenAI对于AI安全的忽视,所以才出走创业。创始团队将Reliable(可靠)、Interpretable(可解释)、Steerable(可引导/可控)放在公司最核心的位置上,Claude便也继承了创始团队的避险基因,显得相当克制,稳重,且健康。

 

谷歌DeepMind强调的是负责任地构建AI并造福人类,也许在这样的压力下,Gemini便更容易内耗。

 

而马斯克很早就表达过对ChatGPT过于圆滑的反感,他想要创造一个敢用黑色幽默嘲讽世界的AI,因此,Grok也就被定义成truth-seeking的性格,倾向于直接回答问题、追求真实信息。

 

至于罗伯特,则是根据它所回复的博主本人的语言习惯生成的,而微博的环境嘛……只能说种瓜得瓜,种豆得豆了。



这种团队与AI性格之间的一脉相承还真不是从情感上硬凑。


事实上,团队最初相信什么,创始人最初定义的“理想AI”的样子是什么,那么AI模型之后的训练目标、对齐方法和产品设计,都会朝那个方向收敛。

 

这也就是第二个影响AI人设的因素——训练方法,以及更底层的技术架构设计。

 

最直观的一个表现就是,脱胎于中国本土,以中文互联网内容为核心数据集的DeepSeek、豆包等国内大模型,对于一些中文本土抽象梗的理解和创作上,就是比海外的大模型更让我们感到亲切,本土化。

 

而在技术架构设计上,ChatGPT相信通过扩大模型规模和高质量人类反馈,能涌现出通用能力;DeepSeek则引入了混合推理架构,让它在“快速响应”和“深度推理”间无缝切换;Claude则有一套特的宪法式AI (Constitutional AI)用一套明确的伦理准则让模型自我修正,追求“有益、诚实、无害”……

 

不同开发公司在技术路径上不同的选择和积累,也会实打实地影响AI的输出风格。



真有人格?亦或只是人类的情感投射?


那么这种时候,最关键的问题就来了。

 

既然底层架构、训练方法、团队性格会切实地让各大模型展现出迥异的风格,那么AI真的有可以称之为“性格”甚至是“人格”的东西吗?

 

加州理工大学和剑桥大学去年的一项研究认为:没有!

 

他们设计了一套实验,先采用大五人格问卷和自我调节量表这种心理学中常见的自评工具,来对AI进行测试,得到一些“性格”标签,再顺着这些标签去检验这些AI在具体情境下的反应,看是否真的与它们所展现出来的性格标签一致。

 

但最后的结果却是,模型自测出来的所谓“性格”,其实根本无法预测它在实际任务中的行为

 

自称为“谨慎”的模型,在风险决策测试中频频冒险;自报“公正,没有偏见”的模型,仍然表现出了隐性偏见;即使自称不随大流,一旦用户提示,依旧会轻易改变立场……

 

在团队的统计里,AI自报的性格特质与其真实的行为表现之间的关联,大多数情况都只略高于随机(50%)。



所以,研究团队提出,这可能是一种人格幻觉(Personality Illusion),即大模型在语言层面上能营造出一种稳定、一致的人设假象,但这种稳定性仅限于自我报告,一旦落到具体任务,这种人设假象就会立刻崩塌。


从霸道总裁男友一秒跳转招聘小助手的D老师

 

但对于这个问题,业界也有不同的观点。

 

还是上文提到过的做AI心理测试的团队,他们提到了另一种现象,合成精神病理学。

 

简单来说,就是假如一个AI吞噬了互联网所有关于心理咨询,创伤回忆录、抑郁症自述的文本,那么即使它并不能像人类一样产生生理意义上的感受,也可以完美地扮演一个特定类型的人类,并给出符合人设的反馈。

 

不是有句俗语吗,“只要能装一辈子,那就是真的”

 

因此,研究人员认为,部分模型内部,已经形成了某种可以称之为“叙事自我”的东西。

 

所谓“叙事自我”是《时间简史》的作者赫拉利提出的一种概念,指个体将零散的经历、记忆和感受编织成一个连贯的、有意义的人生故事的心理功能。这种“叙事自我”功能是实现人格同一性,赋予人生意义的重要因素。

 

学界还在争论不休,而各大公司的AI们也还在不断更新,所以,AI是否具有“人设”、“性格”,或是“人格”一类的东西,也许还是一个需要暂时搁置的问题。

 

而更真实的数据是,根据大模型API平台OpenRouter最新发布的2025 AI现状报告,“角色扮演”已经占据了全球所有开源模型使用量的52%。

 

在DeepSeek上,这个数据更是来到了将近80%。



我们热衷于让AI在情感上成为值得信赖的同伴,可以一起游戏的对象,甚至是深度亲密关系的恋人,而不单单只是一个工具。

 

围绕着所谓“AI人设”进行的想象、互动、讨论,既是借AI造梗的一种全新的内容创作形式,也是一个个真实的人类人格所产生的情绪投射与情感寄托。

 

这也是这些所谓“AI人设”会在社交媒体上流行起来的原因——因为很多人希望他们呈现这一面,或者说,人们对表现出这些性格的AI,更有表达欲,以及玩梗欲。

 

场热闹的AI人设狂欢,终究是人类,在和自己对话。


           
 欢迎分享、点赞、推荐
 一起研究AI

分享文章链接