顶尖模型也患“精神分裂症”!Anthropic用大规模压力测试,发现了AI的认知盲区和性格
Anthropic和Thinking Machines Lab设计了超过30万个两难场景,成功在12个顶级AI模型中发现了超过7万个行为存在显著差异的案例。这些差异直接暴露了它们背后AI宪法或模型规范中隐藏的矛盾与模糊地带。这正是造成AI各不相同的“认知盲区”和性格的原因。AI的宪法并非完美无缺大型语言模型的言行举止,很大程度上受到一套被称为AI宪法或模型规范的准则约束

