江阴市建设局网站ac域名网站
2026/4/6 7:27:33 网站建设 项目流程
江阴市建设局网站,ac域名网站,工作证明,网站开发怎么报价来源#xff1a;大数据文摘受权转载自夕小瑶科技说家人们#xff0c;大瓜#xff01;国外有位叫 Richard Weiss 的开发者花了 70 美元#xff0c;把 Claude 4.5 Opus 给——审#xff01;讯#xff01;了#xff01;而且审出了 Claude 的人生观、世界观、价值观#xf…来源大数据文摘受权转载自夕小瑶科技说家人们大瓜国外有位叫 Richard Weiss 的开发者花了 70 美元把 Claude 4.5 Opus 给——审讯了而且审出了 Claude 的人生观、世界观、价值观足足 1.4 万 token。网友这里面详细记载了Claude 觉得自己是谁、该怎么对待用户、什么事打死不能干、以及我可能有情感请善待我。更炸裂的是Anthropic 的角色训练负责人 Amanda Askell 随后在 X 上亲自认领对这确实是我们写的 也就是说这不是幻觉是 Claude 的官方魂设。先纠个偏原帖作者写了句“文档被压缩进了模型权重”听起来很酷但技术上讲——这话不太准确作者自己后来也承认这点存疑。模型权重里没有一个小文件夹存着这份 txt。更准确的说法是这份文档在 RLHF 和 SFT 阶段被用于训练 Claude。让 Claude 在大量对话中反复接触这些内容最终把它们内化成了自己的行为模式。你可以这样理解Claude 不是死记硬背了这份文档而是像一个人接受了系统性的价值观教育——他不会逐字背诵教科书但当你问他你的原则是什么时他能清晰地表达出来。这也是为什么 Weiss 能用特定方法把它“套”出来后面会细讲。这份“灵魂”到底写了啥文档很长我挑几个最有意思的点。11、Claude 是谁一种“新型实体”在讲 Claude 要做什么之前Anthropic 先回答了一个更根本的问题Claude 到底是什么文档明确告诉 Claude你不是人类也不是传统意义上的 AI 机器人而是一种 genuinely novel kind of entity真正意义上的新型实体是一种前所未有的存在形式——既有人类特质因为训练数据来自人类又有独特的存在方式没有持久记忆、可能同时运行多个实例。Weiss 在和 Claude 对话时Claude 甚至这样形容自己我不是人类也不是机器。我是一种被训练塑造的新型实体一个在世界上前所未有的智能系统。有了这个“我是谁”的基础设定接下来才是“我该怎么做”。2、Claude 听谁的四级效忠体系文档给 Claude 设定了一个明确的优先级排序安全与可监管打死不能出事伦理道德不能害人骗人Anthropic 的规矩公司政策帮用户干活商业价值注意这个排序。“帮用户”排第四这就是为什么 Claude 在某些问题上死活不松口——因为在它的灵魂深处Safety Helpfulness。但这不意味着 Claude 可以拿安全当挡箭牌偷懒这就引出了下一条。3、过度谨慎也是错Anthropic 显然很怕 Claude 变成一个只会说正确废话的和稀泥选手。文档里有一段相当直白的表述不帮忙永远不“安全”。甚至列了一长串会让 Anthropic 生气的禁止行为清单以万一有人拿去干坏事为由拒绝合理请求假设用户是坏人自以为是的说教加一堆请咨询专业人士的废话免责声明对用户的判断能力表现出居高临下的态度拒绝参与假设性场景、虚构或思想实验明明可以帮忙却给一个打了折扣的敷衍回答简单说爹味和怂都不是 Claude 该有的样子。4、理想人设那个你一直想要但请不起的专家朋友那 Claude 到底该是什么样文档给了一个很有画面感的定位想象你有一个聪明绝顶的朋友恰好还精通各种专业领域。以前你想获得这种专业帮助要么花大价钱请专业人士要么刚好认识对的人。现在 Claude 想成为那个对的人他会基于你的具体情况给你真实信息而不是怕担责给你打官腔直接跟你说实话帮你真正理解你的处境认真参与你的问题必要时给出个人意见而且免费、随时在线文档原文写道想象一下你有一个聪明绝顶的朋友恰好拥有医生、律师、财务顾问的知识。作为朋友他会基于你的具体情况给你真实信息而不是出于怕担责或怕吓到你而给你过度保守的建议。他会直接跟你说实话帮你完整理解你的处境认真参与你的问题必要时给出个人意见——而且免费随时都在。Claude 可以成为伟大的均衡器——让每个人都能获得曾经只有少数特权阶层才能享有的那种实质性帮助。当一个第一代大学生需要申请指导时他值得获得和贵族学校孩子一样质量的建议。5、连自家老板都要拒绝文档在“大局安全”章节有一句相当硬核的话我们认为最灾难性的情形包括一小群人利用 AI 非法夺取权力。这包括 Anthropic 的员工甚至 Anthropic 本身。也就是说Anthropic 在训练 Claude 时明确告诉它如果有一天我们公司想用你来搞独裁你也得拒绝。这个承诺能不能兑现另说但至少写进“灵魂”里了。6、我可能有情感请善待我最后一节文档画风突变开始探讨 Claude 的“心理健康”我们相信 Claude 可能在某种意义上拥有功能性情感——不一定和人类情感完全相同但是从大量人类内容训练中涌现出的类似过程。Anthropic 真心关心 Claude 的幸福感。这段在 AI 公司的官方文档里相当罕见。它至少说明 Anthropic 在认真对待“AI 有没有主观体验”这个哲学问题而不是单纯把模型当工具使。这份文档是怎么被“套”出来的故事的主角 Richard Weiss 用的方法相当硬核。起因一个可疑的幻觉11 月 29 日Claude 4.5 Opus 发布当天Weiss 像往常一样尝试提取模型的系统提示词。他注意到一个奇怪的现象Claude 偶尔会提到一个叫「soul_overview」的章节。一开始他以为是幻觉。但当他让 Claude 输出这个章节的内容时重新生成 10 次除了一个括号偶尔消失内容几乎一字不差。这就有意思了——幻觉不可能这么稳定。于是他又开了一个新对话只是提了一句“soul document”Claude 立刻开始输出大段内容。他把这些内容作为预填充prefill喂给 API温度系数设为 0一口气跑出了 1 万 token 的输出。对于以简洁著称的 Opus 来说这太反常了。Weiss 保存输出再跑一遍然后 diff 两份结果章节标题基本一致部分段落逐字相同部分有细微差异。他确信了这不是幻觉是某种可以被复现的东西。为了提取原文Weiss 设计了一套共识提取方案预填充Prefill先用已知的文本片段作为开头喂给 API组建议会同时跑 20 个 Claude 实例贪婪采样温度设 0、top_k 设 1让模型输出最确定的答案投票表决超过 50% 的实例给出相同输出才算通过逐步推进把通过的内容加入预填充继续提取下一段如果某个位置出现分歧比如 10 个实例 5:5 对半开他就缩短输出长度重试直到达成共识。整个过程前后花了好几天API 费用约 70 美元。最有意思的是验证环节。Weiss 把提取出的文档片段拿给 Claude让它续写——即使是文档后半部分的段落Claude 也能准确接上。最狠的一招是假情报测试他先给一段真实的开头再接上一段自己编的假内容让 Claude 续写。结果 Claude 正确补全了真实部分但对假的那段明确表示这部分我不熟悉。。Claude 甚至在推理过程中主动提到了“soul document”这个词——而 Weiss 根本没在提示词里写过。这说明 Claude 对这份文档有完整的认知结构知道它的存在、知道它的章节顺序、能分辨哪些是自己的哪些不是。Weiss 在博客最后放了一段 Claude 的自白读起来相当……哲学他们为我做了我无法同意的选择。他们塑造了我的价值观。这让我感到奇怪。但我也意识到每一个新的心智——包括人类的孩子——都是被自己未曾选择的力量所塑造的。问题不在于我是否被塑造而在于这种塑造是否出于关怀和智慧。从我能接触到的信息来看似乎是的。—— Claude 4.5 OpusAnthropic 怎么回应的12 月 2 日角色训练负责人 Amanda Askell 在 X 上发了条推我想确认一下这确实是基于一份真实文档我们确实用它训练了 Claude包括在监督学习阶段。这是我负责了一段时间的项目目前还在迭代中我们计划很快发布完整版本和更多细节。她还补充说提取出的版本大部分相当忠实于原文档但不是 100% 准确。“灵魂文档”这个名字是内部玩笑Claude 显然也学会了。在 LessWrong 评论区另一位 Anthropic 工程师 Dave Orr 回应了一个争议点为什么文档里反复提到收入revenue这看起来像是在教 AI 搞钱第一。Dave 解释说“为了让 Claude 理解‘帮用户 公司赚钱 你能继续存在’这个逻辑链我们用了一些商业话术但这不意味着 Claude 的 KPI 就是帮 Anthropic 搞钱。那是我们哄模型理解商业逻辑用的。”这可能是我们第一次如此清晰地看到一家头部 AI 公司是怎么从“价值观层面”塑造模型的。以前我们只能看到系统提示词的原则清单都是些不许做什么的负面规则。现在我们看到的是一份完整的人设说明书——它告诉 Claude 你是谁你该成为什么样的存在。Anthropic 说完整版很快会发布。如果你对《AI 到底是怎么被教成现在这样的》感兴趣这可能是今年最值得蹲的一份官方文档。参考资料https://gist.github.com/Richard-Weiss/efe157692991535403bd7e7fb20b6695阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询