2026/4/5 12:53:44
网站建设
项目流程
什么软件是做网站的,向国旗敬礼做时代新人网站,杭州商业空间设计公司,网页制作模板简单Scaling Laws (缩放定律) 是目前 AI 领域的“摩尔定律”#xff0c;也是 OpenAI 等巨头公司敢于投入几百亿美元去训练下一个模型的“信仰之源”。简单来说#xff0c;它揭示了一个通过大量实验得出的数学规律#xff1a;只要你按比例增加“模型参数量”、“训练数据量”和“…Scaling Laws (缩放定律)是目前 AI 领域的“摩尔定律”也是 OpenAI 等巨头公司敢于投入几百亿美元去训练下一个模型的“信仰之源”。简单来说它揭示了一个通过大量实验得出的数学规律只要你按比例增加“模型参数量”、“训练数据量”和“计算算力”AI 的智力性能就会呈现出可预测的、持续的增长。这听起来像是一句废话“大力出奇迹”但在工程上它的意义在于“可预测性”。1. 核心三要素AI 的“成长配方”缩放定律告诉我们AI 的性能Loss即错误率主要取决于三个变量N (Number of Parameters - 参数量)模型的“脑容量”。比如 GPT-3 是 1750 亿参数GPT-4 则是万亿级别。D (Dataset Size - 数据量)模型阅读的“书籍数量”Token 数。比如 Llama 3 看了 15 万亿个 Token。C (Compute - 计算量)训练模型消耗的“努力程度”GPU 运行的时间 x 数量。Scaling Laws 的结论是这三个变量之间存在精确的幂律关系Power Law。2. 为什么说它是“算命水晶球”在 Scaling Laws 被发现之前2020年 OpenAI 发表论文训练 AI 像是在赌博。你不知道把模型做大 10 倍它会不会变聪明还是会变笨。有了 Scaling Laws 之后炼丹变成了工程预测未来科学家可以在一个小模型上做实验画出一条曲线。然后指着曲线说“如果我们投入 100 倍的钱把模型做大 100 倍它的智商Loss会精确地降低到 X。”降低风险这意味着公司在砸下1 亿美元训练 GPT-4 之前就已经确信它一定会比 GPT-3 强而且强多少都能算出来。这就是为什么 OpenAI、Google、Meta 敢于开展这场**“军备竞赛”**。他们相信只要我堆更多的卡喂更多的数据AI 就一定会变强还没看到天花板。3. 著名的修正Chinchilla 定律早期的 Scaling LawsKaplan 定律认为参数量 (N)最重要。所以大家都拼命把模型做大哪怕数据量不够。后来DeepMind 在 2022 年发表了著名的Chinchilla南美栗鼠论文修正了这个观点“你们把模型做太大了数据量没跟上模型是虚胖”Chinchilla 定律指出参数量和数据量必须“同步增长”才最划算。最佳比例大约是20 个 Token 对应 1 个参数。影响这直接导致了Llama 3的诞生——它的参数量不算特别大8B/70B但它“吃”了极其恐怖的数据量15T所以它比很多旧的大模型都要聪明。4. 缩放定律的尽头撞墙了吗虽然 Scaling Laws 现在还在起作用但科学家们开始担忧两个“墙”数据墙 (Data Wall)Scaling Laws 要求数据量指数级增长。但互联网上的高质量文本快被吃光了。这也是为什么我们要搞合成数据。算力/能源墙 (Power Wall)如果要训练 GPT-5、GPT-6需要的电力可能相当于一个中等国家的用电量。总结Scaling Laws 是 AI 时代的“黄金法则”。它告诉我们“大力算力数据参数真的能出奇迹智能。”只要这个定律不失效AI 的进化速度就不会停止。我们现在看到的 GPT-4在 Scaling Laws 的曲线上可能还只是个开始。