2026/5/21 16:24:38
网站建设
项目流程
长治网站建设招聘,做特卖网站手机版,wordpress discuz论坛模板,做一个京东这样的网站需要多少钱主题反向工程构建高质量推理合成数据时间2026.01.25 周日 22:00 北京时间2026.01.25 周六 09:00 美东时间2026.01.25 周六 06:00 美西时间直播平台微信视频号#xff1a;b站直播间#xff1a;Youtube直播间#xff1a;https://www.youtube.com/live/U0rDRX7ZkYM内容介绍近年…主题反向工程构建高质量推理合成数据时间2026.01.25 周日 22:00 北京时间2026.01.25 周六 09:00 美东时间2026.01.25 周六 06:00 美西时间直播平台微信视频号b站直播间Youtube直播间https://www.youtube.com/live/U0rDRX7ZkYM内容介绍近年来深度推理deep reasoning在数学、编程等可验证任务上取得了显著进展但将其迁移到创意写作、开放式问答等不可验证的开放生成场景仍面临关键瓶颈缺乏高质量奖励模型、训练代价高通过教师模型进行蒸馏则成本昂贵并受制于教师模型的能力上限。我们提出REverse-Engineered ReasoningREER一种反向构建推理思维链的全新范式。不同于从用户请求出发进行正向试错或模仿来生成推理过程REER 从已知的高质量答案出发反问思考“什么样的思考过程最可能导出该答案”具体而言对 给定的输入与高质量参考答案REER的目标是找到一条推理轨迹使得困惑度perplexity最小我们进一步提出一种无梯度(gradient-free)的合成方法从初始轨迹出发对轨迹进行分段基段落进行扩写与替换并用PPL作为代理指标进行选择与终止从而在无需可验证奖励、无需昂贵蒸馏的情况下规模化合成高质量深度思考轨迹。 基于该流程我们构建并开源 DeepWriting-20K覆盖 25 类开放式任务的 20,000 条深度推理轨迹数据并以此微调得到 DeepWriter-8B基座 Qwen3-8B-Base。在 LongBench-Write、HelloBench、WritingBench 等基准上DeepWriter-8B 不仅显著超越同规模开源基线如 LongWriter-8B还在多项开放生成评测中达到与 GPT-4o、Claude 3.5/3.7 等强闭源模型相当的表现。 总的来说我们的工作提供了一条面向开放式生成的“第三路径”通过反向搜索重构潜在推理过程来补齐推理数据与训练信号缺口为在不可验证领域构建可扩展的思考链与结构化思考提供了新的方向。Reverse-Engineered Reasoning for Open-Ended Generation论文地址https://arxiv.org/pdf/2509.06160嘉宾阙浩然北京大学一年级博士生导师为张世坤。研究方向包括大语言模型推理、长文本生成、多模态数据集等。在多个会议发表工作并担任评审包括ACLNeuraIPS等。入群欢迎加入NICE每周分享交流群可与NICEer唠嗑以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证群内无广告。备注【昵称-单位-方向-NICE入群】NICE介绍NICENexus forIntelligenCE是一个由全球50位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来我们汇聚海内外300嘉宾通过百余场线上深度分享与线下高规格活动北京/上海/苏州等全网积累超13万关注。目前NICE已构建起覆盖中、美、欧的国际化团队正加速在硅谷、纽约、香港等地落地致力于打造连接学术、产业与未来的全球化AI前沿社区。NICE主页https://nice-nlp.github.ioNICE海外https://nice-intl.github.iob站https://space.bilibili.com/507524288Youtubehttps://www.youtube.com/NLPAcademicExchangePlatform编辑冯可蘅 华盛顿大学