2026/5/21 11:26:45
网站建设
项目流程
采摘园网站建设方案,制作公司网站多少钱,wordpress more修改,wordpress淘宝优惠券在过去两年中#xff0c;我帮助过许多组织利用LLM构建了创新应用。基于这些经验以及LLM.org.il社区的宝贵见解#xff0c;我总结出一套经过实战检验的构建创新方案的方法#xff0c;在本文中与大家分享。
本指南将为你在LLM原生开发的复杂领域中指明方向。你将学习如何从构…在过去两年中我帮助过许多组织利用LLM构建了创新应用。基于这些经验以及LLM.org.il社区的宝贵见解我总结出一套经过实战检验的构建创新方案的方法在本文中与大家分享。本指南将为你在LLM原生开发的复杂领域中指明方向。你将学习如何从构思阶段逐步推进到实验、评估和产品化最终释放潜力创造出颠覆性的应用。为什么标准化流程至关重要LLM 领域发展日新月异几乎每天都会听到新的突破性创新。这固然令人兴奋但也让人感到无所适从——你可能会渐渐开始迷茫不知道下一步该往哪里走也不知道如何将脑中的奇思妙想变成现实。简而言之如果你是一位想要高效构建 LLM 原生应用程序的 AI 创新者无论是管理者还是从业者那么本文都将为你指点迷津。实施标准化流程有助于启动新项目并具备以下几个关键优势1.标准化流程——标准化流程有助于团队成员保持步调一致并确保新成员能够快速融入团队尤其是在当前瞬息万变的局面下。2.定义清晰的里程碑——清晰的里程碑能让你以一种简单直接的方式跟踪工作进度衡量工作成果并确保始终处于正确的研究方向上。3.确定决策点——LLM 原生开发充满了未知数和“小型实验”[见下文]。清晰的决策点可以降低风险并始终保持精益的开发方式。LLM 工程师的必备技能与软件研发领域中其他任何已有的角色不同LLM 原生开发绝对需要一个全新的角色LLM 工程师或AI 工程师。LLM 工程师是一个独特的混合型人才需要具备以下不同已有的角色的技能软件工程技能——与大多数软件工程师一样这项工作的大部分内容都涉及将各个组件组装并粘合到一起。研究技能——正确理解 LLM 原生实验的本质至关重要。虽然构建“酷炫的演示应用程序”很容易但从“酷炫的演示”到真正落地且切实可行的解决方案之间你需要通过大量的实验并且拥有敏捷的反应才可能实现。深入的业务/产品理解——由于模型本身的脆弱性理解业务目标和流程比坚持预先定义的架构更为重要。对人工流程进行建模的能力是 LLM 工程师的一项重要技能。在撰写本文时LLM 工程仍然是一个全新的领域招聘可能会非常困难。拥有后端/数据工程或数据科学背景的候选人都是不错的选择。软件工程师可能会更容易过渡到 LLM 工程师的角色因为与传统的数据科学工作相比LLM 的实验过程更偏“工程化”而没有那么强的“科学研究”属性。话虽如此我也见过许多数据科学家成功转型到这个领域。只要愿意学习新的软技能就可以实现成功转型LLM 原生开发的关键要素与传统的后台应用程序例如 CRUD不同构建 LLM 原生应用程序没有现成的、可以按部就班的流程方法。正如所有“AI”领域的工作一样它需要你具备研究和实验的心态。为了驾驭这头名为“LLM”的野兽你必须采取分而治之的策略将工作分解成更小的实验逐个尝试并最终选择最有希望的实验方向。无论怎样强调研究心态的重要性都是不为过的。因为你可能会花大量时间探索一个研究方向最终却发现它“不可行”、“不够好”或者“不值得”。这完全没有关系——所有探索的过程都是有价值的这表明你正在一步步接近正确的道路使用 LLM 进行实验是构建 LLM 原生应用的唯一途径同时也能避开过程中的“陷阱”) (图片由 Dall-E3 创建)拥抱实验流程的核心在 LLM 原生开发过程中实验并不总是会成功。有时你尝试了一种方法结果失败了然后你稍微调整了一下方向就发现取得了意想不到的进展。所以在设计最终解决方案之前必须从小处着手并对冲风险。1.定义“预算”或时间范围。可以先设定一个周期比如 X 周看看能取得哪些进展然后再决定如何继续或是否值得继续。通常情况下2-4 周的时间足以让我们对基本的 PoC 有所了解。如果看起来很有希望就可以继续投入资源进行改进。2.实验——无论是在实验阶段选择自下而上还是自上而下的方法我们的目标都是最大限度地提高实验的成功率。在第一次实验迭代结束时你应该获得了一些 PoC利益相关者可以试用的原型以及一个可以作为参考的基线。3.回顾——在研究阶段结束时我们可以评估构建这样一个应用程序的可行性、局限性和成本。这有助于我们决定是否将其产品化以及如何设计最终产品及其用户体验。4.产品化——按照标准的软件工程最佳实践开发出可供生产的项目版本并将其集成到解决方案的其他部分并实施反馈和数据收集机制。LLM 原生应用程序开发生命周期图片由作者提供为了更好地实施以实验为导向的流程我们必须明智地决定如何开展和构建这些实验从小处着手自下而上的方法尽管许多人早期都急于尝试“最先进的”多链智能体系统并使用功能齐全的 Langchain 或类似的工具但我发现“自下而上的方法”通常会带来更好的结果。从小处着手越小越好遵循“一个提示解决所有问题”的理念。虽然这种策略乍看之下可能有些不走寻常路而且一开始很可能效果不佳但是它为你的系统建立了一个可以不断迭代的基线。从这个基线出发可以不断迭代和优化提示采用各种提示工程技术来优化结果。当你发现解决方案中的不足之处时可以通过添加分支来解决这些问题就像一颗不断生长的小树苗。在设计我的 LLM 工作流程图或者说 LLM 原生架构中的每个“叶子”节点时我都会遵循 LLM 三角形原则³ 来决定何时何地裁剪分支、拆分分支或加粗根部通过使用提示工程技术并尽可能多地榨取柠檬汁物尽其用。自下而上方法的图示图片由作者提供例如要使用自下而上的方法实现“自然语言 SQL 查询”首先将简单的模式发送给 LLM并要求它生成一个查询。自下而上方法的示例图片由作者提供通常这并不与“自上而下的方法”相矛盾而是作为自上而下方法之前的另一个步骤。这使我们能够快速获得成功并吸引更多的项目投资。预先构思全局自上而下的策略“我们知道 LLM 工作流程并不简单为了实现目标最终可能会设计出某种工作流程或 LLM 原生架构。”自上而下的方法首先认可了这一点它从一开始就开始设计 LLM 原生架构再实现其不同的步骤/链就像一个技艺高超的工匠先绘制出整个作品的蓝图然后再精雕细琢。通过这种方式可以将整个工作流程架构作为一个整体进行测试就像挤压整个柠檬一样而不是分别处理每个部分。自上而下方法流程一次性设计架构然后实施、测试并衡量结果图片由作者提供例如要使用自上而下的方法实现“自然语言 SQL 查询”我们会在开始编码之前先设计架构然后直接进行完整的实现自上而下方法的示例图片由作者提供找到合适的平衡点开始尝试使用 LLM 时你可能会从两个极端开始要么是过于复杂的“自上而下”方法要么是超级简单的“单次尝试”方法。但现实中这种方式往往会失败。理想情况下你应该在编码和使用模型进行实验之前先定义好 SoP标准操作程序¹ 并对专家进行建模。但在现实中建模非常困难有时你甚至找不到合适的专家。我发现想要在第一次尝试就确定一个好的架构或 SoP¹ 非常困难所以在投入大量精力之前最好先进行一些轻量级的实验就像先试试水深再决定是否要跳下去。当然这并不意味着所有东西都要过于精简。如果你已经知道某些事情必须拆分成更小的部分那就不要犹豫大胆地去做。在设计解决方案时你应该利用 LLM 三角形原则³ 并正确地对人工流程进行建模。优化解决方案榨取柠檬汁在实验阶段我们要不断地“榨取柠檬汁”也就是不断增加复杂度尝试不同的方法来优化解决方案提示工程技术——例如少样本学习、角色分配甚至动态少样本学习。扩展上下文窗口从简单的变量信息到复杂的 RAG 流程都可以帮助你提升模型效果。尝试不同的模型——不同的模型在不同的任务上表现不同。此外大型 LLM 通常成本效益不高你可以尝试一些更适用于特定任务的小型模型。提示瘦身——我发现对 SoP¹ 特别是提示和请求的输出进行“瘦身”通常可以缩短模型响应时间。通过减少提示的大小和模型需要执行的步骤我们可以减少模型需要处理的输入和输出。你可能会感到惊讶但“提示瘦身”有时甚至可以提高模型输出的质量不过“瘦身”也可能会导致质量下降所以在此之前设置健全性测试非常重要。将流程分解成更小的步骤也非常有益可以让你更容易、更切实可行地优化 SoP¹ 的子流程。但这可能会增加解决方案的复杂性或者降低性能例如增加处理的标记数量。为了减轻这种情况应尽量使用简洁的提示和更小的模型。根据经验当系统提示的巨大变化可以为 SoP¹ 流程的某个部分带来更好的结果时通常就应该将其拆分。挤柠檬 图片由 Dall-E3 创建LLM 实验的剖析就我个人而言我更喜欢使用 Python、Pydantic 和 Jinja2从一个简单的 Jupyter Notebook 开始从小处开始着手1.使用 Pydantic 定义模型输出的模式。2.使用 Jinja2 编写提示模板。3.定义结构化的输出格式使用 YAML²。这样可以确保模型遵循“思考步骤”并以我的 SoP 为指导。4.使用 Pydantic 验证来确保输出符合预期如果需要可以进行重试。5.将你的工作进行结构化——使用 Python 文件和包将代码组织成不同的功能单元。在更广泛的范围内可以使用各种工具来辅助开发例如使用 openai-streaming 轻松实现流式传输使用 LiteLLM 跨不同的 LLM 提供商使用统一的标准化接口使用 vLLM 来提供开源的 LLM 模型服务。通过健全性测试和评估来确保质量健全性测试用于评估项目的整体质量并确保模型表现没有低于预先设定的成功率基线。可以把解决方案/提示想象成一条短毯子——如果把它拉得太长它可能会无法覆盖原本可以覆盖的区域。为了避免这种情况需要定义一组已经测试通过的用例并确保模型在这些用例上的表现始终稳定可靠或者至少保证性能下降在可接受范围内。可以参考表格驱动的测试方法来实现。评估“生成性”解决方案例如文本生成的成功与否要比评估其他类型的 LLM 应用例如分类、实体提取等复杂得多。对于这类任务可能需要借助更强大的模型例如 GPT-4、Claude Opus 或 LLAMA3-70B来充当“评判者”判断模型的输出质量是否达标。此外尝试在“生成性”输出之前添加一些“确定性”的输出内容也是个好方法因为这类输出内容更容易进行测试有一些前沿的、很有前景的解决方案值得研究。我发现它们在评估基于 RAG 的解决方案时尤其相关可以看看 DeepChecks、Ragas 或 ArizeAI。做出明智的决定回顾的重要性在每个主要的/有时间限制的实验或里程碑之后应该停下来思考一下就如何以及是否继续采用这种方法做出明智的决定。此时你的实验将有一个清晰的成功率基线你也会对需要改进的地方有所了解。这也是一个开始讨论该解决方案的产品化含义并开始进行“产品工作”的好时机1.这在产品中会是什么样子2.有哪些限制/挑战你将如何缓解它们3.你目前的延迟是多少足够好吗4.用户体验应该是什么样的你可以使用哪些 UI 技巧流式传输有帮助吗5.估计的代币花费是多少我们可以使用更小的模型来减少花费吗6.什么是优先事项是否有任何挑战是不可克服的假设我们实现的基线“足够好”并且我们相信我们能够克服我们提出的问题。在这种情况下我们将继续投资和改进该项目同时确保它不会退化并使用健全性测试。图片由 Dall-E3 创建从实验到产品让你的解决方案落地最后我们要将辛辛苦苦开发的成果产品化。与任何其他生产级解决方案一样我们需要实现各种生产工程概念例如日志记录、监控、依赖项管理、容器化、缓存等等。这是一个庞大而复杂的领域但幸运的是我们可以借鉴传统软件工程中的许多机制甚至直接采用许多现有工具。当然也需要格外注意 LLM 原生应用程序的一些特别的地方反馈回路——如何衡量应用的成功是简单粗暴地使用“点赞/踩”机制还是设计更复杂、更能反映用户实际使用情况的指标体系收集这些数据至关重要因为它可以帮助我们重新定义健全性“基线”或者使用动态少样本学习等技术来微调模型进一步提升模型效果。缓存——与传统的软件工程不同当我们的解决方案中涉及到生成式 AI 时缓存会变得非常困难。为了缓解这个问题我们可以探索缓存相似结果的方法例如使用 RAG或者通过严格定义输出模式来减少生成内容的差异性。成本跟踪——许多公司都倾向于一开始就选择“强大的模型”例如 GPT-4 或 Opus但在实际生产环境中模型的调用成本可能会迅速上升让你收到账单的时候大吃一惊。为了避免这种情况请务必提前测量好输入/输出的 token 数量并密切关注模型对工作流程的影响如果没有做好这些那么祝你好运你可能要费尽心思才能找到性能瓶颈。可调试性和跟踪——确保你已经设置了合适的工具来跟踪“有缺陷的”输入并在整个流程中对其进行跟踪。这通常需要记录用户输入以供后续调查并建立完善的跟踪系统。请记住与传统的软件不同AI 经常会在毫无征兆的情况下出现错误写在最后你我在 LLM 原生技术发展中的角色本文到这里就接近尾声了但这仅仅是一个开始。LLM 原生应用的开发是一个不断迭代的过程它会涵盖越来越多的用例和功能也会面临各种各样的挑战而我们也需要不断探索力求打造更加完善的 LLM 原生产品。在你的 AI 开发旅程中请保持敏捷勇于尝试并始终以用户体验为评判基准。也欢迎大家积极与社区分享你的经验和见解让我们携手同行共同推动 LLM 原生应用的发展探索无限可能想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2026 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2026 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”