给奶奶讲一下AI最新物种“大模型代理”

-- 奶奶,我告诉您什么是"大模型代理"吧!

从小翠到小超——AI的成长故事

奶奶:"听说现在有个叫'Agent'的东西很火,是不是又是年轻人玩的啥新花样?"

小雅:"奶奶,您知道吗?这个'Agent'其实就像是一个会上网、会用电脑、还能帮您干活的电脑孙子!"

奶奶:"电脑孙子?那我这都几个真孙子了,还要电脑孙子干啥?"

小雅:"哈哈,比方说原先的Siri就像是您家的小保姆小翠。您说'小翠,明天天气怎么样?',她就回您'明天晴天,最高温度25度'。您问啥她答啥,就这么简单。"

奶奶:"这不挺好的吗?知冷知热的。"

小雅:"是挺好,但您想想,如果您说'小翠啊,帮我买张去北京看我闺女的火车票',小翠就只会说'好的,我马上帮您查询',然后呢?然后什么都没有!她不会真去买票。"

奶奶:"那可不中!"

小雅:"对啊!但现在的'Agent',就像是升级版的小超,您说'小超,帮我买张后天去北京的火车票',小超不但会回您'好的奶奶',它还会真的去:

    1. 打开12306网站
    2. 输入您的身份证号码(它记得)
    3. 查最合适的车次(它知道您膝盖不好,会选有卧铺的)
    4. 自动付款(它记得您的支付密码)
    5. 然后把车票信息发到您手机上

就跟一个懂您、能干活儿、还不要工资的孙子似的!"

奶奶:"哎呦喂!这小超比我孙女还懂我!"

小超是怎么练成的?

奶奶:"那这小超咋就这么能干呢?"

小雅:"奶奶,您记得咱家那个老缝纫机吗?踩着脚踏板才能动那个?"

奶奶:"当然记得,我用它给你伯父做过衣服呢!"

小雅:"后来不是换电动的了吗?再后来不是又买了那种全自动的,您只要放布进去,它就能自己缝好?AI就是这么升级的!

第一代就像老缝纫机,你踩一下它走一步; 第二代就像电动的,省力了,但还得您一直握着; 现在这'Agent',就像全自动的,您只要说个大概,它自己就把活儿干完了!"

奶奶:"那它得多聪明啊!"

小雅:"它有三大法宝:

第一,超级记性 - 比老庙里的账房先生还能记,不光记得住咱家的事儿,还记得网上千万本书的内容;

第二,能写代码 - 这个您就理解成它能给自己编'操作手册',教自己怎么干活;

第三,会用工具 - 它不光会说,还会'动手',能操作电脑、手机,像真人一样!"

数字孙子们打起来了?

奶奶:"这小超是谁家的?"

小雅:"现在好多公司都在养这种'数字孙子'。有的像全能型的,啥都会一点;有的像专家型的,就专门懂一行。就像现实里有的孙子是全科医生,有的是专门治牙的牙医。"

奶奶:"那哪种好使啊?"

小雅:"奶奶,您想想,如果您牙疼,是找全科大夫好,还是找专门的牙医好?"

奶奶:"那肯定牙医更在行啊!"

小雅:"对啦!所以现在正打得火热呢!有Manus这样的全能型,啥都会一点;也有专门帮律师写合同的,专门帮医生看片子的,各有各的本事。"

电脑孙子会不会太皮?

奶奶:"这电脑孙子靠谱吗?会不会像我那个小孙子一样,老给我捣乱?"

小雅:"哈哈哈,奶奶担心得有道理,这还真是个问题。这电脑孙子是很能干,但有时候也会犯糊涂:

比如您说'帮我定个好吃的餐厅',它可能订了一个超贵的,把您养老钱都花了;

或者您说'帮我查查最近的药店',它给您找了个假药店。

所以现在这些公司还在训它们呢,就像您当年教育孙子一样,得慢慢来。"

奶奶:"那得好好驯它!"

奶奶的电脑孙子啥时能到岗?

小雅:"奶奶,您猜这种能干活的电脑孙子啥时候能真正进咱家门?"

奶奶:"得等几年吧?"

小雅:"您还真说对了!今年这些电脑孙子还在'幼儿园'阶段,刚学会走路没多久。到2025年,它们可能就上'中学'了,能帮您干些简单活儿;再过几年,等它们上了'大学',那就厉害了,说不定能帮您:

    • 自动监控您的血压血糖,提醒您吃药
    • 管理您的医保卡,自动报销医药费
    • 帮您和远在外地的儿女视频聊天,翻译您听不懂的方言
    • 提前一周就提醒您老姐妹的生日,还帮您挑好礼物"

奶奶:"这不比我孙女还贴心嘛!什么时候能给我整一个?"

小雅:"奶奶别急,好东西都在路上呢!肖弘这样的年轻人正在加班加点给您'调教'数字孙子呢!"

奶奶:"那个'小红'是谁啊?"

小雅:"不是'小红',是'肖弘',是个90后小伙子,对电脑孙子特别有想法。他说过,做这种孙子,得'用最疯狂的想象',不能小看它的本事。他跟他的团队正在打造这种电脑助手,说不定以后真能成您的贴心小棉袄呢!"

奶奶:"90后?那不比我孙子大不了几岁?现在的年轻人真是了不得!下次他要来我们这儿,让他来家里吃顿饭,我亲自下厨!"

小雅:"奶奶,您呀,还是关心实际的!不过说真的,这些电脑孙子真正普及可能就在几年内。到时候,可能我们都不用教您怎么用手机了,您只要对着手机说话,电脑孙子就把一切都安排好啦!"

奶奶:"那敢情好啊!我就等着那一天了!"

 

【相关】

Decoding LLM-native Agents: Bridging Compilation and Interpretation in AI

Introduction

Since ChatGPT's explosive rise in 2022, artificial intelligence has rapidly transitioned from mere "chatbots" capable of responding to queries, to autonomous "agents" capable of executing tasks independently. In the emerging field of AI Agents, two architectural paradigms seem to have emerged: Compiled Agents and Interpreted Agents. Understanding their differences, capabilities, and limitations is essential for grasping the broader evolution of AI-driven productivity.

Compiled vs. Interpreted Agents

To simplify:

    • Compiled Agents embed intelligence predominantly during development, using pre-defined workflows and scripts. They excel in tasks with predictable outcomes.
    • Interpreted Agents dynamically apply intelligence at runtime, adjusting actions based on immediate context and feedback, suited to open-ended, unpredictable tasks.

Just as traditional software differentiates between compiled (pre-wired) and interpreted (runtime-decided) languages, AI agents exhibit similar distinctions.

Technical Deep Dive

Compilation in LLM: Parameter Fixation and Knowledge Internalization

In LLM-native agents, "compilation" occurs during model training. Vast textual data is compressed into fixed neural parameters. Post-deployment, these parameters act like "compiled" code, setting fixed probabilistic boundaries on potential behaviors.

Interpretation in AI: Dynamic Runtime Decisions

However, runtime inferences from LLMs reveal an "interpreted" quality, characterized by:

    • Dynamic CoT (Chain-of-Thought) generated spontaneously
    • Adaptive path planning reacting to real-time feedback
    • Probabilistic decisions, allowing the same prompt to yield different outcomes

Thus, LLMs represent a hybrid computational paradigm, combining "probabilistic compilation" and "constrained interpretation"—leveraging pre-trained parameters while dynamically interpreting and adapting at runtime.

Architectural Comparison

Compiled Agents: Reliability and Predictability

Unlike LLM-native agents, compiled agents follow strict, pre-defined workflows:

    • Clear, predetermined logic paths
    • Fixed decision branches
    • Limited context management
    • Deterministic results

Examples: ByteDance's Coze platform exemplifies this model. Users visually design the agentic logic via drag-and-drop workflows, ensuring consistency and reliability. Ideal for well-defined business automation tasks like RPA (Robotic Process Automation), compiled agents excel in repeatable, predictable operations.

Limitations: Rigidity and inability to adapt dynamically. Any unforeseen changes in environment or input can disrupt workflows, necessitating manual reconfiguration and/or re-training the models behind.

Interpreted Agents: Runtime Autonomy and Flexibility

Interpreted agents are LLM-native autonomous agents that dynamically formulate and revise their execution plans:

    • Goal-driven, high-level task definitions
    • Real-time strategic planning
    • Environmental awareness
    • Autonomous decision-making with dynamic tool selection

Examples: Manus and AutoGPT embody interpreted agents. AutoGPT autonomously breaks tasks into subtasks, sequentially executes them, adapts based on interim results, and maintains persistent memory states to handle complex, multi-step operations. Manus, employing a multi-agent collaborative framework, autonomously executes complex workflows—from data analysis to report generation—demonstrating a complete "idea-to-execution" loop.

Strengths: Highly adaptive, capable of handling diverse, unforeseen scenarios. Ideal for research, creative tasks, and personal assistance.

Challenges: Unpredictability, higher computational resources, potential security risks, and more intricate development and testing procedures.

Interface Strategies: Universal vs. Specialized

Agent capabilities heavily depend on interaction modes with external environments:

    • Universal Interfaces (browser-like interactions) grant agents broad compatibility but face efficiency, reliability, and security issues.
    • Specialized Interfaces (API calls) offer speed, stability, and security but lack flexibility and require direct integration.

Strategically, agents leveraging specialized APIs can form more robust, defendable positions, avoiding easy internalization by LLM providers.

Future Directions and Challenges

Emerging Hybrid Architectures

Future agents will increasingly blend compiled reliability with interpreted adaptability, embedding runtime-flexible modules within structured workflows. Such hybrids combine precise business logic adherence with adaptive problem-solving capabilities.

Technical Innovations

Advances needed include:

    • Further enhanced runtime reasoning and self-reflection via RL (Reenforcement Learning) post-training to improve decision accuracy
    • Integrated multimodal perception (visual, auditory, tactile) for richer environmental understanding
    • Robust resource management and runtime environments supporting persistent, background-running interpreted agents

Societal and Ethical Considerations

Widespread agent deployment raises security, privacy, and ethical issues, demanding stringent governance, transparent operational oversight, and responsible AI guidelines.

Conclusion

Compiled and interpreted agents represent complementary, evolving paradigms. Their convergence into hybrid architectures is forming the backbone of a new, powerful LLM-native agent ecosystem. As this evolution unfolds, humans will increasingly delegate routine cognitive tasks to agents, focusing instead on strategic, creative, and emotionally intelligent roles, redefining human-AI collaboration.

In essence, the future of AI agents lies in balancing the precision and predictability of compilation with the flexibility and creativity of interpretation, forging an unprecedented path forward in human-technology synergy.

 

[Related]

Xiao Hong (Red): The Man Behind the Autonomus Genral Agent Manus

 

Manus is a new AI agent developed by the Chinese startup Monica, claiming to be the world's first fully autonomous AI agent. It's designed to handle complex tasks independently after an initial user prompt, such as sorting résumés, analyzing stock trends, and generating interactive websites. Currently, Manus is in a private testing phase, accessible by invitation only.

Xiao Hong is truly exceptional! Clear-minded, shrewd, and remarkably, he maintains both the right mindset and passion while drawing on years of accumulated experience. If I were an investor, I'd back him without hesitation.

I listened to Zhang Xiaojun's exclusive conversation with Manus CEO Xiao Hong in one sitting—fascinating throughout. Xiao Hong speaks plainly and honestly, without mystification or pretense, yet his insights are remarkably precise. He has crystal-clear awareness about positioning himself and his products, about the ecosystem, about the relationship between foundation models and applications, and about the future. As a 10-year entrepreneurial veteran, he maintains his own principles, staying true to himself ("be yourself"). While he fully understands that tech giants like ByteDance will quickly catch up in the large language model agent space, he believes there will always be room for application enthusiasts like himself. He consistently holds model companies in high regard, particularly highlighting how DeepSeek has brought unexpected positive factors to the application ecosystem.

The Man Behind Manus

Xiao Hong (Red) is the CEO of Manus, the recently viral large language model autonumous agent that has become China's new star in the AI industry following DeepSeek. Listening to Xiao Hong's interview feels like reading "startup notes" for the new era of AI applications. This founder, born in the 1990s but already with 10 years of entrepreneurial experience, not only clearly articulates the development trajectory of large language model applications but also explains in plain language to entrepreneurs: in this AI revolution, even if you're not a "model powerhouse" like DeepSeek or OpenAI, you can still find your place.

From Chatbots to Agents: The Evolution of AI Applications

The evolution of AI applications has been as dramatic as the shift from flip phones to iPhones:

Jasper Era: Homework-copying mindset, "Please fill in your target audience and theme~"
ChatGPT Era: Conversational instructions, "Hi, what can I help you with?"
Monica Era: Context awareness, "I see you're reading this article, would you like me to summarize it for you?"
Cursor Era: Vertical coding agent, "I don't just chat, I can write code to solve your problems!"
Agent Era: Asynchronous planning and execution, "Let me break down this task, complete it step by step, and report results as they come~"

Isn't this just like the evolution from "feature phones" to "smartphones"? Xiao Hong discovered a clear main thread behind this evolution: increasingly aligning with ordinary people's habits while expanding capability boundaries in values.

"The New Andy-Bill Law": How Application Companies Consume Model Capabilities

Xiao Hong proposed "the new Andy-Bill law": no matter how powerful the models created by model companies, application companies can consume these capabilities and transform them into user-perceivable value. This is the positioning that large model application pioneers should adopt.

This mirrors how Intel (Andy Grove) would provide more powerful chips, and Microsoft (Bill Gates) would consume that computing power with more powerful operating systems. Now, model companies provide stronger reasoning capabilities, and application companies are transforming them into intelligent agents capable of writing code, calling APIs, and planning execution.

Xiao Hong even half-jokingly offers a startup tip: "Predict what the next model capability will be, build your application around it, and wait for that model capability to launch. When that model capability improves, you'll win at the starting line you foresaw!" As an excellent product expert, he once used this strategy to succeed in his first startup.

The Agent Is Alive! The "Aha Moment" of Large Model Applications

One astounding scene from the interview is Xiao Hong describing their "aha moment" while testing the Agent in development:

They gave the Agent Manus a task to analyze how many animals appeared at a specific timestamp in a YouTube video. The Agent not only opened YouTube but also decided by its own choice to use fastfoward button to improve efficiency, precisely located the specified time, and then analyzed the screen content to provide an answer.

Xiao Hong's reaction: "You truly feel like you're creating a life."

Isn't this like a real-life prequel to "Westworld"? Except that today's Agents are still exploring the digital world, not the physical one.

"Think in Terms of Game Theory, Not Logical Reasoning"

Xiao Hong's summary of entrepreneurial thinking is insightful: don't use logical reasoning ("Baidu has the best algorithm engineers, so Baidu will definitely do recommendations well"), but instead use game theory thinking ("because a certain player joins, the entire game rules change"). Logical reasoning doesn't account for ByteDance's success (e.g. in TikTok), but game theory thinking can accommodate new players (like Liang Wenfeng for DeepSeek and Xiao Hong for Manus).

It's like chess—not simply deducing "if I make this move, my opponent will definitely make that move," but considering "because I made this move, my opponent might change their entire strategy."

With this mindset, even in a competitive environment dominated by giants, entrepreneurs can find their opportunities—not through linear extrapolation (which would only lead to the pessimistic conclusion that "everything is an opportunity for giants"), but by becoming variables that change the rules of the game.

In other words, Sam Altman's vision of top model companies crushing everything is at most only half truth. The space where models and applications each play to their strengths will likely co-exist for a long time.

Xiao Hong's Golden Quotes

In the interview, Xiao Hong offered several quotable lines worth hanging on entrepreneurs' walls:

    • "When you realize you're innovating and leading, you should be more aggressive, super aggressive"
    • "You should understand it using the most crazy imagination, better not to short it"
    • "Don't put application companies and model companies in opposition"
    • "Being yourself is most important, rather than being reactive"

Finally, facing the rapidly developing future of AI, Xiao Hong concludes by quoting Jensen Huang: "What would happen in the next few years that would surprise you?" Huang's answer was: "Basically nothing."

In other words, in the AI era, don't be too surprised by whatever crazy things happen—even if your Agent starts using fastforward key to watch YouTube videos and answer questions. After all, the awakening of agents is only just beginning!

 


[Related]

The Agent Era: The Contemporary Evolution from Chatbots to Digital Agents

Manus is a new AI agent developed by the Chinese startup Monica, claiming to be the world's first fully autonomous AI agent. It's designed to handle complex tasks independently after an initial user prompt, such as sorting résumés, analyzing stock trends, and generating interactive websites. Currently, Manus is in a private testing phase, accessible by invitation only.

Unveiling 2025's Hottest AI Application Form

The recent explosion of Manus claimed as the first generic agent product has brought the AI industry buzzword "agent" to the public's attention, at least effective in educating and inspiring the market. Manus's beta release demos have been impressively powerful, offering a glimpse of what agent technology can truly achieve. Whether Manus represents a genuine breakthrough or merely well-marketed hype, everyone is now curious about the emerging era of large language model agents. But what exactly is an agent?

I. From Co-pilot to Pilot: The Evolution Code of Agents

When ChatGPT exploded onto the scene, humanity realized for the first time that AI could not only answer questions but also do all kinds of knowledge tasks (translation, summarization, writing, you nam´ it) as  your "cyber assistant". Early Copilot-type assistants functioned like diligent interns—obedient and responsive, answering when asked and acting when commanded. Today's Agents have evolved into "digital employees" capable of figuring out solutions to problems independently. They are no longer passive assistants waiting for instructions, but intelligent agents that can autonomously plan, break down tasks, and utilize tools.

    • Copilot mode: You command "write an English email," it generates text and waits for you to confirm or use it
    • Agent mode: You say "resolve the customer complaint within budget x," and it automatically retrieves order data → analyzes the problem → generates a solution → orders compensation gifts within budget → synchronizes the resolution record with your CRM system

This qualitative leap stems from three major technological breakthroughs:

    1. Extended context windows: New LLMs can remember conversations of up to 1 million tokens (equivalent to an entire Harry Potter novel), building continuous working memory
    2. Reasoning engine: Evolution from simple Chain-of-Thought to Tree-of-Thought reasoning, enabling multi-path decision making
    3. Digital limb growth: API calls + RPA (simulating human software operation) + multimodal input/output allowing AI to truly "take action" without human intervention during the process

II. The Seven Weapons of Agents: Beyond Conversational AI

The combat power of today's top Agents comes from a "technical LEGO set" composed of seven core components:

① Search+RAG

    • Real-time capture of the latest information via built-in search: stock quotes, flight status, academic frontiers
    • Connection to enterprise knowledge bases: instant access to employee manuals, product specifications, customer profiles
    • Case study: A medical Agent can simultaneously retrieve the latest clinical guidelines and patient medical history during diagnosis

② Coding Capabilities

    • Automatically writing scripts to process Excel files
    • Transforming into a "digital developer" during debugging
    • Even developing complete applications
    • Impressive demonstration: During testing, a Windsurf Agent independently wrote a webpage with login/payment functionality

③ Software Operation (Computer Use)

    • No API interface? RPA still directly simulates human operations!
    • Operates browsers, Photoshop, and OA systems just like a human would
    • Game-changing scenario: An Agent autonomously completing the entire workflow from flight price comparison → booking → filling expense forms

④ Memory Vault (Vector Database)

    • Permanently remembers your work habits: "Director Wang prefers blue templates for Monday morning meeting PPTs" "Accountant Zhang's reports must retain two decimal places"
    • Localized storage ensures privacy and security

⑤ Multimodal Capabilities

    • Input and output no longer limited to text:
      • Converting voice meetings into visual minutes
      • Transforming data reports into dynamic videos
      • Generating mind maps while listening to podcasts

⑥ Multi-Agent Collaboration: Complex tasks tackled by "intelligent teams"

    • Commander Agent: Formulates battle plans
    • Scout Agent: Monitors data in real-time
    • QA Agent: Cross-validates results
    • Diplomatic Agent: Requests resources from humans

⑦ Planning and Reasoning

    • Breaking down vague instructions like "organize a product launch" into 100+ subtasks
    • Dynamically adjusting plans: When a venue is suddenly canceled, immediately activating Plan B

III. The Bipolar War in the Agent Universe

The agent landscape is currently witnessing a "generalist vs. specialist" showdown:

Generalist Camp

    • Key players: Manus, GPT-5 (? rumored to integrate all capabilities)
    • Advantages: Universal capabilities—coding, designing, project management all in one
    • Potential risks: Vulnerability to disruption by tech giants (for example, GPT-5 or DeepSeek R3 potentially crushing Manus)

Specialist Camp Lineup:

    • Medical Agents: AI doctors capable of examining CT scans, making diagnoses, and writing prescriptions
    • Legal Agents: Generating flawless contracts in three minutes
    • Financial Agents: Trading operators monitoring 37 global exchanges in real-time
    • Moat: Industry know-how + dedicated toolchains creating competitive barriers

IV. Hopes and Concerns in the Agent Era

On the Eve of Breakthrough:

    • Technical infrastructure largely in place (sufficiently long context + mature toolchain)
    • Multimodal large language models filling the final gaps
    • 2025 potentially becoming the true "Year of the Agent"

Undercurrents:

    • Privacy concerns: Agents requiring deep access to user data
    • Ethical dilemmas: Who bears responsibility when an Agent books a hotel without explicit approval?

V. The Future Has Arrived: A New Paradigm of Human-Machine Collaboration

As Agents gradually master three ultimate skills:

Predictive capability: Anticipating your needs in advance ("Rain detected tomorrow, outdoor schedule modified")

Embodiment: Robots infused with "souls" executing physical actions autonomously (Robot + Agent = Robot butler)

Humans are finally entering an era where "the noble speaks but doesn't lift a finger"—humans set goals, while Agents handle all implementation details and solution paths. This quiet efficiency revolution shall be reshaping the rules of the game across every industry.

The only question is: Are you ready to embrace your digital colleague?

 

【相关】

o3 deep research: 智能体的分野和演进

引言

人工智能 Agent(智能代理/智能体)的发展正引领着新一轮技术变革。从最初只能回答问题的聊天机器人,到如今能够自主规划和执行任务的Agent(智能代理/智能体),AI 正在从“工具”走向“生产力主体” (link1)。针对 AI Agent 的架构设计,出现了两种不同范式:白硕老师称之为编译型 Agent解释型 Agent。简言之,前者将大部分“智能”体现在开发编译阶段,由开发者预先规划好流程;而后者则把智能延伸到运行时,Agent 在执行过程中自主决策。两者理念迥异。

要理解二者区别,可以类比传统软件开发的编译型语言和解释型语言:前者在运行前将逻辑“翻译”成机器可执行的固定步骤,运行时按部就班;后者则在执行时动态遵循用户指令,能够根据实时情况改变流程。换言之,编译型 Agent就像提前写好的脚本,解释型 Agent更像实时推断的决策者。LangChain 框架在常规 Chain(链式流程)中,行动序列是硬编码写死的;而在 Agent 中,智能体使用大型语言模型(LLM)作为推理引擎动态决定采取哪些行动、以何种顺序执行 (link2)。这种自治决策能力正是解释型 Agent 的核心特征。

本文将深入解析编译型与解释型 Agent 的差异,探讨智能在编译环节(开发阶段)与运行时(执行阶段)的不同作用机制。我们将结合技术架构和实例,对两类 Agent 的应用场景、优势局限,以及未来演进趋势进行分析。

编译型 Agent:智能在编译阶段的应用

定义与特点: 所谓编译型 Agent,是指在开发阶段就将 Agent 的行为逻辑和任务流程规划完善,类似于把“智能”预先编译进固定的脚本或流程图中。Agent 运行时主要按照预定义的流程执行,很少偏离既定路径。其特点包括:流程高度可控,可预测性强,但灵活性相对不足。一旦运行环境或需求发生超出预设的变化,Agent 无法自适应,需开发者重新修改流程(相当于重新“编译”)。这种类型的 Agent 常通过可视化工作流或规则引擎实现,开发者扮演了主要的规划者角色。

主要应用场景: 编译型 Agent 广泛应用于流程固定、规则明确的任务自动化场景。例如机器人流程自动化 (RPA) 软件就是典型案例:RPA 按照预录制的脚本,在各类系统界面上执行点击、输入等操作,完成表单处理、数据迁移等重复性工作 (link3)。这类任务流程相对稳定,可用事先编排的脚本完成。又如各类无代码/低代码自动化工具,比如字节跳动推出的“扣子 (Coze)”平台 (link4)。扣子允许用户通过可视化流程编辑器拖拽节点,配置对话逻辑和插件调用,实现复杂业务的自动化处理 (link5)。用户无需编程,只需在开发阶段将业务流程和AI调用方式设计好,生成的Bot便会按照该流程运行。再如企业中的固定业务流程自动化(审批流程、报表生成等),也多采用此类预定义流程的 Agent 实现。总体而言,凡是可以提前明确步骤的任务,都适合用编译型 Agent 来部署,比如批量操作办公软件、网站信息采集、报表定制等。

优势与局限性: 编译型 Agent 的优势在于其确定性和可靠性。由于所有步骤在上线前已调试固定,这类 Agent 在已知场景下表现稳定,不易偏差。RPA 机器人可以24小时不知疲倦地执行,大幅降低人为错误和成本 (link6)。预定义流程也便于通过规则约束,确保符合业务规范。然而,这种“提前规划”的模式也带来明显局限。一方面,Agent 对环境变化十分敏感,缺乏弹性。如果外部系统界面稍作调整,输入数据格式发生变化,硬编码的流程可能立即失效。例如有RPA用户抱怨:“表单里新增一个字段,机器人就无法继续工作,必须重新配置任务” (link7)。编译型 Agent 缺少在运行时举一反三的能力,无法随机应变。另一方面,由于流程复杂度随着需求增长而上升,预先编排过于繁琐的流程图也会降低开发效率,且后期维护成本高。当任务超出原设计范围时,Agent 只能执行有限职责,无法自主学习新技能。总之,编译型 Agent 擅长按规划行事,在稳定重复场景中效率惊人,但面对未知情况时显得僵化,需要人工干预调整。

值得注意的是,随着大模型技术的发展,一些编译型框架开始在开发阶段借助 AI 提升流程设计智能化。例如企业级RPA厂商推出了“一句话生成自动化流程”的功能,由大模型根据自然语言描述自动编排RPA脚本 (link8)。这种做法本质上仍是编译型思路,只是把开发者从手工绘制流程中解放出来,让 AI 辅助完成“编译”,低代码编程了零代码。但不论流程由人编还是AI编,运行时执行的仍是固定脚本,没有运行中再规划的能力。

解释型 Agent:智能在运行时的应用

定义与特点: 解释型 Agent 指的是将 AI 的推理与决策能力融入运行环节,让 Agent 在执行过程中根据实时情况动态规划和调整行为。它不依赖预先硬编码的完整流程,而是赋予 Agent 某种程度的自主性:接受一个目标后,Agent 可以自己思考如何达成,边执行边调整策略。这类 Agent 通常由有推理能力的大型语言模型(LLM)驱动,具备自然语言理解、环境感知和自主决策能力 (link9)。它接收人类的高层指令或目标描述,能够拆解子任务调用外部工具,循环执行“思考->行动->观察”的过程,直到完成目标 (link10)。其运行流程是解释型的:每一步都通过 AI 推理决定下一步做什么。相较编译型的刚性,解释型 Agent 具有高度的灵活性和适应性,可以处理开放式问题和动态环境。

主要应用场景: 近年来兴起的自主决策 Agent交互式 AI 助手大多属于解释型 Agent。例如火爆一时的 AutoGPT 就是一种自主执行 Agent。用户给出一个目标,它会利用 GPT-4 等模型生成计划、执行任务、根据反馈调整,直至达到目标。AutoGPT 被形象地比喻为“无人驾驶的汽车”,只需给定目的地就会自动完成旅程 (link11)。它能够将指令拆解为多个子任务,逐一执行,并在过程中调用各种API接口,实现长时间不间断自主工作 (link12)。再如 Manus,一个号称“通用型”的交互式 AI 助手。比传统ChatGPT只给建议进了一大步,Manus可以自主规划并直接交付完整任务成果 (link13)。用户让它分析数据、写报告,Manus 会自己决定使用哪些工具、执行哪些步骤,最终产出结果。Manus背后采用了多智能体协同架构(规划Agent+执行Agent+验证Agent等)来实现这一过程 (link14)。此外,一些嵌入日常软件的AI 助手(如可以自主帮你查邮件、安排日程的数字秘书)也逐渐出现。这些场景的共同点是:任务目标可能多变且无法完全穷举预设,需要 Agent 具备即时决策上下文理解的能力,才能根据当前输入和环境做出合理行为。解释型 Agent 擅长充当这样的“智能决策者”和“交互伙伴”。

事件驱动 vs 流程硬编码: 解释型 Agent 的另一大特点是事件驱动、灵活反应。它不再依赖事先硬编码的流程图,而是根据环境输入(事件)实时决定响应方式。这使其能够处理非预期情况,拥有更灵活的任务处理方式。如上文所述,LLM 驱动的Agent可以调用长期和短期记忆,将新输入纳入上下文,动态调整接下来的步骤 (link15)。正因如此,这类Agent不会像传统RPA那样在遇到新数据格式时陷入“死胡同”,而是能够自适应,修改任务序列再尝试 (link16)。这种事件驱动的自主性让解释型 Agent 可应对更多长尾场景。例如,当用户临时改变目标,Agent 可以即时重新规划;当外部API返回异常数据,Agent 可根据错误信息调整调用参数甚至更换方案。相比之下,编译型 Agent 只能处理开发者预想好的分支,对于未覆盖的情况就无能为力。因此,在需要实时决策高适应性的任务中(如实时监控报警处理等),解释型 Agent 展现出巨大优势。当然,运行时动态决策也带来了新挑战,包括决策正确性、可控性以及资源开销等,我们会在后文进一步讨论。

编译型与解释型 Agent 在决策机制和能力侧重上截然不同:前者将智能更多体现在编译时,由人来“教会”Agent做什么;后者则让Agent在运行时运用智能自行“figure out”怎么做。实际应用中,需要根据任务性质选择合适的 Agent 类型。

技术架构分析:从编译到运行的智能分布

要深入理解编译型和解释型 Agent 的实现差异,必须拆解其技术架构,看看“智能”分别分布在系统的哪些部分。主要涉及以下关键技术要素:规划决策能力、上下文记忆、工具调用接口以及内化技能等。

规划能力: 在编译型 Agent 中,规划主要发生在开发阶段,由人或辅助工具完成。开发者按照业务逻辑把任务分解成步骤,写入流程图或代码中。因此规划算法本身相对简单,更多依赖于人的经验和业务规则。运行时不需要复杂的决策推理,只需遵循既定计划。而在解释型 Agent 中,规划能力被移至运行时,由Agent自己完成。这通常借助于LLM的推理能力实现复杂任务拆解和策略搜索 (link17)。例如解释型 Agent 会在接受目标后,生成一系列子目标或行动提议,评估其可行性,再选择最佳方案执行。如果遇到新信息,还会重新规划。这里涉及的技术包括基于大模型的思维链 (Chain-of-Thought)推理、树状搜索算法,甚至元推理等 (link18)。一些高级Agent架构还涉及自我反思、自适应规划模块,不断优化决策质量。因此,解释型 Agent 对赋能AI模型的规划能力要求很高,需要模型能理解任务语义,推导步骤顺序,并具备一定的推理正确性保障。最近的OpenAI头部推理模型o系列以及DeepSeek R1 应运而生。

上下文记忆: 无论哪种 Agent,记忆和状态管理都是关键。编译型 Agent 通常只需维护有限的运行状态(例如循环计数、中间变量),上下文非常有限。由于流程固定,Agent 不需要长期积累对话或环境信息,更多是一次性地按照输入->处理->输出即可。因此,传统编译型 Agent 的“记忆”多是程序局部变量或数据库读取,谈不上智能记忆。而解释型 Agent 则必须具备类似人类的记忆能力:既包含短期记忆(对当前对话或近期事件的上下文),也包含长期记忆(跨会话的知识、历史经验)。技术上,这通常通过缓存对话历史、引入向量数据库存储知识、甚至利用专门的记忆模块来实现 (link19)。例如,一个对话型解释Agent会保存与用户过往交互的关键信息,或将重要事实嵌入向量空间以便后续检索。当Agent规划后续行动时,会查询其记忆模块,以确保决策考虑到相关背景。Memory 模块也可以帮助 Agent 实现状态持久化,使其在跨多个子任务执行时保持一致的上下文。举例来说,AutoGPT 这类 Agent 在执行多个子任务时,会将每个步骤结果写入一个“内存”文件或数据库,作为下一步的输入依据,从而保持全局状态的一致 (link20)。这一点在需要跨越长时间或复杂流程的任务中尤为重要。如果没有上下文记忆,解释型 Agent 将难以进行连贯的推理和执行。可以说,记忆赋予了解释型 Agent 持续思考的能力,使其不像无头苍蝇一样乱撞。这也是为什么许多Agent框架强调结合短期会话记忆和长期知识库,以增强Agent解决实际问题的能力 (link20)。

工具调用 vs 内化能力: 工具使用是Agent实现复杂功能的关键。编译型 Agent 一般通过API调用RPA UI操作来使用外部工具,但这些调用点都是在开发时写死的。例如一个报表生成Agent,开发者会在流程中写明:“步骤3:调用数据库API获取销量数据;步骤4:调用图表库生成图表”。Agent 运行时按此执行,不会自行更改调用顺序。解释型 Agent 则倾向于在运行中灵活调用各种工具。Agent接到任务后,会根据需要评估使用何种工具来完成子任务 (link21)。例如需要计算时调用计算器插件,需要查信息时用网络搜索工具等。LangChain 等框架提供了工具插件机制,Agent可动态选择并调用。这要求Agent具备一定的“工具使用知识”,即知道何时该用何工具、如何解析工具返回结果并纳入后续决策。LLM 可以通过提示词学习这方面能力。例如AutoGPT内置了浏览网页、执行代码等多种命令,Agent会根据自己计划选择调用,再将结果写入思维链继续处理。内化能力指的是Agent依靠自身模型完成某些任务的本领。例如有些文本分析、语言翻译等工作,大模型本身就能胜任,Agent 无需借助外部API即可完成——这相当于技能内化在模型中。而对于模型不擅长的精确计算、访问实时数据等任务,则通过工具调用来补足。两类 Agent 在设计上对工具的依赖程度不同:编译型 Agent 更依赖显式 API 接口,所有外部交互都由开发者指定;解释型 Agent 更强调通过一个通用接口来使用各种工具,由AI决定调用哪些接口 (link22)。例如Manus的架构中,就内置了浏览器自动化、RPA机器人和第三方API等多种模块,形成一个通用的跨平台执行引擎 (link23)。这样的设计使Agent可以根据需要自由组合手段完成任务。然而,这也带来风险:Agent对外部接口的滥用或误用需要受到控制,否则可能造成不良后果(比如调用文件删除命令)。因此工具使用模块通常会增加权限管理和有限动作空间,以确保Agent不会越权。总的来说,解释型 Agent 通过灵活使用工具和内化技能,拥有了触及外部世界的“手脚”,这远比仅靠预设接口的编译型 Agent 更加机动。

运行环境:驻留型 Agent 的 Runtime 特性: 对于持续运行的解释型 Agent,其运行环境(Runtime)需要支持一些特殊特性。例如,一个驻留守护的Agent相当于一个异步后台进程,需要能够待机监听事件触发。运行环境可能需要实现事件循环或订阅某些消息总线,使Agent可以在无用户交互时被动接收触发信号(如定时事件、新邮件通知等)。这类似于操作系统中的daemon进程或服务,需要管理其生命周期。此外,Runtime 需提供资源管理和隔离机制。因为解释型 Agent 可能长时间运行并调用系统资源,必须防止内存泄漏、无限循环等问题,对其CPU/内存占用进行限制,必要时能平稳中止Agent执行。此外,驻留Agent往往需要持久存储来保存长久记忆和中间状态,例如将对话历史存入本地数据库,以便重启后能恢复上下文。安全性也是Runtime必须考虑的,需确保Agent的每次工具调用都在受控沙箱或虚拟机中执行,防止对主系统造成破坏。相比之下,编译型 Agent 的runtime要求就简单许多,因为流程短暂且可控,一般不需要上述复杂的调度和隔离机制。可以预见,未来若要实现真正实用的常驻型AI Agent,一个强大的智能体运行环境(类似“Agent操作系统”)将是不可或缺的,它要能调度AI的认知处理,与底层系统资源打交道,并解决长期连续运行带来的一系列工程问题。这也是当前很多Agent框架开始探索的方向,例如有人提出打造通用的“LLM-OS”来统筹Agent的运行 (link24)。

接口设计:万能接口 vs 专用接口

设计 AI Agent 时,一个重要考量是如何与外部世界交互,也就是接口的选择。这里的接口既包括Agent调用工具/数据的途径,也包括Agent与用户或环境通讯的方式。总体而言,存在万能接口专用接口两种思路,各有优劣。

浏览器 vs API:Agent 调用外部工具的方式:浏览器可以被视作一种万能接口。人类几乎可以通过浏览器访问任何在线服务或系统界面,同样地,Agent 若学会使用浏览器,就能够执行各种网页上的操作,实现跨系统的任务。例如Agent可以打开网页、填表提交、抓取信息等,相当于在UI层模拟了人的行为。很多RPA工具正是采取这种思路,通过UI自动化兼容各种老旧系统而无需官方API (link25)。近期一些Agent项目(如AutoGPT的浏览插件)也使用了浏览器自动化来完成上网搜索、网站操作等任务。然而,浏览器接口的通用性是以效率和可靠性为代价的。UI 操作脆弱且缓慢,页面结构稍变脚本就可能失效 (link26)。相反,专用API接口则提供了直接、高效的交互方式。通过API,Agent可以以结构化数据形式与服务交互,速度快且不易受界面改变影响。比如直接调用一个天气API获取温度,比操作浏览器搜索天气再解析网页要稳健得多。因此,在接口设计上,需要权衡通用性专用性。一种折中做法是:针对高频或关键服务,尽量使用官方API(专用接口)以保证可靠;而对于没有公开API的任务,Agent可以退而求其次使用浏览器自动化等通用接口完成。这也是为什么像Manus这样的先进Agent,同时内置了浏览器自动化、RPA、API 等多种模块 (link27)——它提供一个通用驱动层,可以视情况选择最佳的调用途径。未来Agent开发平台可能会汇集上百种工具插件,无论是浏览器执行JS、操作本地应用,还是HTTP API,都通过统一的接口规范供Agent调用。开发者需要为Agent设计合理的决策逻辑,让其学会在不同接口之间做选择:什么时候走万能路径,什么时候用专用捷径。

内化的威胁:为什么万能接口更易受到替代? 这里的“内化”是指平台方将某项功能直接整合为自身能力,从而替代掉外部Agent的价值。如果Agent只是通过万能接口调用别人的服务来实现功能,那一旦这个功能被平台内置,Agent 就失去了存在意义。例如,一个Agent通过网页操作实现了自动邮件分类,但邮件服务商后来自己推出了AI分类功能,用户自然更倾向使用官方内置方案。相比之下,专用接口往往建立在更紧密的合作关系或独有数据上,不容易被简单替代。如果Agent能深度集成某企业内部系统,通过私有API完成复杂业务流程,那么外部很难重现这种集成度。万能接口的通用性导致替代门槛低:任何人都可以开发类似的Agent脚本来调用同样的公共接口或页面。而垂直专用接口则受益于生态绑定,具有一定进入壁垒。这对Agent创业公司提出了警示:如果只是做一个到处点网页按钮的通用Agent,中长期看可能会被大厂直接在产品中实现类似功能而替代。要打造有护城河的Agent,需考虑如何深化垂直集成,获取独特的数据和接口授权,或者提供平台难以及时复制的个性化长尾功能。

垂直领域的集约化 vs 长尾化: 从行业生态看,Agent技术可能促使垂直领域集约长尾需求满足两种趋势并存。一方面,行业巨头和专业厂商会将Agent思想融入各自领域,提供深度优化的垂直解决方案。例如CRM厂商可能推出智能销售Agent,结合内部客户数据和业务流程,表现远优于通用Agent。这会使各垂直领域的AI自动化更加集约,由懂行的玩家提供专业Agent服务。我们已经看到RPA厂商在金融、制造等领域构建特定场景的自动化方案,未来这些方案会纳入更多AI智能,演化成领域Agent。另一方面,大量零散的、个性化的长尾需求难以被大公司全部覆盖,比如帮个人整理特定格式的资料、处理私人化任务等。这些需求非常多样且小众,正是通用Agent大显身手的空间。一个足够通用灵活的Agent可以作为平台,让用户自行定制各种脚本,满足长尾场景。这实际上类似App Store生态,只不过应用开发者变成了Agent本身。如果Agent拥有强大的学习和适应能力,那么只要用户以自然语言描述需求,它就能胜任——这样无论多小众的需求都可以被满足,而不必等待厂商开发专门功能。因此,Agent生态很可能走向“双轨”:主流高价值场景上,大厂提供安全可靠的专用Agent功能;同时,一个开放的Agent平台生态去承接海量长尾任务,为个人和小团队提供定制智能服务。这两者并不矛盾,而且可以互补:通用Agent平台培养起来的创新点子,反过来也许会被验证后垂直化商业化。对于开发者而言,需要关注哪些接口和能力值得投入构建,以及如何在专用与通用之间找到平衡。既要利用好万能接口快速覆盖功能,又要在可能的情况下打通更底层的专用接口,提高Agent服务的不可替代性。

案例分析:Manus、AutoGPT、扣子

为了更具体地理解编译型和解释型 Agent,我们对比三个具有代表性的案例:Manus(最新解释型)、AutoGPT(解释型)和扣子Coze(典型编译型平台)。

Manus:解释型智能体的前沿探索 – Manus号称“全球首款通用型 AI Agent” (link28)。Manus 使用了多Agent协同架构:由不同模型分别担任规划、执行、验证等角色 (link29)。当用户给予复杂任务时,规划Agent首先基于目标产出一系列子任务方案,执行Agent依次完成每个子任务并调用相应工具,验证Agent负责检查每步结果和整体质量。这种架构相当于把解释型 Agent 的内部决策流程模块化,由专门模型扮演不同阶段的决策者,减少单个模型出错概率。Manus 的亮点在于全流程自主执行:它不仅输出建议,还能真正完成任务交付 (link30)。例如官方演示中,Manus从15份简历中筛选出适合某职位的人选,整个过程包括解压文件、逐页浏览简历、记录要点、汇总生成报告,全程完全自主完成 (link31)。这展示了解释型 Agent 强大的任务串联能力。然而,目前的 Manus 并没有提供一个永远在线的守护模式。用户需要给定具体任务(比如让它写一份分析报告),Manus 才会实例化执行一次 (link32)。任务完成后如果要做别的,需要重新下达指令。虽然Manus支持将任务放在云端异步执行,让用户关机后仍能拿到结果 (link33)(体现了一定驻留能力),但它不会在无任务时长期占用资源自行运行。所以可以说,Manus是解释型 Agent 的即时执行代表:具备很强的自主决策和跨工具协作能力,但目前缺乏事件监听的常驻式架构。Manus的智能主要体现在运行阶段的规划和工具使用上,其开发阶段更多是对多模型架构和提示的精心设计,以及提供丰富插件供其使用 (link34)。这符合解释型 Agent 的特征:设计者赋予它灵活的大脑和手脚,具体怎么走路、做事由Agent自己决定。Manus案例也揭示了解释型 Agent 的一个现实挑战:要在实际中取得良好效果,需要精巧的工程化,实现各模块稳健协同,否则自主也可能带来自主的崩溃(据报道,一些用户在复杂任务下遇到了Manus卡死的情况 (link35))。但无论如何,Manus证明了解释型 Agent 的巨大潜力,其“想法到执行”的闭环体现出AI智能体相较传统AI助手的质变 (link36)。

AutoGPT:与Manus类似但更为单一,AutoGPT是跨多个子任务保持状态的自主Agent – AutoGPT 是开源社区的明星项目,它让GPT模型化身一个可以连续执行的Agent。AutoGPT的显著特点是实现了任务的链式推进和长期状态保持。当用户赋予一个总目标时(例如“研究某个市场趋势并给出报告”),AutoGPT会自己创建待办任务列表,然后逐一执行,每完成一项就更新列表,直到所有任务结束。为了支撑这一过程,AutoGPT 引入了持久内存来跨步骤保存状态 (link37)。典型实现中,它会把每次思考得到的结论、执行的动作及结果追加到一个日志或内存文件中,这样下一步决策时可以查阅之前的信息。比如第1步通过网络获取了几条资料摘要,第2步在做分析时就能从内存中取出这些摘要作为依据,而不必重复调用网络。AutoGPT 等自主Agent还常结合向量数据库,将较大信息存入向量索引,方便需要时语义检索。这种记忆机制保证了Agent在跨越多个工具和领域的操作中上下文连贯。举例来说,AutoGPT可以先调用浏览器搜索获取文本,然后调用本地代码执行环境来运行分析脚本,再将结果交给GPT总结——整个过程中,它用内存把搜索结果传递给后续步骤,用文件系统把分析脚本输出交给总结阶段,保持了任务链条的衔接 (link38)。相较而言,人类开发者如果用编译型思路也能写出类似流程,但AutoGPT的厉害之处在于这些步骤由AI自主衍生,而非人工写死。当遇到意外情况,比如某一步得到的结果不符合预期,AutoGPT还能让GPT调整后续计划,增删任务以纠偏 (link39)。当然,AutoGPT 并非完美,目前它有时会陷入“思维循环”或徒劳子任务,消耗大量API调用。这提醒我们,自主Agent在保持长期状态时也需要加入约束策略,避免无休止运行。但不可否认,AutoGPT作为解释型 Agent,充分展现了跨多个任务的自主性和持续性:通过内存和任务队列结构,Agent 获得了贯穿任务始终的“自我”,能够记住目标、追踪进度、灵活调整方案,真正做到了一次启动即可自动连续工作。其智能主要来源于运行时GPT模型不断interpret环境和自我提示。开发阶段则侧重于框架搭建,比如设计好任务列表的数据结构、记忆读写接口、通用的工具插件,让GPT在这个“容器”中发挥最大效用。AutoGPT 的出现对业界影响深远,它证明哪怕没有复杂多模型架构,仅用一个大模型配合精巧的循环设计,也能实现相当水平的自主Agent (link40)。这为众多轻量级应用铺平了道路,也引发了对Agent安全性、成本等问题的讨论。

扣子(Coze):典型编译型 Agent 平台 – 扣子是字节跳动推出的无代码AI智能体开发平台 (link41),很像是大模型时代的RPA低代码平台。从定位上看,它更偏向编译型 Agent,即通过图形化配置在编译阶段构建智能体逻辑,运行时按既定逻辑执行。使用扣子,用户可以拖拽流程节点来设计对话机器人的对话流、调用插件时机等 (link41)。比如为客服机器人设计一个流程:先通过NLP分类用户意图,然后根据意图选择不同回复模块,或调用插件查询数据库,最后输出答案。在这个过程中,用户明确规定了AI Bot在各种分支情况下的动作顺序。扣子也提供了知识库工作流等功能,可以看作开发阶段提供给Agent的“能力配置”。但重要的是,决策逻辑基本都在设计时敲定。运行时,扣子的Bot面临用户提问时,会先经过预设的意图识别(可能由内置模型完成,这算是AI能力的调用,但流程上是固定第一步),然后根据匹配到的意图路径执行相应操作。如果遇到未涵盖的新问题,除非有默认兜底,否则Bot可能无法妥善处理,因为它不会临场生出新流程。由此可见,扣子的智能主要体现在开发环节的人机协作:由业务专家利用平台提供的AI组件,把智能能力嵌入流程。例如可插入一个“OpenAI 问答”节点来解答未匹配问题,或者通过Prompt设计,让Bot按某种风格回答。这些都属于在编译阶段赋予Agent的“智能”。一旦Bot发布上线,它的行为边界和表现就取决于预配置。扣子的优势在于低门槛快速搭建行业定制Bot (link42)。正因为采用编译型模式,其输出可控性强,企业乐于接受。然而也正因此,扣子类平台很难覆盖长尾需求和高度开放的任务。它适合垂直领域专家系统:比如培训一个医疗问答Bot,预设所有问答流程节点和知识调用。而若让扣子的Bot去做一个需要实时网搜的复杂决策任务,就力有不逮(尽管可以接入联网插件,但仍需预设何时使用它)。扣子是典型的编译型 Agent:通过丰富的插件和模板,让开发者在编译阶段构建智能体逻辑,把各种AI能力集成进固定流程,从而快速实现业务需求。但它没有也不追求让Agent自主生成新流程或自主长期运行,这方面仍然需要解释型 Agent 来补足。扣子背后折射出当前工业界对AI Agent的务实取舍:在可控性和灵活性之间,更偏向可控性。对于很多企业应用,宁可牺牲一些灵活度,也要保证行为可靠、结果可预期。因此像扣子这样的平台将AI赋能锁定在开发阶段,由人主导智能的应用,而把运行阶段视作严格执行时期。这与AutoGPT等探索形成了鲜明对比。

小结: Manus、AutoGPT、扣子三者分别代表了多智能体协作长程解释型连续自主解释型编译型预设三种路径。Manus展示了多Agent协同在一次任务内实现高度自主的可能,AutoGPT则展现了单Agent跨任务链自主运行的潜力,而扣子强调在开发期集成智能保障可靠输出。它们各自适配场景的不同。Manus适合一次性复杂任务的全自动执行,AutoGPT适合持续自主工作代理,扣子适合清晰业务流程的快速落地。未来的Agent解决方案或许会将这些思路融合:既利用开发期的规划保障特定环节可靠,又允许运行期的Agent自主处理不可预测的子问题。例如,一个企业可能用扣子搭建主体流程,但其中某一步“智能分析”调用AutoGPT模型来灵活完成,然后再回到主流程。这种混合架构已经在一些超自动化产品中初现端倪 (link43)。可见,编译型与解释型Agent并非截然对立,而是可以互为补充,共同构建更强大的智能体系统。

未来展望:Agent 生态的演进与挑战

随着大模型的快速演进,智能体生态也在发生深刻的变化。编译型与解释型 Agent 的界限可能逐渐模糊,未来的Agent系统很可能融合两者优点,呈现新的形态。以下是对未来趋势的一些展望和需要攻克的挑战:

更强的实时推理: 未来的解释型 Agent 将具备更强大的即时推理和决策能力,能够在复杂开放环境中做出接近专家水准的判断。这依赖于基础模型能力的提升和推理机制的优化。例如,引入更先进的自我反思机制,让Agent在执行过程中不断评估自身表现,像人一样反思改进。近期研究表明,给LLM增加一个反思反馈回路可以显著提升多步骤推理的准确性 (link44)。未来Agent或许会内置一个元认知模块,监控LLM的输出,对其不合理之处进行修正,从而减少荒谬错误。同样重要的是高效长程推理:当前LLM在长任务、多层规划上易出错或效率低,未来需要在模型结构上进一步突破,或者通过级联专家模型的方式提升性能。另外,强化学习(RL)等技术可能更多应用于Agent,让Agent可以通过反复试错自行优化策略。实时推理能力的增强也意味着Agent可以承担更高价值、更复杂的决策任务,例如实时交易决策、自动驾驶决策等,这对可靠性提出了更高要求。

更深度的多模态能力: 人类智能的一大特征是可处理多模态信息并在物理世界行动。未来Agent必然朝这个方向发展,拥有更全面的感知和行动能力。这包括视觉、听觉、甚至机器人实体能力。例如,一个未来的个人数字Agent可能同时接入你的摄像头、麦克风,能“看到”周围环境、“听到”会议内容,并据此决策行动(比如控制家中IoT设备)。技术上,大模型已经迈向多模态,目前的GPT-4等模型具有一定图像理解能力。可以预见,下一代基础模型将全面融合文本、图像、音频、视频等多种模态。这将赋予Agent真正的环境感知力,使其达到 AI 技能进化的第三级:从仅有互联网文本到拥有感知空间 (link45)。同时,如果再结合实体机器人,让Agent具备操作物理世界的能力,则更上一层(具身智能)。多个Agent之间通过联网交互,形成社会协作,又是更高层次 (link46)。当然,实现这一切需要解决大量工程问题,如多模态数据的高效处理、实时性要求、机器人控制技术等。但方向已经明确:未来的AI Agent将不再局限于屏幕前打字,而是可以“看”、“听”、“动”,成为数字世界和物理世界的桥梁。这将打开无数新应用,例如智能安防监控Agent(自动分析摄像头画面并采取措施)、医疗辅助Agent(读取医学影像协助诊断)等。

解释型 Agent 的驻留管理: 一旦Agent可以长时间自主运行,我们就面临如何有效管理它们的问题。首先是可靠性:持续运行的Agent可能累积误差甚至陷入奇怪状态,需要定期校验和纠正。运维人员也许需要新的工具去监控Agent内部状态,比如查看它的思维链日志,发现异常循环时干预。其次是资源调度:多个常驻Agent运行时,系统需要分配计算资源,决定哪个Agent优先度高、何时挂起或恢复某个Agent等,这类似操作系统调度进程,但难度更高,因为Agent的工作负荷和紧急程度更难预测。再次,安全与伦理:让Agent长期自行行动,必须保证它不会“越轨”。这涉及给Agent设置“红线”规则或者监控策略。例如前述引用中提到,AI Agent 需要监控以确保做出伦理且一致的决策 (link47 )。未来可能诞生“智能体监管”领域,为自主Agent制定约束和审核机制。例如对企业内部的Agent,IT部门会规定哪些系统它可以访问、数据不能外传等等。如果Agent违背了策略,要有自动熔断或报警。类似地,个人用户也需要控制自己的数字分身Agent不要做出自己不希望的行为(比如避免社交媒体代理乱发贴)。这些都需要Runtime和治理层的支持。

编译型 Agent 的演化: 编译型 Agent 是否会被解释型完全取代?未必。相反,二者可能融合出新模式。编译型框架可以逐步引入更多运行时灵活性。例如,在预定义流程的节点上,嵌入小型解释Agent来处理不可预知的部分。这有点像在传统软件中调用AI服务一样,但更紧密集成。RPA领域已经朝这方向走:许多RPA厂商给流程添加了AI决策节点,用大模型来判断分支走向或生成填充内容 (link48)。再进一步,编译型 Agent 甚至可以在运行时调用一个“规划服务”来重新配置自身流程。这实际上是在编译型架构上叠加解释型能力,让Agent可以部分地“改写”自己的脚本。这种自我改写听起来危险,但如果限定在小范围,比如流程的某段由Agent自行优化实现,还是可行的。另外,随着Prompt工程的发展,编译型Agent的规则配置或能用自然语言直接描述,再由大模型编译成可执行流程。这会降低开发难度,让更多人参与Agent构建。总的来说,编译型 Agent 不会消失,而是会变得更加“智能”:开发阶段依然需要人为设计框架,但运行阶段能够比过去更加灵活、健壮。在强调合规性的行业(如金融、医疗),编译型Agent依然是主力,只是在内部慢慢融入AI增强,使它们不那么死板。例如未来的银行RPA可能在遇到异常票据时自动调用AI识别并尝试处理,而不是简单报错终止。从另一个角度看,解释型 Agent 要大规模落地,也需要借鉴编译型思路,把开发者的业务知识固化到一定程度。例如重要的合规检查、审批逻辑还是要固化为规则,不能完全交给AI临场发挥。可以预见未来的Agent平台也会提供图形化工具,让开发者方便地设定约束和模板,然后由Agent在这些护栏内自主行动。这样既保证了输出可靠性,又享受了AI灵活性,实现两种范式的结合。

结语: 无论编译型还是解释型,AI Agent 技术都仍在快速演变中。对于AI研究者和开发者来说,当下正是介入这一领域的大好时机。从商业视角,谁能率先打造出一个既易用又强大的Agent平台和生态,谁就有机会重构下一个时代的软件生态。想象一下,也许不远的将来,每个人都会有一个属于自己的AI数字分身或伴侣,无需编写繁琐脚本,就能替自己完成大量工作;每个企业都有无数AI Agent 在各业务环节自主协作运行。这场“从思考到行动”的智能体革命才刚刚开始,其未来充满机遇与未知。

 

【相关】

肖弘与Manus:AI Agent 的实战方法论

——一位90后创业者的技术洞见与生态博弈

立委老友群最近热议:

鲁总:现在的一些所谓的agent,都还只是停留在实现工作流。还缺乏自主解决问题的能力,离人们希望的 AGI 还有蛮长的距离。

立委:Manus的做法,所谓通用agent,就放出来的demo来看,已经具有(初步)自主解决问题的能力,不仅仅是对不同场景做不同工作流。对挑选出来的 demos,做了场景优化是可能的;但就路线而言,是具有相当自主性的,并对不同场景做了多 agent 通用流程的概括/抽象。llm应用对接方面,头部厂商一直有动作,也有亮眼的进步,但还是觉得步子太小。也许是因为做模型的人与做产品的人,基因不同。同一家要在两头都是带头人,长久看来也许不太现实。从大模型应用角度看manus,有点集大成的意味。

盘点一下manus 之前大模型应用方面的尝试与进步:1 deep research;2 computer use;3 artifacts / canvas;4 Google 的自动生成 podcast (叫什么来着?);5 GPT Builder / GPT Plug-ins;6 coding agent;7 search & rag;8 a long list of multimedia abilities;9. reasoning & cot。这些全部在为 agent 爆发铺路。尤其是最近爆发的cot推理强化模型,简直就是通用agent起飞的火箭。本来以为能集成这些能力做出超级应用agent,至少还需要半年、一年的时间消化落地。现在看来是保守了。

白老师:从语言学观点看,都是在搭建grounding。让自然语言的语义跨越LLM,平滑来到现实世界,保持LLM对内化知识和grounding有一致的理解能力。这个“一致”,RAG其实并没有达到。

我们用RAG+Function call接本地数据,agent在这一层之上。通过浏览器接口直接“看”系统界面,能不能突破垂域的知识壁垒,对我们来说是个极其重大的问题。所以Manus那边发生的事情,我们正在不断评估。这不仅是技术路线之争,也是超级入口之争。

立委:哪怕 Manus 这词的确有一些夸大其词,或营销过了头,它给agent点的这把火,以及用哪怕是特别优化过的demo给我们所展示的图景,也是功勋。

如果它自己不够硬气,后来倒下了,它所推动的这股大模型应用方向的内卷和加速,也会有厉害角色冒出来。至少人家蓝图画得好。综合各路信息,估计 Manus 有基本实力和某种独特优势,但不够成熟,涉嫌“炒作”。这次炒作其实基本是好事。

白老师:相应的思路、资源和问题,一股脑儿暴露在聚光灯下了。省得去找。

立委:唤醒了市场、用户、投资人,以及一长排对手,西方不亮东方亮。它不成熟,别家会加快成熟。 它们的功劳包括做了比可行性研究更深入广泛也更工程的展现。

吕总:我感觉开放域的agents属于大模型能力的自然延伸,能力壁垒也是由通用大模型决定,很难由第三方做出具有长期价值和壁垒的产品。同时也是现在已经有点狼狈的小虎们的救命稻草。我更看重解决封闭领域内深度问题的agent能力,包括其吸收和处理领域外信息的能力。

白老师:通过看UI,LLM就能正确操作一个垂类业务系统吗?这个我还是有不小的疑问。不暴露业务系统的API,用“看UI”的通用能力对接,就要回应这个挑战。

立委:ui 是超越平台的人机界面,rpa 早就这么做了,是rpa当年能站住的法宝。现在的 computer use 借助视觉大模型的屏幕理解优化,与rpa时代的能力,今非昔比了。

白老师:但是系统界面真的看就能理解吗?OA除外,我说的是业务系统,LLM有这个本事?这还涉及到增量,今后的新系统,难道就为了给agent看UI而设计UI?反正人是不看了,看agent就够了。我觉得到时候一定会有一个裸api标准。而且垂域也会细化自己这个部位。就像XML和各个垂域的标记语言一样。

一、Agent的“活化”时刻

在肖弘的观察中,AI Agent的进化本质是从“工具性”到“生命感”的质变。当Manus的测试案例中,Agent自主调用YouTube快捷键、精准定位视频内容时,团队感受到的不仅是技术突破,更是一种“创造生命”的震撼。这种“A-ha moment”背后,是三大技术跃迁:

1. 环境感知的突破:Agent不再局限于对话框,而是通过虚拟机界面实时操作浏览器、运行代码,形成“数字肢体”;

2. 异步规划能力:从“对话式响应”升级为“任务拆解→自主执行→动态反馈”的闭环,例如自动生成房产研究报告时,Agent能拆分出数据爬取、预算计算、可视化呈现等子任务;

3. 长程记忆机制:用户偏好(如要求表格展示简历排名)会被记忆,下次任务直接应用。

肖弘的洞察
> “Agent的核心不是功能堆砌,而是让用户觉得它就像人类实习生,既听话又带点小聪明。”

二、“新安迪比尔定律”:模型外溢与应用创新的共生法则

这一理论,揭示了LLM时代的技术扩散规律:

- 原典溯源:PC时代的“安迪-比尔定律”(Intel芯片升级→微软系统吃掉算力)在AI时代演变为“模型能力提升→应用公司将其转化为用户价值”。 实战案例:

- Cursor的启示:Claude 3.5模型能力到位后,Cursor通过代码编辑器形态释放其潜力,让非工程师用户也能用自然语言操控代码;
- Manus的“壳”哲学:即使基于DeepSeek等现成模型,通过设计虚拟机操作界面、进度可视化等功能,让模型能力“可触摸”。

创业者生存指南:
> “预判下一个模型能力是什么,提前把应用做好,在前方等着模型能力变强——等它ready,你就赢在自己预见的起跑线上了!”

三、博弈思维:在巨头丛林中开辟生态位

肖弘反对“逻辑推理式悲观”(如“大厂有数据优势必碾压创业者”),主张用动态博弈视角重构竞争:

- 变量思维:DeepSeek开源策略打破游戏规则,让应用层创业者获得“新武器”;
- 生态卡位:专注“脏活累活”——如Manus选择巨头不愿涉足的复杂任务执行场景(简历分析、房产研究),通过用户体验差异化建立壁垒;
- 错位竞争:模型公司聚焦底层能力突破,应用公司深耕垂直场景;
如Manus与DeepSeek的关系:“他们造核弹,我们设计精准投放系统”。

金句:
> “不要问‘巨头会不会做这个’,而要想‘我做了这个,巨头会怎么变’——博弈论里没有注定被吃掉的棋子。”

四、“Be Yourself”哲学:技术浪潮中的定力修炼

肖弘十年创业史的核心经验,是如何在风口与噪音中保持清醒:

1. 抵抗“应激创新”:

- 当行业追逐多模态、元宇宙时,Manus坚持打磨Agent的任务执行闭环;
- 肖弘坦言:“如果2023年跟风做AI绘画工具,可能早被卷死了。”

2. 用户价值的“第一性原理”:

- 从早期产品“壹伴助手”到Manus,始终围绕“让用户少点一次鼠标”;
- 测试阶段引入真实用户参与,甚至容忍“生成《地球伪装火星指南》”的沙雕案例,以理解需求边界。

3. 技术实用主义:

- 不迷信“全自研模型”,善用开源生态(如集成Claude、DeepSeek);
- 但关键模块(如虚拟机环境隔离)必须自主掌控。

创业者戒律:
> “AI时代最危险的幻觉是‘技术至上’——模型再强,不能转化为用户可感知的价值,就是空中楼阁。”

五、Agent未来图景:从数字世界到物理世界的“觉醒”

肖弘对Agent演进的预判,展现了技术现实主义者的大胆想象:

短期落地:

- 云端分身:通过虚拟机实现“无侵入式”操作(如自动填写报销单不触碰本地数据);
- 多Agent协作:规划Agent+执行Agent+质检Agent的分工体系。

长期展望:

- 实体化延伸:与机械臂、人形机器人结合,成为“具身智能”中枢;
- 社会性进化:Agent间形成市场(如算力租赁、任务转包),甚至出现“Agent经济”。

黄仁勋式结尾:
> 当被问及“未来什么会让你惊讶”,肖弘引用了老黄的回答:“Basically nothing(没什么可惊讶的)”——在AI革命中,疯狂本就是新常态。

结语:通透者的生存法则

肖弘的独特之处,在于兼具“技术极客的敏锐”与“街头商人的务实”。他既敢说“用最疯狂的幻想理解AI”,又坚持“用户愿意付费的功能才是真需求”。这种平衡术,或许正是AI应用创业者的终极生存技能:在仰望星空时,永远记得系好安全绳

(注:本文综合自肖弘访谈、Manus技术解析及行业观察,部分案例细节引用自产品演示报道)

【相关】

张小珺 独家对话Manus肖弘:世界不是线性外推,做博弈中的重要变量

Xiao Hong Red:肖弘其人

 

Xiao Hong 君 非常人也!通透、门儿清,难在还有心态、有执念,也有积累。我要是投资人,也投他。

一口气听完 张小珺 独家对话Manus肖弘,在在精彩。Xiao Hong 讲的都是白话,坦诚地道,不玄乎、不做作,却非常到位。他对自己及其产品的定位,对生态、对模型与应用两边,对未来,都有自己非常清晰的认知。作为10年创业者,他有自己的定力,坚持做自己(be yourself)。大模型 agent,他深知大厂如字节一定会短期内赶上来,但他相信,一定有空间容纳他这种应用狂。对模型厂家始终保持特别的推崇, 特别提到 DeepSeek 给应用生态带来了意想不到的积极因素。

肖弘(Xiao Hong, Red)是最近大火的大模型 agent Manus 的 CEO,继 DeepSeek 后国内大模型行业的新星。听肖弘的访谈,感觉就是AI应用新时代的"创业笔记"。这位90后但已创业10年的创始人不仅把大模型应用的发展脉络梳理得明明白白,还用大白话告诉创业者:在这场AI革命中,即使你不是DeepSeek这样的"模型大佬",也能找到自己的一席之地。

从表单到Agent:AI应用的进化史

AI应用的进化就像是从翻盖手机到iPhone进化一样的戏剧性:

Jasper时代:抄作业思维,"亲,请填写您的目标受众和主题~"
ChatGPT时代:对话式指令,"嗨,我能帮你做什么?"
Monica时代:上下文感知,"我看到你在看这篇文章,需要我帮你总结吗?"
Cursor时代:代码执行力,"我不仅会聊天,还能写代码解决你的问题!"
Agent时代:异步规划执行,"我来帮你拆解任务,一步步完成,有结果随时汇报~"

这不就是从"功能机"到"智能手机"的进化吗?肖弘发现这种进化背后有一条清晰的主线:越来越符合普通人的习惯,能力边界越来越大。

"新安迪比尔定律":应用公司如何吃掉模型能力

肖弘提出了"新时代的安迪比尔定律":不管模型厂商造出多强大的模型,应用公司都可以把这些能力吃掉,并转化成用户可感知的价值。这就是大模型应用弄潮儿应有的定位。

这就像当年英特尔(Andy Grove)一旦提供更强的芯片,微软(Bill Gates)就会用更强大的操作系统把这些算力吃掉。现在,模型厂商提供了更强的推理能力,应用公司正在把它变成了能写代码、调用API、规划执行的智能代理(Agent)。

肖弘甚至半开玩笑地提供了一个创业秘诀:"你预判下一个模型能力是什么,先把这部分应用做好,在前方等着模型能力变强。等那个模型能力提升到位,你就赢在了你预见的起跑线上!" 作为一位优秀产品大咖,他曾经用过这招,成就了他的第一次创业。

Agent活了!大模型应用的"啊哈时刻"

访谈中令人叫绝的一个场景是肖弘描述他们测试Agent的"啊哈时刻":

他们给Agent一个任务,要它分析一个YouTube视频中某个时间点出现了几种动物。结果Agent不仅打开了YouTube,还自己决定使用快捷键以提升效率,精确定位到指定时间,然后分析画面内容给出答案。

肖弘的反应:"你是真的会觉得自己在创造一个生命。"

这不就是《西部世界》的真实版前传吗?只不过现在的Agent还只是在数字世界里探索,而不是实体世界。

"用博弈的方式思考,而不是逻辑推理"

肖弘对创业思维的总结堪称清奇:不要用逻辑推理("百度有最好的算法工程师,所以百度一定会把推荐做好"),而要用博弈思维("因为某个玩家的加入,整个游戏规则都变了")。逻辑推理里面没有字节什么事儿,博弈思维却可以容纳 Liang Wenfeng 与 Xiao Hong 这些新的玩家。

这就像下棋,不是简单地推导"如果我走这步,对方一定会走那步",而是要考虑"因为我走了这步,对方可能会改变整个策略"。

在这种思维下,即使面对巨头林立的竞争环境,创业者也能找到自己的机会——不是通过线性推导(那样只会得出"一切都是巨头的机会"的悲观结论),而是通过成为改变游戏规则的变量。

就是说,Sam 鼓吹的头部大模型厂家碾压一切的前景最多只是一半的真理。模型与应用各司其长的空间大概率会长久存在。

XiaoHong 金句集锦

访谈中肖弘还抛出了一堆值得创业者贴在墙上的金句:

    • "当你意识到你在创新、在领先,应当更激进,超级激进"
    • "应该用最疯狂的幻想去理解,最好不用做空它"
    • "不要把应用公司和模型公司对立"
    • "Be Yourself最重要,而不是应激"

最后,面对AI飞速发展的未来,肖弘引用黄仁勋的话作结:"接下来几年,什么事情发生会让你觉得很惊讶?"黄仁勋的回答是:"Basically nothing(基本上没有什么)。"

换句话说,在AI时代,不管发生什么疯狂的事,都不要太惊讶——哪怕是你的Agent开始按快捷键看YouTube视频并回答问题。毕竟,agent 醒来才刚刚开始呢!

 

 

【相关】

张小珺 独家对话Manus肖弘:世界不是线性外推,做博弈中的重要变量

万字长文解析 LLM-native Agent 及其混合计算方式

楔子

白硕老师对于最近的热门话题 Agent 如是说,不乏洞见:

谈agent,要区分是“编译型”还是“解释型”的。 

智能如果只用在了“编译环节”,那agent就只是一个无码开发工具(智能“鸡”),在运行态就只是一个换汤不换药的RPA(不智能的“蛋”)。 而纯解释型的agent,智能明确地用在了run time。当然还需要进一步区分是“立即执行类”还是“驻留守护类”的任务。 如果是“立即执行类”任务,解释型的agent可以比作孙猴子,除了亲力亲为之外,最多需要的仅仅是临时拔几根猴毛的问题,任务已结束猴毛就不见了。 如果是“驻留守护类”任务,命令下达和事件驱动之间有明显“时延特征(此时下达,彼时执行)”和“多次特征(一次下达,多次执行)”。这时,就需要能够长时间驻留的数字分身和支持分身全天候工作的run time环境。恐怕连agent的技术架构都是不一样的。

当然也可能有中间态。就是编译环节有规划和复杂意图拆解能力,运行态虽然没这个能力,但处理非结构化数据的能力还是有的。解释型的agent不需要固定的“流程”,驱动它执行的,只是“事件”,而谁发起、触发这个事件,完全没有必要硬编码,连扣子那种拖拉拽式的硬编码都不需要。这相当于是一个“半智能的蛋”。对一个企业来说,也无需“多个”,一个足矣。

manus 是哪一种呢?看着像解释型,但似乎没有驻留守护功能。扣子是典型的编译型。

很多讨论和贩卖agent的,连agent是鸡还是蛋、有智能的是鸡还是蛋都没搞清呢。

编译vs解释,立即vs驻留,接口vs内化,三大基本问题。流程硬编码vs事件驱动,这是更根本的架构问题。顶替人类岗位的RPA,一般是需要驻留的。

接口还可以细分:一个万能接口(类浏览器)还是多个专用接口。万能接口更易受到内化威胁,专用接口就基本上不值得内化了。有可能,万能接口集约化、专用接口长尾化会长期并存。垂直领域对专用接口再做一次集约化也是一个巨大的生态重构诱惑。

写提示词,要结果——解释型。解释型自带运行时AI,自己就是agent。

写提示词,要代码——编译型。代码在执行中如果还调用大模型原生能力,就是agent,否则只是用AI生产出来的RPA。

智能代理的双重本质

2022年ChatGPT核爆式崛起以来,AI技术正在经历从"可询问的聊天式工具(chatbot)"到"可执行的智能体(agent)"的根本转变。在这场技术革命中,Agent(智能代理/智能体)作为大语言模型最自然的应用形态正迅速成为研发与商业的热点。然而,当我们深入分析Agent的技术本质时,可以发现一个根本性的架构分化:编译型Agent解释型Agent。这种区分不仅反映了技术实现的差异,更代表了两种不同的智能应用哲学。

编译型Agent将智能主要应用于开发阶段,由人类或AI助手预先设计工作流程,生成固定的执行脚本;而解释型Agent则将智能延伸到运行时,赋予系统在执行过程中自主决策和适应环境变化的能力。这两种范式各有优劣,适用于不同场景,也面临不同的技术挑战。By nature,解释型Agent比编译型Agent更趋于通用。

2025年被业内公认为"Agent元年",这一判断并非偶然。尽管对Agent的探索早在一年多前ChatGPT核爆不久后即已开始,但从技术基础设施的角度看,直到2024年底,推理模型的突破性进展与多模态能力的逐渐成熟,才真正为Agent的大规模应用奠定了必要的坚实基础。这些核心能力的集结,标志着LLM应用生态系统的基础建设阶段性完成,为Agent技术的爆发创造了条件。

本文将深入剖析编译型与解释型Agent的技术架构、运行机制及适用场景,探讨Agent技术面临的核心挑战,并展望其未来发展方向。通过对Manus、AutoGPT、扣子等代表性产品的分析,我们将揭示不同Agent架构背后的技术选择与权衡。最终,我们认为编译与解释并非对立的范式,而是将融合演化出更强大的智能代理形态,开创AI应用的新纪元。

一、LLM-native Agent的编译与解释悖论

在深入技术细节之前,我们首先需要理解LLM-native Agent所体现的一个根本性矛盾:它既表现出编译型系统的特征,又展现解释型系统的行为。这一矛盾不仅挑战了传统软件架构的分类法,也为我们理解Agent的本质提供了新视角。

LLM的"编译":参数固化与知识内化

从广义上讲,LLM的"编译"可以理解为其训练过程。训练完成后,模型的参数被固化,内化了大量的知识和模式。具体而言:

    • 模型通过梯度下降等优化算法,将海量文本数据中的规律"编译"进百亿、千亿甚至万亿的神经网络参数
    • 这些参数一旦训练完成就被固定下来,形成模型的"硬件"部分
    • 模型部署后,参数不再变化,这点类似于编译型程序的机器码固定不变

因此,从参数结构的角度看,任何部署后的LLM应用,其基础模型本身都具有"编译完成"的特质——模型权重定义了系统可能行为的边界和概率分布。

LLM的"解释":推理过程的动态性

然而,当我们观察LLM的实际推断过程时,又会发现其高度的动态性和不确定性:

    • 思维链的动态生成:面对复杂问题时,推理模型LLM(例如 DeepSeek R1)会实时构建思维链(Chain-of-Thought),这是一种由不同input引发的即时“意识流”路径,无法在训练时预先确定
    • 现场路径规划:在推理模型赋能的Agent应用中,LLM能根据当前环境和任务目标,动态规划执行步骤,甚至在执行过程中根据中间结果调整原计划
    • 概率性执行:LLM的每次推理本质上是对概率分布的采样,即使输入完全相同,多次运行也可能产生不同结果,尽管大同小异
    • 上下文依赖:LLM的推理过程高度依赖输入的上下文窗口内容,同一提示在不同上下文中会产生截然不同的响应

这些特性明显体现了解释型系统的核心特征:提示input好比用户指令,模型运行时的灵活性属于对于用户指令的概率性解释执行。与传统编译型程序固定的执行路径不同,LLM的输出路径是无法完全预测的。

LLM的混合计算范式

这个表面上的矛盾源于LLM代表了一种全新的计算模型,它不同于传统的符号逻辑编程架构,而是一种神经网络结构的概率分布模型。在这种模型中:

    • 训练过程类似于"概率编译":不是生成确定性的执行指令,而是塑造一个复杂的参数化概率空间模拟函数运算过程
    • 推断过程类似于"约束解释":在预编译的概率空间内进行受约束的探索,既有固定结构的约束,又有随机采样的自由度

LLM的运行可以理解为:在编译好的知识(参数)基础上,通过指令跟随的“解释”执行模拟,动态地生成输出。这既不是纯粹的编译执行,也不是完全自由的解释,而是二者的有机融合。

概率编译与约束解释

为了更准确地描述LLM-native Agent的这种混合本质,我们引入两个概念:

    1. 概率编译(Probabilistic Compilation):LLM训练过程不产生确定性程序,而是生成一个概率分布空间。编译的产物不是固定的执行路径,而是定义了可能性边界的参数化模型。
    2. 约束解释(Constrained Interpretation):LLM的执行过程是在预编译的概率空间内进行的受约束探索,没有解析解。这种解释受到模型参数定义的先验概率分布的约束,但仍保留了对输入指令的遵从性和创造性。

这种"概率编译+约束解释"的混合范式,使LLM-native Agent既具备了编译型系统的“大气候”稳定性,又保留了解释型系统的“小气候”灵活性,代表了一种全新的计算模式。

对Agent架构设计的启示

理解LLM的这种双重本质,为Agent架构设计提供了关键启示:

    1. 我们应充分利用LLM已有的知识潜力,用于任务拆解和路径规划,坚持 LLM-native,减少不必要的外部流程
    2. 需要发扬LLM的动态推理能力,使Agent能灵活应对运行时的环境变化和未预见情况
    3. 系统需要妥善处理LLM内在的概率性,包括设计容错机制和结果验证流程

在实践中,我们需要认识到LLM的决策既不是完全随机的(有参数的约束),也不是完全确定的(有采样的随机性)。这种认识超越了简单技术分类的争论,指向了一种更本质的架构哲学:Agent系统应当是固定结构与灵活行为的辩证统一,是确定性基础与创造性表现的有机融合。

二、编译型Agent

定义与核心特征

编译型Agent是指在开发阶段就将Agent的行为逻辑和任务流程规划完善,生成固定的执行程序的智能系统。其核心特征包括:

    • 静态流程图:任务执行路径在开发时就被明确定义,通常使用可视化流程编辑器设计
    • 预定义决策分支:所有可能的情况和响应策略都需要预先编码
    • 有限上下文:只维护任务所需的最小状态,不需要复杂的记忆和推理机制
    • 确定性执行:相同输入产生相同输出,行为高度可预测
    • 封闭边界:只能处理设计时考虑到的场景,无法应对未预见的情况

技术架构剖析

编译型Agent的技术架构通常包含以下关键模块:

    1. 任务分析引擎:负责解析用户需求,将其转化为结构化的任务描述
      • 使用自然语言处理技术理解用户意图
      • 提取关键任务参数和约束条件
      • 将高层任务目标映射到预定义的任务模板
    2. 流程设计器:将分析结果转化为可执行的流程图
      • 可视化工作流编辑器,支持拖拽操作
      • 条件分支和循环结构设计
      • 错误处理和回退机制定义
    3. 执行引擎:按照预定义流程执行任务
      • 上下文管理,维护必要的临时变量
      • 外部API调用集成
      • 异常捕获和处理
    4. 工具适配器:连接各种外部系统和服务
      • API客户端库
      • RPA界面自动化控制器
      • 数据转换和格式化工具
      • 安全认证和权限管理

编译型Agent的核心是将复杂任务分解为明确的条件分支和确定性操作序列。虽然在设计阶段可能借助AI技术来辅助流程创建,但一旦流程确定,执行过程就变成了按图索骥。

运行时行为分析

在运行阶段,编译型Agent的行为遵循严格的预设路径。以下是典型的运行时执行流程:

    1. 接收输入:获取用户指令或系统触发信号
    2. 参数解析:将输入转化为流程所需的参数
    3. 条件评估:根据当前状态和输入确定执行路径
    4. 步骤执行:按顺序执行当前步骤定义的操作
    5. 状态转移:根据执行结果更新状态,确定下一步
    6. 异常处理:遇到预定义异常时执行对应的处理逻辑
    7. 输出生成:完成任务并生成结果

这种执行模式高度确定,每个步骤都有明确的预期结果和后续动作。然而,这也意味着编译型Agent缺乏适应环境变化的能力。

代码实例分析

以下是一个编译型Agent处理客户订单的简化伪代码示例:

# 编译型Agent预定义的订单处理流程
def process_order(order_id):
    # 步骤1: 验证订单
    order = db_api.get_order(order_id)
    if not order:
        return {"status": "error", "message": "订单不存在"}
    
    # 步骤2: 检查库存
    inventory = inventory_api.check_stock(order.items)
    if not inventory.all_available():
        return {"status": "pending", "message": "部分商品缺货"}
    
    # 步骤3: 处理支付
    payment_result = payment_api.process(order.payment_info)
    if payment_result.status != "success":
        return {"status": "failed", "message": f"支付失败: {payment_result.message}"}
    
    # 步骤4: 更新库存
    inventory_api.allocate_stock(order.items)
    
    # 步骤5: 安排配送
    delivery = delivery_api.schedule(order.shipping_address)
    
    # 步骤6: 发送确认邮件
    email_api.send_template("order_confirmation", order.customer_email, {
        "order_id": order_id,
        "items": order.items,
        "delivery_date": delivery.estimated_date
    })
    
    return {"status": "success", "message": "订单处理完成", "delivery_id": delivery.id}

这段代码展示了典型的编译型Agent特征:固定的执行顺序、明确的条件分支、预定义的API调用。每一步都明确知道调用什么服务,流程是刚性的,无法根据运行时发现的新情况自行调整策略。

应用场景与优劣势

编译型Agent最适合那些流程固定、规则明确的任务场景:

    • 企业流程自动化:如审批流程、报表生成、数据同步等重复性工作
    • 客户服务自动化:处理标准化的查询、订单状态追踪、常见问题解答
    • 定时任务执行:按计划执行备份、清理、汇总等维护性工作

优势

    • 可靠性高:行为可预测,结果一致性好
    • 资源效率:执行过程轻量,不需要复杂推理
    • 安全可控:权限和行为边界明确
    • 易于调试:问题定位简单,执行路径可追踪
    • 合规性强:易于实施审计和监管要求

局限性

    • 适应性差:环境变化或输入变异时容易失效
    • 开发成本高:需要预先考虑各种场景和异常情况
    • 扩展性有限:新需求通常需要重新设计流程
    • 缺乏学习能力:难以从经验中改进
    • 长尾问题难解:难以覆盖所有边缘情况

典型产品案例:扣子(Coze)

字节跳动推出的Coze(扣子)平台是编译型Agent的典型代表。它允许用户通过可视化界面设计对话机器人的工作流程:

    • 可视化流程编辑:拖拽节点构建对话和任务处理流程
    • 知识库集成:导入专业知识为机器人提供参考信息
    • 条件分支路由:根据用户输入或系统状态选择不同处理路径
    • API插件调用:在特定节点调用外部服务
    • 模板化响应:预设回复模板,结合变量生成个性化回应

扣子的设计哲学明显体现了编译型思路:开发者在设计阶段定义所有可能的交互路径和响应策略,Bot在运行时按照这些预设路径执行。虽然扣子也集成了大语言模型来增强对话理解和生成能力,但这些AI能力是在固定流程节点中被调用的,而非由AI自主决定执行路径。

扣子的成功证明了编译型Agent在特定场景下的价值。通过降低开发门槛,它使得企业可以快速构建符合业务规则的特定任务型app,表现为场景化chatbot,在可控性和功能定制方面表现出色。然而,这种平台也继承了编译型Agent的固有限制:难以应对高度开放性的任务和动态变化的环境。

三、解释型Agent:运行时智能的自主决策者

定义与核心特征

解释型Agent将智能的核心部分延伸到运行时,让Agent在执行过程中能够根据实时情况动态规划和调整行为。这类Agent不依赖预先硬编码的完整流程,而是赋予Agent某种程度的自主决策能力——接受一个现场目标后,Agent可以自行思考如何达成,一边遵行用户指令,一边调整策略。解释型Agent的核心特征包括:

      • 目标导向:接收高层次目标而非详细步骤指令
      • 动态规划:实时生成和调整执行计划
      • 环境感知:能理解并适应执行环境的变化
      • 工具使用:根据需要选择并调用合适的工具
      • 自主决策:在执行过程中做出关键选择而非仅遵循预设规则

技术架构剖析

解释型Agent的技术架构通常包含以下关键组件:

    1. 意图理解模块:负责理解用户的目标和约束
      • 深度语义解析,从自然语言提取目标和要求
      • 多轮对话管理,补充和澄清模糊信息,包括自主提问用户
      • 推断隐含需求,完善任务上下文
    2. 规划引擎:将目标分解为可执行的子任务序列
      • 基于推理模型的任务分解和路径规划
      • 动态规划和重规划能力
      • 多步骤推理和预测执行后果
      • 目标-子目标层次结构管理
    3. 工具选择与调用模块:决定使用哪些工具完成子任务
      • 工具需求评估和匹配
      • 参数构造和验证
      • 结果解析和整合
      • 错误处理和重试策略
    4. 记忆系统:维护长期和短期记忆
      • 对话历史和执行状态追踪
      • 向量数据库对接场景数据
      • 语义搜索和相关性排序
      • 上下文压缩和重要信息保留
    5. 监控与反馈模块:评估执行进度和结果质量
      • 中间结果验证
      • 目标完成度评估
      • 自我纠错和改进
      • 用户反馈整合

解释型Agent的核心优势在于其闭环的"感知-思考-行动"循环,让Agent能够像人类一样,根据环境反馈持续调整策略。

运行时行为分析

一个解释型Agent的典型运行流程如下:

    1. 目标接收:获取用户的高层目标描述
    2. 任务规划:分析目标,生成初步执行计划
      • 任务分解:将复杂目标拆解为子任务
      • 依赖分析:确定子任务之间的顺序关系
      • 资源评估:确定完成各子任务所需的工具和信息
    3. 循环执行:进入"思考-行动-观察"循环
      • 选择当前最优子任务
      • 决定完成子任务的最佳方法(直接回答或工具调用)
      • 执行并获取结果
      • 评估结果,更新内部状态
      • 根据新信息调整后续计划
    4. 结果合成:整合各子任务结果,生成最终输出
    5. 反思学习:总结执行过程,识别可改进点

这种运行模式使解释型Agent具备处理高度不确定任务的能力,因为它可以根据执行过程中获取的新信息不断调整策略。

代码实例分析

以下是解释型Agent处理开放任务的简化伪代码示例:

# 解释型Agent的自主执行框架
class AutonomousAgent:
    def __init__(self):
        self.memory = Memory()  # 初始化记忆系统
        self.tools = ToolRegistry()  # 可用工具注册表
        self.llm = LargeLanguageModel()  # 底层语言模型
    
    def execute_task(self, goal_description):
        # 初始化任务状态
        task_state = {
            "goal": goal_description,
            "status": "in_progress",
            "steps_taken": [],
            "current_context": self.memory.get_relevant_context(goal_description)
        }
        
        # 生成初始计划
        plan = self.llm.generate_plan(
            goal=goal_description,
            context=task_state["current_context"]
        )
        
        # 执行循环
        while task_state["status"] == "in_progress":
            # 确定下一步行动
            next_action = self.llm.decide_next_action(
                plan=plan,
                task_state=task_state
            )
            
            # 执行行动
            if next_action["type"] == "tool_use":
                # 选择并使用工具
                tool = self.tools.get(next_action["tool_name"])
                result = tool.execute(next_action["parameters"])
            elif next_action["type"] == "direct_response":
                # 直接生成回应
                result = self.llm.generate_response(
                    task=task_state,
                    prompt=next_action["prompt"]
                )
            
            # 更新任务状态
            task_state["steps_taken"].append({
                "action": next_action,
                "result": result
            })
            
            # 更新记忆
            self.memory.store(
                action=next_action,
                result=result,
                task_id=task_state["id"]
            )
            
            # 评估任务状态
            task_state = self.llm.evaluate_progress(
                task_state=task_state,
                last_result=result
            )
            
            # 可能需要重新规划
            if task_state.get("needs_replanning"):
                plan = self.llm.refine_plan(
                    original_plan=plan,
                    task_state=task_state
                )
        
        # 生成最终结果
        final_output = self.llm.synthesize_results(task_state)
        return final_output

这段代码展示了解释型Agent的关键特征:目标驱动的规划、动态决策循环、工具选择与使用、记忆管理以及不断的自我评估和调整。与编译型Agent的固定路径不同,解释型Agent的执行路径是在运行时动态生成的,由LLM的判断和环境反馈共同决定。

解释型Agent的实现模式:立即执行vs驻留守护

解释型Agent根据任务持续时间和触发方式的不同,可以进一步分为两种实现模式:

立即执行型Agent

这类Agent接收任务后立即执行,完成后即结束存在:

    • 任务即时性:在单次会话中启动并完成
    • 用户监督:通常用户在线等待并可能提供额外指导
    • 资源临时占用:任务完成后释放所有计算资源
    • 状态短暂性:只在执行期间维持状态,不保留长期记忆

立即执行型Agent适合需要快速响应的任务,如数据分析、内容创作、问题排查等。用户可以全程监督Agent的工作并在必要时提供额外信息。

驻留守护型Agent

驻留守护型Agent是长期存在的"数字分身",能在用户不在场时自主执行任务:

    • 时延特征:指令与执行之间可能存在显著时间差
    • 多次特征:一次指令可能触发多次或持续性执行
    • 事件驱动:可以响应各种系统事件而非仅用户直接指令
    • 状态持久化:维护长期记忆和执行状态
    • 后台运行:无需用户持续在线监督

这类Agent需要特殊的运行时环境支持,包括状态持久化、事件监听、调度系统、虚拟机等,技术复杂度更高。它们适合长期监控任务、日程管理、资源优化等需要持续关注的场景。

多Agent协作系统

更复杂的解释型Agent实现可能采用多Agent协作架构,将不同功能分配给专业化的子Agent:

    • 规划Agent:负责整体策略和任务分解
    • 执行Agent:专注于具体任务的实施
    • 记忆Agent:管理系统的长短期记忆
    • 评估Agent:监控结果质量和目标完成度
    • 协调Agent:管理多Agent间的通信和协作

这种架构通过"分而治之"提高系统可靠性和性能,同时使整体系统更具可扩展性。不同Agent可以使用不同的底层模型,或者专注于不同的任务域,形成优势互补的协作网络。

应用场景与优劣势

解释型Agent最适合那些开放性、非确定性高的任务场景:

    • 研究与探索(deep research):收集和分析信息,生成见解和报告
    • 创意工作:内容创作、设计辅助、创意头脑风暴
    • 个人助理:日程管理、邮件分类、信息整合
    • 复杂决策支持:分析多源数据,提供决策建议
    • 学习辅导/面试:根据学生反应调整教学策略或主动提问和评估

优势

    • 适应性强:能处理环境变化和意外情况
    • 任务覆盖广:无需预设所有可能路径
    • 持续改进:能从经验中学习优化策略
    • 自主程度高:减少人工干预和监督
    • 长尾场景覆盖:能应对小概率、未预见的情况

局限性

    • 可靠性挑战:行为不完全可预测,可能出现意外结果
    • 资源消耗大:需要持续的计算资源支持推断
    • 安全风险:自主决策可能导致越权或错误行为
    • 开发复杂:架构设计和实现难度高
    • 测试困难:难以全面测试所有可能的行为路径

典型产品案例:Manus

Manus作为"全球首款通用AI Agent",采用了典型的解释型架构。从它的demo及其相关资料看,它的核心特性包括:

    • 多Agent协同:规划Agent负责任务分解和策略制定,执行Agent实施具体操作,验证Agent评估结果质量
    • 全流程自主执行:从任务理解到结果交付的完整自主流程
    • 跨平台执行引擎:集成RAG、浏览器自动化、RPA工具和API调用等多种执行能力
    • 复杂任务处理:能独立完成如简历筛选、市场分析等需要多步骤推理的任务

Manus支持云端异步执行,允许用户关闭设备后仍继续工作,但它仍缺乏持续监听环境变化并主动采取行动的机制。真正的驻留守护型Agent(如智能家居管家、长期个人助理等)仍处于早期发展阶段,面临资源管理、安全控制等一系列技术挑战。

四、接口设计:Agent与世界的交互方式

Agent要发挥作用,必须能与外部世界进行有效交互。接口设计直接影响Agent的能力边界和适用场景,主要分为"万能接口"和"专用接口"两种策略,各有优劣。

万能接口:计算机界面模拟

万能接口策略让Agent通过模拟人类使用计算机的方式与各种应用程序交互,主要包括:

    1. 屏幕理解技术
      • 计算机视觉模型分析屏幕内容
      • UI元素识别和语义理解
      • 页面结构和层次关系解析
    2. 人机交互模拟
      • 精确的鼠标定位和操作(点击、拖拽、滚动)
      • 键盘事件生成(输入、快捷键、组合键)
      • 交互时序控制(等待加载、动画完成)
      • 手势和多点触控模拟(移动设备)
    3. 反馈处理机制
      • 操作结果验证(成功/失败判断)
      • 异常状态识别(错误消息、警告)
      • 自适应重试策略
      • 交互序列修正

万能接口的核心价值在于其通用性:理论上,任何人类能通过图形界面操作的软件,Agent都可以通过这种方式使用,无需专门的API集成。这使得Agent能跨越不同软件生态系统的边界,处理包括legacy系统在内的各种新老应用。

然而,万能接口也面临显著挑战:

    • 可靠性问题:对界面变化高度敏感,UI更新可能导致操作失败
    • 性能瓶颈:视觉处理和交互模拟比直接API调用慢得多
    • 精度限制:复杂界面元素识别可能出错
    • 安全限制:许多现代应用实施反自动化措施
    • 资源消耗高:需要持续的计算资源进行屏幕分析

以Manus为代表的先进Agent采用万能接口作为核心能力之一,通过计算机视觉和交互模拟来操作各种应用程序。这使它能够执行从文件管理到复杂软件操作的广泛任务,实现真正的"见人所见,为人所为"。

专用接口:API直接调用

专用接口策略通过标准化的API与特定应用或服务集成,主要包括:

    1. API调用框架
      • REST/GraphQL客户端
      • SDK集成
      • WebSocket连接
      • 微服务通信
    2. 数据处理能力
      • 结构化数据序列化/反序列化
      • 格式转换和验证
      • 模式匹配和字段映射
      • 错误和异常处理
    3. 安全与认证
      • 多种认证方式支持(OAuth, API密钥等)
      • 权限范围控制
      • 安全通信加密
      • 访问审计

专用接口的优势在于其可靠性和效率

    • 直接与应用后端通信,不受UI变化影响
    • 数据交换格式明确,减少理解错误
    • 执行速度快,资源消耗低
    • 权限边界清晰,安全性更高
    • 支持细粒度操作和批量处理

然而,专用接口的局限性也很明显:

    • 需要为每个目标系统单独开发集成
    • 受限于API提供者的功能开放程度
    • 对未提供API的系统无能为力
    • 需要管理多种认证凭证和访问令牌
    • 接口变更时需要同步更新Agent

内化的威胁:接口选择的战略考量

接口选择不仅是技术问题,也是战略问题。尤其是"内化"风险——平台方将某项功能直接整合为自身能力,从而碾压和平替外部Agent的价值。

万能接口面临的内化风险

    • 通用性导致替代门槛低
    • 平台可轻松复制相同功能
    • 操作系统可能加入原生自动化能力
    • 缺乏独特数据或专有算法护城河

专用接口的防御策略

    • 深度垂直行业集成建立壁垒
    • 获取专有API授权形成排他性
    • 整合公私多源数据创造独特价值
    • 针对特定领域定制专业模型和算法

从战略角度看,成功的Agent产品需要平衡通用能力与垂直专精。纯粹依赖万能接口的通用Agent可能面临平台方直接集成同类功能的威胁;而深度集成特定领域API和专有数据的垂直Agent则能构建更持久的竞争优势。

垂直领域集约化与长尾应用并存

从生态系统角度看,Agent技术可能同时催生两种趋势:

    1. 垂直领域集约化
      • 金融、医疗、法律等专业领域形成深度优化的垂直Agent
      • 行业巨头将Agent作为核心能力整合进现有产品线
      • 专业垂直Agent深度集成行业知识和工作流程
    2. 长尾需求满足
      • 万能接口Agent满足长尾需求
      • 通用Agent平台允许用户自定义自动化场景
      • "Agent App Store"生态兴起,共享特定场景的Agent

这两种趋势并非相互排斥,而是相互补充。专业领域需要深度集成和定制化,而长尾需求则需要足够通用和灵活的Agent平台。未来的Agent生态可能呈现"双轨并行"的格局:垂直专业化的Agent服务高价值、高合规性需求;通用灵活的Agent平台满足多元化、个性化长尾场景。

接口标准化的未来趋势

随着Agent技术的成熟,接口设计可能朝着更高层次的标准化发展,标准制定权会落在 agent 狂潮中的引路者手中:

    1. Agent通用接口协议
      • 跨平台的Agent标准
      • 类似于API接口的统一描述语言
      • 安全的Agent间通信协议
    2. Agent友好型应用设计
      • 语义化UI元素便于Agent理解
      • "Agent模式"的标准化界面
      • 对Agent行为的反馈机制

这种标准化将极大降低Agent开发和使用的门槛,推动其在各行各业的普及,最终形成一个开放、互联的Agent生态系统。

五、LLM-native Agent的核心技术挑战

尽管Agent技术展现出巨大潜力,但其全面落地仍面临一系列核心技术挑战。理解并解决这些挑战是推动Agent从实验走向实用的关键。

概率性与确定性需求的根本矛盾

LLM-native Agent面临的首要挑战是其内在概率性与实际应用确定性需求之间的矛盾:

    1. 概率采样的不确定性
      • LLM的输出本质上是对概率分布的采样
      • 相同输入可能产生不同输出
      • 随机性导致行为不完全可复现
      • 无法保证百分百稳定的决策
    2. 实际应用的确定性需求
      • 企业级应用要求结果可预测
      • 关键操作需要一致的决策逻辑
      • 合规场景需要可审计的行为链
      • 用户期望相似情况下得到相似响应

这一矛盾的存在使得LLM-native Agent在关键任务和高风险场景中的应用受到限制。目前的主要缓解策略包括:

    • 多次采样:对重要决策进行多次采样,采用投票制或其他多路径选优(例如 beam search)方法
    • 温度控制:通过调整采样温度在创造性和确定性间寻找平衡
    • 验证机制:增加独立验证步骤,确保输出符合预期标准

然而,这些策略只能部分缓解而非根本解决问题。长期来看,可能需要在模型架构层面进行创新乃至范式转变。

长程依赖与错误累积

Agent执行复杂多步骤任务时,面临长程依赖与错误累积问题:

    1. 长程依赖挑战
      • 跨多步骤保持目标一致性
      • 前后决策逻辑自洽
      • 长时间执行过程中维持状态
      • 处理远距离信息相关性
    2. 错误累积效应
      • 多步骤任务成功率随步骤增加而下降
      • 不完美决策的连锁反应
      • 执行偏离轨道后难以自动纠正

解决这些挑战的技术方向包括:

    • 分层规划与监控:高层计划指导低层执行,定期重新评估整体进度
    • 检查点与中间验证:关键节点设置验证逻辑,及时发现偏差
    • 自我反思机制:Agent定期回顾已执行步骤,评估是否符合目标
    • 专家干预设计:在复杂决策点预留人类专家干预的机会
    • 记忆优化:改进对关键信息的长期保留和重要性判断

这些技术不仅能提高Agent的任务完成可靠性,也能增强其处理长序列任务的能力,使其能够执行更加复杂和持久的工作流程。

计算资源与延迟问题

解释型Agent特别是运行时高度依赖LLM推理的系统,面临严峻的计算资源和延迟挑战:

    1. 计算资源消耗
      • LLM推理需要大量计算资源
      • 多步骤决策需要频繁调用模型
      • 长期运行面临资源累积压力
      • 多Agent协作倍增资源需求
    2. 响应延迟问题
      • 模型推理时间导致决策延迟
      • 工具调用和环境交互增加总延迟
      • 复杂任务的累积延迟降低用户体验
      • 实时性要求与推断时间的矛盾

这些问题直接影响Agent的可用性和经济可行性。可能的解决方向包括:

    • 模型蒸馏与量化:为特定任务优化的轻量级模型
    • 推断优化:推断引擎优化、批处理技术、硬件加速
    • 分层决策架构:简单决策使用轻量模型,复杂决策才用大模型
    • 预计算与缓存:常见决策路径预计算并缓存
    • 本地化部署:敏感或高频场景采用边缘部署

随着专用AI硬件和优化技术的发展,这些挑战有望得到缓解,使Agent技术在更广泛的场景中变得实用和经济可行。

安全、隐私与伦理问题

Agent技术的快速发展也带来一系列安全、隐私和伦理挑战:

    1. 安全风险
      • 权限边界控制
      • 防止恶意利用和攻击
      • 系统资源保护
      • 潜在的破坏性行为预防
    2. 隐私问题
      • 敏感数据处理和存储
      • 跨境数据合规
      • 用户同意与知情权
      • 记忆系统的隐私保护
    3. 伦理挑战
      • 决策偏见与公平性
      • 责任归属问题
      • 透明度与可解释性
      • 人机关系的界定

解决这些问题需要技术与政策的共同进步:

    • 安全沙箱:Agent运行在受控环境中,限制可能的危险行为
    • 运行时监控:实时监控Agent行为,检测异常模式
    • 差分隐私:保护个人数据的同时保留有用信息
    • 本地处理:敏感数据仅在本地设备处理,不传输到云端
    • 可解释性工具:帮助用户理解Agent决策过程和依据
    • 伦理准则:为Agent设计和使用制定明确的伦理框架

随着Agent技术走向主流,这些安全、隐私和伦理考量将变得愈发重要,需要技术社区、政策制定者和用户共同参与解决。

六、Agent元年:2025年技术生态的临界点

Agent技术生态已达到爆发的临界点,2025年被业内称为"Agent元年"绝非偶然。尽管Agent概念的探索早在一年多前就已开始,但从技术基础设施的角度看,直到近期,支撑Agent发展的关键组件才真正就位,形成了一个完整的技术栈。

基础设施完备:Agent技术腾飞的基石

Agent技术的突破性发展得益于以下核心技术组件的成熟:

    1. 超长上下文模型的出现:从最初的几千token到现在的数十万甚至百万token,这一突破使Agent能够维持复杂的工作记忆,处理长时间任务并保持上下文连贯性。大型语言模型的上下文窗口扩展,为Agent提供了"工作记忆"的基础设施,使其能够在复杂任务执行过程中保持连贯的理解和推理。
    2. 推理模型的革命性进展:2024年底推理模型的推出是Agent技术发展的关键里程碑。从简单的Chain-of-Thought到更复杂的Tree-of-Thought,再到具备自我反思能力的推理架构,这些进展使模型能够进行更精确的多步推理,解决复杂问题,并进行有效的任务规划。推理能力的质变,使Agent从简单的指令执行者转变为深思熟虑的问题解决者。
    3. 多模态理解能力的整合:现代Agent不仅能处理文本,还能理解和生成图像、分析视觉界面、处理结构化数据等。这种多模态能力拓展了Agent的感知范围,使其能够与视觉界面交互、理解图表和文档,在更真实的信息环境中运作。
    4. 工具使用框架的标准化:Function Calling、Tool Use等接口的规范化,例如 MCP(Model Context Protocol,模型上下文协议)的建立,使Agent能够一致地与各种API和外部服务交互。这类标准化大大降低了Agent集成外部功能的难度,为"工具使用型Agent"生态的发展铺平了道路。
    5. Computer Use能力的突破:使Agent能像人类一样操作计算机界面的技术取得了关键性进展。屏幕内容理解、交互操作模拟、状态感知等能力的提升,使Agent能够突破API的限制,操作几乎任何有图形界面的软件。
    6. Agent运行时环境的成熟:专为Agent设计的运行时环境开始出现,解决了状态管理、任务协调、资源调度等关键问题。这些基础设施为Agent的稳定运行和长期任务执行提供了必要支持。

这些技术组件的融合,创造了一个支持Agent完成"感知-思考-行动"闭环的完整技术栈,标志着从概念验证阶段向实用化阶段的转变。

从史前探索到成熟应用

Agent技术的发展历程可分为三个明显阶段:

    1. 初代Agent(2022-2023):主要是简单的聊天机器人或专用助手,缺乏实际执行能力。这一阶段的代表是OpenAI的GPT Store和早期的专业领域chatbot,它们虽然被称为"GPT"或"Agent",但本质上仍是对话机器人chatbot的变体,属于agent的初级阶段。
    2. 过渡阶段(2023-2024):开始集成外部工具和API,但能力有限,主要关注"Agent开发平台"(即"鸡")而非Agent本身("蛋")。这一阶段的产品强调开发环境和框架,具有一定的自然语言编程能力,而非端到端的自主Agent解决方案。
    3. 成熟期(2025-):核心技术组件齐备,Agent开始展现真正的自主执行能力、环境感知能力和决策能力,从实验室产品走向实用化阶段。代表性产品如Manus和Deep Research展示了Agent完成复杂任务的能力,标志着Agent技术进入应用爆发期。

这一演进过程反映了从"能对话"到"能思考"再到"能行动"的质变,2025年作为Agent元年,正是因为技术基础设施的完备使得"能行动"的智能体成为现实。

市场格局与竞争战略

随着技术基础设施的完善,Agent市场呈现出明显的战略分化:

    1. 通用Agent战略:以Manus为代表的通用Agent尝试打造"全能型数字助手",横跨多种应用场景,提供统一的用户体验。这类产品的价值主张是降低用户在多个系统间切换的成本,提供一站式智能服务。然而,这条路线面临被大模型厂商直接集成相关功能而"碾压"的风险。但是,鉴于模型公司与应用公司需要不同的技术基因和人才配比,在LLM应用红海遨游的通用agent赛道,与大模型赛道平行,应该可以容纳一些独角兽甚至巨无霸的。
    2. 垂直Agent战略:专注特定行业或场景的专业化Agent,通过深度整合领域知识和专业工具构建竞争壁垒。从金融分析师、法律助理到医疗智能助理,垂直Agent通过专业化赢得特定领域的市场认可。

这种市场分化反映了技术路径的差异,也代表了不同的商业模式和市场定位。通用Agent依靠灵活性和广泛适用性获取用户;垂直Agent则通过深度专业化和场景优化创造溢价空间。

Agent技术的社会影响与未来展望

Agent技术的广泛应用将带来深远的社会经济影响:

    1. 知识工作自动化加速:Agent技术将使许多知识工作者的角色从"执行者"转变为"监督者",大量重复性认知任务将被自动化。
    2. 人机协作模式重构:工作流程将围绕"人类战略思考+Agent执行"的新模式重组,改变组织结构和工作分工。
    3. 隐私与安全挑战加剧:Agent广泛接入各系统带来的安全风险和隐私挑战需要新的治理框架。

展望未来,Agent技术可能沿着以下方向继续演进:

    1. 物理世界的延伸:Agent与机器人技术结合,将能力从数字世界扩展到物理环境。
    2. 自我优化Agent:能够自我评估、学习和改进的Agent系统,逐步减少人工干预。
    3. 复杂Agent网络:多个专业Agent形成协作网络,共同完成超出单个Agent能力的任务。
    4. 个性化数字分身:每个人拥有专属的长期Agent,它深度了解用户偏好和行为模式,成为真正意义上的"数字分身"。

七、结论:编译与解释的辩证统一

通过对Agent技术架构的深度剖析,我们认识到编译型与解释型并非简单对立的范式,而是反映了不同应用场景下的技术权衡。两种架构各自的优势与局限性决定了它们的适用场景:编译型Agent在确定性、可控性和效率方面表现出色;解释型Agent则在灵活性、自适应性和创造性方面具有优势。

随着技术的发展,二者的界限正在变得模糊,一种兼具编译型的可靠性与解释型的灵活性的混合架构正在形成。这种混合架构不仅反映了技术的自然演化,也代表了解决实际问题的更实用方法。通过在系统的不同层次和功能点上有机集成确定性和 best practice,混合架构Agent能够在确保核心功能可靠性的同时,灵活应对变化和不确定性。

同时,我们也认识到LLM-native Agent所体现的"概率编译+约束解释"的混合计算范式,不同于传统的编译型或解释型程序,它是一种全新的计算模型。这种模型在固定参数的约束下保持了采样的随机性,既有确定性结构又有创造性表现,为我们理解和设计下一代智能系统提供了新的视角。

Agent技术的发展正处于从"实验室探索"向"实用化落地"转变的关键时期。2025年作为"Agent元年",标志着技术基础设施的完备和市场应用的起点。在这一新兴领域,技术创新与商业模式的探索将并行展开,推动Agent从概念走向现实,改变人类与数字世界的交互方式。

随着Agent技术的成熟,我们将迎来人机协作的新范式:人类专注于创造性思考、战略决策和情感连接等高价值活动,而将具体任务执行交给Agent处理。这不是简单的工作替代,而是能力互补—人类提供目标和价值判断,Agent提供执行力和一致性。

展望未来,我们有理由期待Agent技术的持续发展将带来生产力的全面升级,开创一个人类与智能系统合作的新时代。这场从"可询问的知识"到"可执行的智能"的范式转变,不仅是技术的飞跃,更是人类与人工智能关系的重新定义。

 

【相关】

o3 deep research: LLM 驱动的 Agent 综述

引言

大型语言模型(LLM)的崛起在过去几年引发了人工智能领域的飞跃式发展。尤其是 2022 年底 OpenAI 推出的 ChatGPT,短短两个月内月活用户就突破一亿,成为史上用户增长最快的消费者应用 (ChatGPT sets record for fastest-growing user base - analyst note | Reuters)。ChatGPT 所展现的强大自然语言对话和内容生成能力,如一场“核爆”引发全球对于通用人工智能的极大关注,各行各业开始思考如何将这类大模型应用到实际业务中。紧随其后,OpenAI 发布了更先进的 GPT-4 模型,能够理解更复杂的指令,并支持图像等多模态输入。这场由 ChatGPT 引领的LLM浪潮,不仅催生了大量类似产品和开源模型,也让“ AI 更自主地完成复杂任务”成为下一个技术探索热点。在这种背景下,由 LLM 驱动的 Agent(智能代理)概念逐渐兴起,成为 AI 技术爱好者和产业从业者共同关注的前沿方向。

从 Copilot 到 Agent:概念演进

Copilot(协作助手)与Agent(智能代理)是近期 AI 应用发展的两个重要概念。二者在定位和功能上有差异:Copilot一般指能够辅助人类完成任务的智能助手,它与用户并肩工作,在人类指令下提供建议、自动化部分流程,但始终由人来掌控最终决策 (AI Co-Pilot vs Agentic AI – Key Differences)。例如,GitHub Copilot 可以根据开发者当前的代码上下文自动补全代码片段,但不会自行决定要编写哪个功能;微软 Office Copilot 能帮助撰写文档或生成幻灯片,也是根据用户提示进行内容生成。本质上,Copilot 更像是人类的副驾驶,增强人类能力但不取代人做主导。

与此相对,Agent(智能代理,智能体)则代表了一种更加自主的 AI 系统。Agent可以在给定高层目标后自主决策下一步行动,具备自主规划和任务执行能力 (What is an AI Copilot? How is It Different From an AI Agent?) (AI Co-Pilot vs Agentic AI – Key Differences)。智能代理不仅能像 Copilot 那样提供建议,还能在必要时自行调用工具、执行操作,完成整个任务流程,而只需较少的人为干预 (What is an AI Copilot? How is It Different From an AI Agent?) (What is an AI Copilot? How is It Different From an AI Agent?)。一句话,Agent更强调全流程的任务负责:从理解目标、制定计划、执行步骤、到最终达成目标,均可由 AI 系统自主完成 (AI Co-Pilot vs Agentic AI – Key Differences)。例如一些自主代理可以根据用户的一个高阶指令(如“帮我规划一次欧洲旅行”),自己上网搜索信息、调用日历和邮件 API 安排行程,最后给出完整的旅行计划。这样的自主性是 Copilot 所不具备的。可以说,Copilot 是在人类驾驶下的辅助,而 Agent 更接近一种自主驾驶的 AI。正因如此,Agent 被视为 AI 应用形态的下一步演进,能释放 AI 更大的潜力。

需要指出的是,Agent 并不是全新的概念。在经典 AI 文献中,“智能体”概念由来已久,只是以前的智能体往往采用规则算法或狭窄AI,而如今的 Agent 则借助 LLM 的通用智能和推理能力,实现了以自然语言为思维和行动媒介的自主智能体 (Introduction to LLM Agents | NVIDIA Technical Blog)。

LLM 驱动的 Agent在2023年随着 AutoGPT、BabyAGI 等agent早期开源项目而进入大众视野 (Introduction to LLM Agents | NVIDIA Technical Blog)。这些系统展示了在几乎无人干预下,AI 代理可以基于一个开放目标,不断生成行动方案、调用工具执行、并迭代调整,最终完成复杂的问题求解。这标志着从 Copilot 到 Agent 的理念飞跃:AI 不只是辅助,而是开始展现出一定程度的自主性和连续决策能力。下一节我们将深入剖析,实现这种自主智能代理所需的核心技术能力。

Agent 关键技术能力

要让 LLM 驱动的 Agent 真正拥有自主解决问题的能力,背后涉及多项关键技术和架构设计。本节将从Agentic Flow(代理流程)工具使用(API 调用与计算机操作)自主规划以及多模态能力四方面解析智能代理的核心能力。

Agentic Flow:智能代理流程

Figure 1. General components of an agent

LLM智能代理的一般架构示意图(made by ChatGPT o3)

Agent接收用户请求(目标),经由中心的“Agent Core”协调记忆模块、规划模块和工具执行等组件,最终产生对用户的回应或实际行动结果。如图所示,Agent Core(代理核心)是大脑,负责总体决策和流程控制;它一方面与用户需求和长期/短期记忆交互,另一方面调用规划模块来分解任务并选择合适的工具执行 (Introduction to LLM Agents | NVIDIA Technical Blog) (Introduction to LLM Agents | NVIDIA Technical Blog)。

典型的代理流程如下:首先,Agent 读取用户指令和当前上下文,将其转化为内部的目标表示;然后通过Reasoning(推理)过程思考如何完成任务,可能将大任务分解为子任务;接下来进入Planning(规划)和Decision(决策)阶段,确定需要调用的工具或采取的行动序列;随后,Agent执行具体Action(行动)例如调用某个API或函数、检索信息等,并观察获得的结果 (Plan-and-Execute Agents);Agent 将观察结果存入记忆或用于更新下一步策略,如此在“思考-行动-观察”的循环(即 Agentic Loop)中不断迭代,直到达到任务目标或满足终止条件 (Plan-and-Execute Agents)。

在整个过程中,LLM 充当了核心推理引擎,结合提示(Prompts)来决定每一步该做什么。相比简单的一问一答式对话,这种 Agentic Flow 使得 AI 可以多步连贯地处理复杂任务,正如人类解决问题时需要反复思考、尝试、纠正一样。为了支持这一流程,Agent 通常需要配套短期记忆(记录当前对话和思考链)和长期记忆(存储长期知识或历史),以确保决策具有连贯性和智能性 (Introduction to LLM Agents | NVIDIA Technical Blog) (Introduction to LLM Agents | NVIDIA Technical Blog)。通过精心设计提示和上下文,LLM Agent 可以在这种循环中保持方向感,不断朝着最终目标逼近。

工具使用与计算机操作

赋予 Agent 行动能力的关键是在需要时调用外部工具或执行计算机操作的能力。这通常通过为 LLM 提供插件接口、API 调用权限甚至直接的计算机操作权限来实现。当仅靠语言模型自身难以完成任务时,Agent 可以调用预先定义的一系列工具,例如访问网络API、数据库查询、运行代码、控制第三方应用等 (Introduction to LLM Agents | NVIDIA Technical Blog)。

OpenAI 的 ChatGPT 插件和函数调用机制就是让模型产生特定格式的输出以调用工具函数,从而查询实时信息或执行计算任务。例如,当用户问天气如何,Agent 可以调用天气API获取实时数据;又如面对复杂的算术或数据分析任务,Agent 可调用 Python 代码执行并返回结果。这种Tool Use能力极大拓展了 Agent 的能力边界,使其不仅能“思考”,还能真正“动手”。

目前常见的工具类型包括:搜索引擎(用于信息检索)、知识库/RAG检索(基于向量数据库查资料)、浏览器(访问网页)、编程解释器(执行计算和代码逻辑)等 (Introduction to LLM Agents | NVIDIA Technical Blog)。一些 Agent 框架还结合了传统的RPA(机器人流程自动化)技术,使LLM能够控制鼠标键盘去操作应用界面,实现如自动表单填写、跨系统数据搬移等复杂操作流程。需要注意的是,在调用工具时,Agent 必须先通过决策模块判断何时需要工具以及选择何种工具,这通常由LLM根据当前任务状态和预设的工具列表自主决定 (Agents | Mistral AI Large Language Models)。因此,工具使用能力依赖于LLM对自身能力边界的“自知”,知道何时该借助外力。总体而言,让Agent学会用工具,就像教会AI使用人类的双手和眼睛,它是实现从语言到行动的桥梁,也是当前Agent技术最具实用价值的方面之一。

自主规划与决策

自主规划(Planning)是智能代理得以自主完成复杂任务的核心支柱。LLM 通过连贯的推理,可以对给定目标进行分解和计划:将复杂任务拆解成更小的子任务,确定执行顺序,并动态调整策略 (Introduction to LLM Agents | NVIDIA Technical Blog)。

早期的 Agent 实现(如 ReAct)采用逐步推理,每一步只考虑当前可以采取的一个动作 (Plan-and-Execute Agents);而更先进的方法则引入了显式的规划步骤,例如先让LLM输出一个完整计划再逐一执行 (Plan-and-Execute Agents)。

自主规划能力使Agent在面对开放式目标时能够有条理地前进,而不至于漫无目的或陷入死循环。此外,决策优化与自主推理也是近年来的研究重点。一种称为“自我反思(Reflection)”或“自我批评(Critic)”的技术被引入,让Agent在行动过程中审视自己的思路和结果,发现偏差并加以修正 (Introduction to LLM Agents | NVIDIA Technical Blog)。比如,Agent 执行一系列步骤后可以调用内部的“Critic”模型来检查当前方案是否走偏,从而避免一直沿着错误方向行动。这类似于人类在解决问题时停下来反思。目前一些实验表明,加入反思循环的Agent在复杂推理任务上的成功率明显提升。

另一个趋势是引入树状思维(Tree-of-Thoughts)等算法,让LLM能在内部探索多个解题路径并比较选择最佳方案,而非贪婪地逐步生成。总体看来,自主规划与决策能力的不断增强,正让Agent变得越来越善于长程思考和自主纠错,从而胜任更复杂、更开放的任务场景。

多模态理解与处理能力

人类智能的重要体现是可以综合运用多种感官信息;类似地,智能代理也正朝着多模态(Multimodal)方向发展。传统的 LLM 只处理文本,而多模态 LLM Agent 可以同时理解和生成包括图像、音频、视频在内的多种数据形式 (Gemini - Google DeepMind) (Google Gemini and LLMs: A New Frontier for Multimodal AI - Medium)。

具备多模态能力的 Agent 意味着它不仅能“读”文本,还能“看”图、“听”声,从而在更多元的任务中大显身手。典型例子是 OpenAI 的 GPT-4 已支持图像输入,可以根据一张图片回答问题或描述内容 (Introducing Gemini 2.0: our new AI model for the agentic era - Reddit);Google 最新发布的 Gemini 模型更是从架构上原生支持多模态,在训练时就融合了文本、代码、图像、音频、视频等不同模态的数据,从而具备跨模态的推理能力 (Introducing Gemini: Google’s most capable AI model yet) (Introducing Gemini: Google’s most capable AI model yet)。

多模态Agent能够执行如下任务:根据照片内容回答用户问题、观看一段监控视频后给出分析报告、听取语音指令并执行任务。这样的能力在实际应用中非常关键:例如在医疗领域,Agent可以同时阅读医学影像和医生的文字记录来提供诊断支持;在客服场景中,Agent可以查看用户上传的截图来判断问题所在。需要注意,多模态并不止于感知输入,Agent 也可以生成多模态输出,例如生成图片或语音。这通常通过将LLM与扩展模型(如扩散图像生成模型、文本转语音模型)结合实现。得益于多模态能力,LLM Agent 正在从“语言专家”成长为“全能型AI”。

多模态 LLM Agent 可接受音频、文本、图像、视频等多种输入,并以多模态配合的形式给出综合输出 (Understanding Multimodal LLMs - by Sebastian Raschka, PhD) (Understanding Multimodal LLMs - by Sebastian Raschka, PhD)。例如,用户给出一张物品照片并询问“这是什么?它有什么用途?”,多模态 Agent 能够先识别图像内容(如图中电话机),再结合知识以文本回答其功能。综合来看,多模态能力将大幅拓展 Agent 在真实世界场景中的适用性,使其更加接近人类智能的广度。

行业案例分析

随着 LLM 和 Agent 技术的演进,产业界涌现出多个具有代表性的应用和探索案例。以下将分析几家领先企业的进展以及垂直行业中的专用 Agent 应用。

OpenAI(GPT-4 Turbo):作为引爆本轮热潮的OpenAI,在Agent方面的布局主要体现在为其通用模型赋能工具使用和多模态能力上。GPT-4 Turbo 是 OpenAI 在 2024 年底推出的改进版模型,不仅大幅扩充了上下文窗口,还原生支持图像输入和语音输出,实现真正意义上的多模态 (OpenAI Announce GPT-4 Turbo With Vision: What We Know So Far)。更重要的是,OpenAI为GPT系列模型引入了函数调用和插件机制,使ChatGPT从一个纯语言对话助手升级为具备Agent雏形的系统。借助函数调用,开发者可以预先定义工具接口,让GPT在回答问题时自动调用这些工具,获取实时结果再返回给用户。这一能力已经在ChatGPT插件中得到验证,例如Browsing插件让GPT能上网搜索,Code Interpreter插件让其能运行代码并返回结果。OpenAI官方将这套能力称为“扩展GPT的眼界和手脚”,使其可以访问外部信息源并执行操作 (Introduction to LLM Agents | NVIDIA Technical Blog)。可以说,OpenAI 正在把ChatGPT由一个静态问答模型,转变为一个可执行复杂任务的平台型智能代理

目前,GPT-4 已被广泛用于开发各种自主代理实验,如开源的 Auto-GPT 就是基于 GPT-4 API 实现,让 AI 连续自主执行用户给定目标的一系列操作。这些探索也反过来推动OpenAI不断改进其模型的可靠性和自主决策能力。因此,OpenAI 在Agent领域的显著特点是:以通用大模型为核心,通过插件和API扩展实现代理功能,并逐步增强模型的推理和多模态表现,为各行业构建AI代理打下基础。OpenAI 最新的智能体表现是基于其推理模型o3的 Deep Research 功能,可以就任何题目自动搜寻资料、研读并汇总融合成全面完整、信息可追溯的综述性调查报告。(本文就是 o3 deep research 完成。

Google Gemini:作为谷歌与DeepMind融合后的产物,Gemini 被定位为面向“代理时代”的下一代大模型 (Introducing Gemini 2.0: our new AI model for the agentic era)。

根据Google官方介绍,Gemini从一开始就按多模态通用智能来设计,能够无缝理解和生成文本、代码、图像、音频、视频等多种模态数据 (Introducing Gemini: Google’s most capable AI model yet)。Gemini在2024年底发布的版本很快取得各类基准测试的领先成绩,展现出卓越的推理和问题求解能力 (Introducing Gemini: Google’s most capable AI model yet) (Introducing Gemini: Google’s most capable AI model yet)。相比前代的PaLM或GPT系列,Gemini的一大亮点是其原生的代理能力。Google在介绍中提到,Gemini不仅擅长对话和问答,还能用于驱动各种AI Agent应用,例如作为机器人控制的“大脑”或复杂软件的自动化脚本助手 (Gemini - Google DeepMind)。DeepMind更展示了一个名为Astra的研究原型,体现Gemini如何作为通用AI助手在多任务环境中充当智能代理 (Gemini - Google DeepMind)。

Google正将Gemini融入其生态系统(如 GCP 云服务等),为开发者提供强大的平台来构建各类智能代理。从某种意义上说,Gemini体现了行业对于“一个模型搞定一切”的追求:既是强大的LLM,又天生适配多模态Agent场景,被誉为谷歌迈向AGI(通用人工智能)愿景的重要一步。

Mistral AI:这是一家崛起于欧洲的开源大模型创业公司,尽管成立不久却在Agent领域引人注目。2023年,Mistral发布了参数规模仅7B的开源模型 Mistral 7B,以小巧模型实现媲美更大型号的性能,展示了高效模型的潜力。更值得关注的是,Mistral AI 正在构建一个完整的平台,帮助用户定制和部署专用的AI代理 (Mistral AI Agent - AI Agent Review, Features & Alternatives (2025))。其官方文档提供了易用的 Agent 创建接口,支持通过简单的高层指令和示例来配置代理行为 (Agents | Mistral AI Large Language Models) (Agents | Mistral AI Large Language Models)。开发者既可以使用 Mistral 提供的 Web 界面拖拽组件生成 Agent,也可通过编程使用其 Agents API 将智能代理集成进自身应用 (Agents | Mistral AI Large Language Models)。Mistral 强调其代理能够利用公司内的专有模型(如精调后的领域模型)以及连接企业自有数据源,打造定制化的企业 AI 助手 (Agents | Mistral AI Large Language Models)。例如,一家金融机构可以用 Mistral 平台快速创建一个熟悉本行内法规和数据的AI代理,帮助完成合规检查和报告生成等任务。

作为开源力量的代表,Mistral AI 正把尖端的LLM能力平民化,让各行业的团队都能“掌控未来”,将大模型部署在自己的环境中 (Mistral AI | Frontier AI in your hands)。其背后的趋势是:开源高效模型 + 易用代理开发平台,为垂直领域AI代理的诞生提供了肥沃土壤。这也为大模型生态引入更多创新和竞争,促进整个Agent技术的成熟。

垂直行业专用 Agent:除了通用模型公司,许多领域也在开发专业的智能代理,以满足行业特定需求。例如在金融领域,一些 AI 代理可以连接实时行情和企业财务数据库,帮助分析海量金融数据、生成投资报告,甚至给出个性化的投资建议 (Applications of LLM Agents in various industries)。它们还能自动执行例行的合规审查、风险评估等任务,大幅提高运营效率 (Applications of LLM Agents in various industries)。又如在医疗领域,有医疗智库开发了医生助手Agent,能辅助医生检索最新医学文献、根据患者病历提供诊断支持 (Applications of LLM Agents in various industries)。它可以读取患者的症状描述和检查报告,然后查询知识库给出可能的诊疗方案建议。在法律行业,一些法律科技公司推出了法律Agent,可以快速查找相关案例法条、起草法律文件甚至为律师的辩论准备要点。大型律师事务所开始试用这类工具来提升工作效率。在客服服务领域,采用LLM的智能客服Agent已经相对成熟,不仅能回答FAQ,还能处理复杂问题、根据上下文调取用户历史进行个性化响应 (Applications of LLM Agents in various industries) (Applications of LLM Agents in various industries)。

总的来说,各垂直行业的专用Agent往往结合了领域知识图谱和行业数据,使其在专业任务上更加可靠。通用大模型提供“大脑”,行业数据赋予“场景知识”,再加上工具接口实现行动,这成为许多行业解决方案的典型架构。可以预见,随着LLM成本降低和定制手段增多,各行各业都会培育出自己的“AI代理”,就像如今几乎每个行业都有专用的软件系统一样。

以上大厂和新创主要是提供基于大模型的专用智能体构建平台,对于终端使用者,智能体构建的 agents 与传统 apps 没有不同,但内部的差异表现在:1. agents 是 LLM-native,就是说智能体apps,背靠大模型,天然具有语言能力,典型表现在自然语言的用户接口上; 2. 智能体平台开发的 agents 无需工程师编码,而是通过自然语言指令让大模型编程实现,这为 agents 的涌现创造了条件。

2025 年 Agent 发展趋势

展望未来,LLM 驱动的智能代理技术在 2025 年及以后有几大值得期待的发展方向:

1. 多Agent协作与自治体系:目前大多数Agent还是单体在工作,而未来复杂任务可能需要多个智能体分工合作

多Agent系统的理念是构建一个“AI团队”,让不同专长的Agent各司其职,通过通信协作完成单个Agent无法胜任的复杂目标 (Multi Agent LLM Systems: GenAI Special Forces) (Multi Agent LLM Systems: GenAI Special Forces)。例如,一个软件工程Agent团队可以包括架构设计Agent、编码Agent、测试Agent,它们相互交流检查,从而自动完成一整个软件项目。

多Agent协作也意味着需要一个调度或仲裁机制(如元代理或“首席Agent”)来分配任务、整合结果。研究者已在探索让一个主Agent对任务进行分解(Task Decomposition),并启动多个子Agent分别解决子问题,最后汇总答案的框架。这类似于人类的项目管理和团队合作,只不过执行者变成了一群AI。

同样的理念也可扩展到人机协作的混合团队中:未来办公室里也许人类同事和AI代理共同协作完成工作,各自发挥所长。实现多Agent协作需要解决Agent间通信协议、共享记忆和冲突解决等问题,但一旦成功,将显著提升AI系统处理复杂任务的规模和鲁棒性。正如有分析指出的,多智能体LLM系统有望像“梦之队”一样将各自专长结合,产生远超单一模型的效能 (Multi Agent LLM Systems: GenAI Special Forces) (Multi Agent LLM Systems: GenAI Special Forces)。

多智能体代理体系结构中,一组 Agents 通过共享记忆协同,在数字业务环境和物理环境中协作完成复杂目标 (The Anatomy of Agentic AI | International Institute for Analytics)。这种架构体现了未来Agent网络化的发展趋势:多个Agent既能各自独立感知、决策,又能通过共享记忆和消息传递实现协同工作,联手处理跨领域、跨环境的复杂任务。

2. 自主推理与决策能力提升:未来的Agent将在自主智能方面取得长足进展,包括更强的连贯推理、更可靠的决策和更少的人为干预需求。

我们预计LLM模型本身的能力还将持续提升,让模型拥有更接近人类专家的推理深度。同时,一系列辅助手段会进一步强化Agent的自主性和智能性:长短期记忆机制将更完善,避免上下文窗口限制带来的“健忘”问题,使Agent在长对话或长任务链中保持一致性;“自我反思 (self-reflection)”机制将成为Agent标配,让Agent学会自主检查和调整自己的思路,在遇到困难时懂得改进方法 (Introduction to LLM Agents | NVIDIA Technical Blog);还有研究者提出让Agent具备“内省”能力,即模型能对自己的回答进行不确定性评估,从而在不够自信时请求额外信息或帮助,而非给出错误答案。所有这些改进都指向让Agent变得更聪明、更可靠。到2025年,我们有望见到一些Agent在特定任务上达到并超越人类专家水平(例如复杂策略游戏AI、金融投资AI顾问等),因为它们可以不眠不休地优化自己的决策。

值得一提的是,如何让Agent的决策更“可解释”和“可控”也将是趋势之一。随着Agent变得更自主,人们会希望了解它是如何做出某个决定的,以及如何干预纠正。这将促进Agent系统在可解释AI、安全限制机制等方面的发展,确保自主智能在带来便利的同时不会偏离人类意图 (Building Effective AI Agents | Anthropic \ Anthropic) (Building Effective AI Agents | Anthropic \ Anthropic)。总而言之,更高的自主推理与决策力将推动Agent从“能用”进化到“好用”,应用范围和复杂度将大幅拓展。

3. 融合实体世界,虚实一体的智能代理:2025 年的另一个重要趋势是LLM Agent将从数字世界走向物理世界,与机器人等实体系统相结合,成为现实生活中的“智能体机器人”。

目前已经有科技公司在探索将大语言模型用于机器人控制,例如Google DeepMind开发了RT-2模型,将LLM知识用于机器人操作决策,让机器人可以根据人类自然语言指令执行一系列物理操作 (LLMs Meet Robotics: The Rise of AI-Driven Machines in 2024 | Entrepreneur) (LLMs Meet Robotics: The Rise of AI-Driven Machines in 2024 | Entrepreneur)。MIT的研究也提出了用语言描述代替视觉训练的方法,成功让机器人执行“把衣服拿去洗衣机”等多步操作 (Researchers use large language models to help robots navigate | MIT News | Massachusetts Institute of Technology) (Researchers use large language models to help robots navigate | MIT News | Massachusetts Institute of Technology)。这些进展表明,LLM代理有潜力成为通用机器人的大脑,大幅降低机器人对复杂环境的适应难度。

未来,配备LLM Agent的大型机器人可以在工厂、仓库中自主协作完成生产任务;服务型机器人可以听懂人类口头指令,灵活应对家庭中的杂务。甚至在自动驾驶、无人机等领域,语言模型代理也可用于高层决策规划,让交通AI能够理解人类乘客的需求和偏好。从虚拟走向现实也带来新的挑战,如物理世界的不可预测性、安全约束以及实时性要求等,需要在Agent中加入传感器数据处理、实时规划、容错等模块。然而,一旦突破这些障碍,“AI代理+机器人”将开启前所未有的应用场景

可以想象,未来我们身边可能环绕着各种各样的智能代理:手机里的虚拟助理与家里的机器人管家相互通信,共同维护我们的数字和物理生活。可以说,物理世界的融合将使Agent从软件层面的助手,进化为拥有“身躯”和行动力的真正智能体。

结论

综上所述,由大型语言模型驱动的智能代理正引领着新一轮的AI应用变革。从最初协助人类的Copilot,到如今初具自主性的Agent,我们看到了AI系统在自主决策、持续任务和多模态处理方面的长足进步。

时至 2025 年,相关技术组件如LLM、工具接口、多智能体架构等日趋成熟,已经为孕育“爆款”级别的Agent产品奠定了基础。可以预见,各行业将很快出现能够大幅提升生产力的AI代理,从而推动业务模式的革新与效率飞跃。当然,我们也应保持理性,关注Agent技术带来的新挑战,如可靠性、安全性和伦理风险,并在技术演进中逐步建立规范和治理。然而,展望未来,LLM生态与Agent技术的融合前景令人振奋——一个人机共生、多智能体协作的时代或将加速到来。正如业内分析所言,随着技术的演进,智能代理的应用范围几乎是“无限且不断扩张”的,人类将持续发现新的方式将其融入工作和生活 (Applications of LLM Agents in various industries)。我们有理由相信,LLM 驱动的 Agent 将在未来几年释放出更大的潜能,成为数字时代不可或缺的基础设施和创新源泉,值得所有AI技术爱好者和从业者持续关注和投入。

 

【相关】

Agent:数字代理的崛起与未来

大模型进化史:从问答交互到数字员工的蜕变

在ChatGPT引发的人工智能热潮中,我们亲眼见证了AI应用形态的戏剧性演变。回想2022年底,当人们首次体验ChatGPT时,那种震撼感仍历历在目——一个能够理解复杂问题并提供流畅回答的聊天机器人(chatbot),彻底改变了我们对机器智能的期望。这种应用形态——我们姑且称之为"对话式AI"——本质上是大语言模型(LLM)应用的初级表现形式,一种简单的信息交换机制。

然而,人类与机器的共舞很快便不满足于这种单一的问答模式。技术世界随即引入了"Copilot"(副驾驶)概念,定位为辅助人类完成任务的智能伙伴。这个隐喻非常贴切:就像汽车副驾驶可以阅读地图、调整音乐、甚至在必要时提醒驾驶员注意路况,但最终驾驶决策权和操控方向盘的责任仍在主驾驶手中。Copilot式应用(如GitHub Copilot、Microsoft Copilot)在专业领域展现出惊人的价值,但其本质仍是"被动响应式"工具。

真正的革命性转变出现在最近的"Agent"(智能代理)概念兴起之时。与Copilot不同,Agent代表了AI应用的质变——从被动的辅助者转变为主动的执行者。这种转变堪比从"帮厨"到"主厨"的角色跃升,从根本上改变了人机协作的本质。

打个比方,Copilot是坐在副驾驶座位上的导航员,而Agent则是接管方向盘的全自动驾驶系统。你只需告诉它目的地,剩下的路径规划和驾驶操作它都能自主完成。

这种角色的转变绝非只是市场营销的噱头,而是反映了底层技术能力的本质跃升。Agent之所以能够进化到"数字员工"的水平,源于四个关键技术突破:

    1. 上下文窗口的大幅提升:现代大模型已能理解超长对话历史(从最初的4K tokens到如今的100K甚至1M tokens),使其能够在复杂任务中保持连贯的"工作记忆"。
    2. 思维链与推理引擎的兴起:从简单的"思维链"(Chain-of-Thought)到更复杂的"思维树"(Tree-of-Thought)和"反思机制"(Reflection),推理大模型使AI能够进行非线性思考和自我修正。
    3. 环境交互能力的拓展:通过API调用、工具使用和计算机操作能力,Agent获得了"数字化肢体",不再仅仅是数字大脑,而是也能够实际操作并影响数字环境。
    4. 多模态处理的全面整合:现代Agent不仅能理解文本,还能处理图像、声音甚至视频,使其感知和交互能力更接近人类全面认知,其生成能力可以图文并茂、声色逼真。

Agent的核心技术解析:七大支柱能力

要理解Agent对于AI应用的革命性意义,我们需要深入剖析其七大核心技术支柱,这些能力共同构成了Agent的"数字神经系统",而且它们都已成熟,基本就绪:

1. 知识获取引擎(Search与RAG技术)

任何专业人士的价值首先来源于其获取和处理信息的能力。同样,Agent的基础价值也建立在其信息获取能力之上。现代Agent通过两种途径弥补大模型固有的知识时效性限制:

外部搜索(Search):Agent能够主动连接互联网,实时获取最新信息。例如,当讨论刚刚发布的研究论文或当天的股市波动时,Agent不会局限于训练数据的固有知识,而是通过API访问搜索引擎、专业数据库或行业平台,确保信息的时效性和准确性。这种能力极大减轻了LLM的"幻觉"问题——即生成看似合理但实际虚构的内容。

检索增强生成(RAG):除了公开信息,Agent还能连接私有知识库。想象一下企业内部部署的Agent,它能够即时检索公司政策文档、产品手册、历史会议记录甚至员工目录。当你询问"谁负责亚太区的销售策略?"时,Agent不会生成泛泛而谈的回答,而是精确定位到组织架构中的特定角色和人员。RAG技术的核心在于将非结构化文本转化为向量表示,然后通过语义相似度检索最相关的信息片段,最后将这些关键信息融入生成过程。

以医疗领域为例,一个基于RAG技术增强的临床决策支持Agent能做到:

    • 检索最新发表的特定疾病治疗指南
    • 查询患者历史电子病历中的关键信息
    • 分析类似病例的治疗方案和结局
    • 整合这些信息提供个性化治疗建议

这种实时、精准的知识获取能力是Agent区别于传统聊天机器人的第一道技术壁垒。

2. 代码生成与执行环境(Code Generation & Execution)

在数字世界中,掌握了代码,几乎可以实现任何操作。顶级Agent具备强大的代码生成和执行能力,使其能够动态创建解决方案。

这种能力远超简单的"生成代码片段"——成熟的Coding Agent能够:

    • 理解问题的编程本质:将自然语言描述转化为算法和数据结构层面的理解
    • 生成完整可执行代码:不仅是代码片段,而是包含错误处理、边界条件检查的生产级代码
    • 编排复杂的代码工作流:协调多个组件、API和库的交互
    • 测试和调试自己的代码:识别潜在问题并主动修复

例如,Windsurf项目展示的代码Agent能够仅通过自然语言描述,独立开发包含用户认证、支付处理和数据可视化的完整Web应用。

对企业而言,这意味着大量重复性编程工作可以交由 Coding Agent(数字码农)完成,从数据清洗脚本、自动化测试到内部工具开发,极大提升效率。

3. 数字界面交互能力(Computer Use)

Agent落地最重要的能力之一是其"Computer Use"——能像人类一样操作计算机界面。这项技术突破解决了一个长期困扰AI应用的瓶颈:如何与没有开放API的软件和网站交互?

传统上,AI只能通过正式的API与其他系统集成。然而,现实世界中大量软件和网站并不提供API接口,或者API功能严重受限。Computer Use技术赋予Agent"数字视觉"和"数字手指"用于:

    • 屏幕理解:Agent能"看到"并理解屏幕上的元素——按钮、文本框、下拉菜单、错误提示等
    • 界面操作:Agent能模拟鼠标点击、键盘输入、拖拽操作等人机交互方式
    • 视觉反馈处理:Agent能根据界面变化(如加载动画、成功提示、错误警告)调整后续行动

这种能力的应用场景异常广泛:

    • 自动化工作流:Agent可以登录企业OA系统→填写报销表→上传发票图像→提交审批→跟踪进度,全程无需人工干预,碾压或平替了低代码RPA(Robotic Process Automation)的工作。
    • 跨平台数据迁移:Agent可以从一个系统提取数据,然后登录另一个系统填入相应字段
    • 复杂网络任务:如比价、预订、注册等需要与多个网站交互的任务

以Manus demo为例,它展示了如何通过Computer Use能力在常见的办公软件中执行复杂操作——从Excel数据分析、PowerPoint演示制作到Photoshop图像处理,模糊了AI助手和真实人类操作者之间的界限。

4. 流程规划与执行引擎(Planning & Execution)

Agent的核心智能体现在其流程规划能力上——将抽象目标转化为可执行步骤的能力。这种能力的突破得益于近期推理模型的重大进展。

高级Agent的规划能力分为几个层次:

    • 任务分解:将"组织销售会议"这样的高层指令分解为数十个具体子任务
    • 资源评估:确定每个子任务需要的工具、数据和权限
    • 依赖分析:建立任务间的逻辑依赖关系,形成 agentic flow 的有向执行图
    • 风险预判:识别可能的失败点并制定备选方案
    • 优先级排序:基于时间敏感性、重要性等因素确定平行组件的执行顺序
    • 适应性调整:根据执行过程中的反馈和环境变化动态修改计划

以一个市场分析项目为例,当用户提出"帮我分析竞争对手的最新产品"这一模糊请求时,成熟的Agent会通过多轮思考将其转化为结构化计划:

    1. 确定目标竞争对手清单(通过搜索或情报挖掘)
    2. 收集每个竞争对手的最新产品信息(网站、新闻稿、社交媒体)
    3. 提取产品关键参数(功能、价格、目标市场)
    4. 对比分析竞争产品与我方产品的差异
    5. 识别市场趋势和潜在机会
    6. 生成可视化比较图表
    7. 撰写分析报告和建议

这种自主规划能力使Agent从简单的指令执行者转变为真正的问题解决者,能够处理开放性、非结构化的任务。

5. 数据存储与个性化记忆系统

Agent的持久价值很大程度上取决于其"记忆"能力——能否记住用户偏好、过往交互和工作背景。这一能力通过两种技术实现:

向量数据库存储:现代Agent使用向量数据库存储大量非结构化信息,包括:

    • 用户偏好和工作习惯
    • 常用流程和最佳实践
    • 历史对话和决策记录
    • 场景特定知识

这些信息被转化为向量表示,能够通过语义相似度快速检索。向量数据库的优势在于能够处理模糊查询:"上次那个关于销售预测的报表,就是用蓝色图表那个"——Agent能理解这种不精确描述并检索到相关文档。

本地化部署:为保护隐私和提高性能,越来越多的Agent架构支持本地化部署向量存储,确保敏感数据不离开企业环境。例如,一家金融机构可以部署私有Agent,所有客户交易数据和投资组合信息都存储在内部安全系统中。

个性化记忆系统使Agent能够逐渐适应特定用户或组织的独特需求,从而提供更加定制化的服务——就像一位经验丰富的私人秘书,了解你的喜好和工作方式。

6. 多模态感知与生成系统

现代工作环境充满了各种形式的信息——文档、图表、图像、视频、语音等。真正有用的Agent必须能够理解和生成多种模态的内容。

最新一代Agent的多模态能力包括:

多模态输入理解

      • 图像分析:识别图表中的数据趋势、照片中的关键元素
      • 文档理解:提取PDF、Word文档中的结构化信息
      • 语音转文本:将口头指令转化为可执行任务

多模态输出生成

      • 数据可视化:根据数值数据创建图表和仪表盘
      • 演示制作:生成包含文本、图像和图表的演示文稿、PPT、小视频等
      • 丰富文档:创建包含格式化文本、图像和链接的综合报告

案例分析:金融分析Agent能够:

    1. 接收投资组合Excel文件
    2. 分析数字数据识别风险点
    3. 生成资产分配饼图
    4. 创建历史表现曲线图
    5. 合成一份包含文字解析和可视化图表的完整金融趋势报告

多模态能力使Agent能够处理现实世界的复杂信息环境,而不仅限于文本交流。

7. 多Agent协作框架

对于特别复杂的任务,单个Agent的能力可能不足。这时,多Agent协作系统展现出强大潜力——多个专业化Agent组成"智能团队",分工合作解决问题。Manus 就采取了多agent框架。

一个成熟的多Agent系统通常包含以下角色:

    • 协调Agent(Coordinator):负责整体任务规划、资源分配和进度跟踪
    • 专家Agent(Specialist):专注于特定领域任务,如数据分析、内容创作、代码开发
    • 研究Agent(Researcher):负责信息收集和验证
    • 质检Agent(Validator):审核其他Agent的输出,确保质量和准确性
    • 用户交互Agent(Interface):管理与人类用户的沟通,解释过程和结果

这些Agent之间通过结构化协议交换信息和任务状态,形成一个自组织系统。例如,完成一份市场调研报告可能涉及:

    1. 协调Agent制定整体研究计划
    2. 研究Agent收集行业数据和竞争对手信息
    3. 数据分析Agent处理原始数据并提取洞见
    4. 可视化Agent创建数据图表
    5. 内容Agent撰写分析文本
    6. 质检Agent审核最终报告
    7. 交互Agent向用户展示结果并收集反馈

这种"分布式智能"方法使Agent系统能够处理远超单个Agent能力的复杂任务,同时提供更高的可靠性和专业性。

Agent两条发展路径:通用与垂直

Agent技术的商业化正沿着两条不同但互补的路径发展,反映了不同的市场需求和技术策略:

通用Agent路线

以Manus为代表的通用Agent尝试成为"全能型通用数字助手",能够横跨多种应用场景。这些产品的关键特点是:

    • 广谱能力覆盖:从简单信息查询到复杂任务规划,从内容创作到数据分析
    • 统一用户体验:提供一致的交互界面,无需针对不同任务切换工具
    • 通用基础设施:建立在多模态LLM、推理LLM和云架构的标准组件之上

Manus代表了这一路线的典型产品——它能够操作各种办公软件,浏览网页,管理文件,甚至完成基本的图像处理任务。通用Agent的价值主张是"一站式"解决方案,降低用户学习多个工具的成本。

然而,这种路线也面临严峻挑战:大模型厂商正迅速将Agent核心能力整合到自己的产品中。例如,OpenAI的GPT-4o、Anthropic的Claude和Google的Gemini都在快速增强自身的工具使用和执行能力,这可能导致独立通用Agent厂商面临被"平台化"的风险。虽然说平台厂家与应用厂家应该分工合作,各司其长,但面对大模型落地应用这样的大蛋糕,相互争抢也是难免的。

垂直Agent路线

与通用路线形成对比的是垂直Agent策略——聚焦特定行业或职能的专业化Agent:

    • 医疗Agent:辅助诊断、治疗计划制定、医学文献研究
    • 法律Agent:合同起草、法规遵从性检查、判例研究
    • 金融Agent:投资组合管理、风险评估、市场分析
    • 设计Agent:UI/UX设计、品牌资产创建、创意探索
    • 研发Agent:代码开发、系统架构设计、技术文档编写
    • ............

垂直Agent的核心优势在于深度而非广度——它们通过行业专有知识、场景工作流程和监管合规性构建护城河。例如,一个专业医疗Agent不仅具备通用AI能力,还整合了:

    • 医学本体论(ontology)和临床指南
    • 药物相互作用数据库
    • 疾病诊断决策
    • 医学影像分析
    • 医疗记录格式标准化
    • 医疗伦理和隐私合规

这种深度专业化使垂直Agent能够提供真正行业级的解决方案,而不仅是表面的功能模拟。从商业模型角度看,垂直Agent更容易证明其投资回报率,因为它们直接解决特定行业的高价值问题。

Agent技术的现实挑战与未来前景

尽管Agent技术前景光明,但我们必须客观认识当前的限制和挑战:

技术挑战

    1. 可靠性与稳定性:即使最先进的Agent也会遇到失败案例——误解指令、执行错误操作或陷入逻辑循环。当Agent执行连续多步骤任务时,错误也可能累积放大,导致整体任务失败。
    2. 安全边界问题:赋予Agent自主操作能力也会带来安全风险。如何确保Agent不会执行有害操作(如删除重要文件、发送敏感信息)仍是一个开放性挑战。目前的解决方案包括权限分级、人类监督和安全警戒机制,但完美平衡自主性与安全性仍是挑战。
    3. 隐私与数据安全:Agent需要访问大量用户数据才能提供个性化服务,这引发了严重的隐私担忧。企业级Agent部署尤其需要考虑数据本地化、访问控制和加密传输等安全机制。
    4. 幻觉与错误决策:尽管搜索和RAG技术缓解了幻觉问题,但Agent仍可能基于错误理解做出决策。当这些决策导致实际行动(如错误购买、错误数据删除)时,后果远比简单的信息错误严重。

社会与伦理挑战

    1. 责任归属问题:当Agent自主执行任务出错时,责任如何分配?是软件开发者、模型提供商、还是最终用户?这个问题涉及法律、伦理和产品设计的复杂交叉。特斯拉的全自动驾驶agent,目前仍是 supervised 版,明确规定人类驾驶是责任人。但一旦发展到计划中的 unsupervised 版,道理上责任人应该转为特斯拉厂家。
    2. 工作替代与转型:Agent技术必然导致某些工作岗位的自动化,特别是高度程序化的知识工作。社会需要应对这种转型,包括再培训、社会安全网络和新型工作创造。长远一点看,健全社会安全网络,例如全民基本收入(UBI,Universal Basic Income)保障,势在必行。
    3. 过度依赖风险:随着Agent承担越来越多的认知任务,人类可能丧失某些核心能力。例如,过度依赖导航Agent可能导致空间认知能力下降,这种"认知外包"的长期影响值得研究。

未来发展路径

展望未来,Agent技术可能沿着以下方向继续演进:

    1. 自主性提升:未来Agent将能够处理更加模糊、开放的指令,如"为下季度制定营销策略"或"优化供应链流程",无需详细的步骤指导。
    2. 个性化深化:Agent将通过持续学习用户习惯、偏好和工作流程,提供高度个性化的服务,甚至能预测用户需求。
    3. 物理世界扩展:当Agent与机器人技术结合时,其能力将从数字世界扩展到物理环境——控制智能家居设备、操作工业机械或协助医疗手术,“给机器人注入灵魂”。
    4. 协作网络形成:不同专业领域的Agent将形成协作网络,共同解决复杂问题,如一个企业内不同部门的Agent相互协调工作。

总结:新型人机协作范式的曙光

Agent技术的崛起代表了AI应用从"可询问的知识库"向"可执行的智能伙伴"的根本转变。这不仅是技术演进,更是人机协作范式的革命。

在这个新范式中,人类将专注于创造性思考、战略决策和情感交流等高价值活动,而将可编程、可重复的任务交由Agent处理。这种分工不是简单的工作替代,而是能力互补——人类提供目标、价值判断和创意,Agent提供执行力、一致性和全天候服务。

从某种角度看,Agent技术的发展可能如同个人计算机革命一样具有深远影响。就像PC将计算能力从专业机构民主化到个人手中,Agent有潜力将专业服务能力(无论是编程、设计、分析还是创作)从少数专家扩展到更广泛的用户群体。

对于普通用户而言,Agent意味着数字世界的控制权从"需要学习特定指令和技能"转变为"只需表达意图、描述痛点";对于企业而言,Agent代表着生产力工具的新一代升级,有潜力显著提升知识工作者的产出效率。

无论是Manus这样的通用Agent先行者,还是专注垂直领域的专业Agent,都在探索这个新兴技术前沿的商业可能性。随着底层技术的持续进步和商业模式的逐步成熟,2025年或将成为Agent技术真正走向成熟的元年。

在充满可能性的未来,关键问题不再是"Agent能否工作",而是"我们如何设计Agent与人类的最佳协作方式"——一种既发挥机器高效执行力,又保留人类创造力与判断力的协作范式。这或许是AI发展史上最具变革性的一页,也是人类文明进化的崭新篇章。

 

【相关】

Agent元年:从聊天机器人到数字员工的当代进化史

——揭秘2025年最炙手可热的AI应用形态

最近Manus的爆火,让普罗开始关注AI大模型的应用热词 agent,至少算是启发并教育了市场。Manus 内测发布给出的能力 demos 令人印象深刻,让大家看到了 agent 方向的样子。无论 Manus 是真有货色的爆火,还是名不副实的炒作,大家都开始对正在到来的大模型agent时代充满好奇。什么是 agent 呢?

一、从副驾驶到主驾驶:Agent的进化密码

当ChatGPT核爆式走红时,全人类第一次意识到,AI不仅能回答问题,还能成为你的"赛博同事"。早期的Copilot(副驾驶)类助手就像乖巧的实习生——勤快听话,你问它答,你令它动。而如今的Agent(智能代理)已经进化成能独当一面的"数字员工",它不再是只会等待指令的被动助手,而是能自主规划、拆解任务、调用工具的智能管家。

- Copilot模式:你命令"写封英文邮件",它生成文本等你确认或使用
- Agent模式:你说"在x预算下搞定客户投诉",它自动调取订单数据→分析问题→生成解决方案→按照预算预定补偿礼品→将处理记录同步CRM系统

这种质的飞跃,源于三大技术突破:

1️⃣ 超长上下文窗口:新型LLM能记住长达100万token的对话(相当于一部《哈利波特》),构建连续工作记忆
2️⃣ 推理引擎升级:从简单思维链(Chain-of-Thought)进化到思维树(Tree-of-Thought),赋能多路径决策
3️⃣ 数字肢体生长:API调用+RPA(模拟人类操作软件)+多模态输入输出,让AI真正"动手做事",无需人类的过程干预

二、Agent的七种武器:不只是会聊天的AI

当代顶级Agent的战斗力,来自七大核心组件构成的"技术乐高":

① 联网搜商(Search+RAG)

- 实时抓取最新资讯:股票行情、航班动态、学术前沿
- 对接企业知识库:秒查员工手册、产品参数、客户档案
案例:某医疗Agent在诊断时,能同步检索最新临床指南与患者历史病历

② 代码(Coding)

- 自动写脚本处理Excel
- 调试程序时化身"数字码农"
- 甚至能开发APP
震撼现场:Windsurf Agent在测试中独立编写出具备登录/支付功能的网页

③ 软件使用(Computer Use)

- 无API接口?RPA一样直接模拟人类操作!
- 像真人一样点击浏览器、操作Photoshop、登录OA系统
颠覆性场景:Agent自主完成机票比价→下单→填写报销单全流程

④ 记忆保险箱(向量数据库)

- 永久记忆你的工作习惯:
"王总喜欢周一晨会PPT用蓝色模板"
"张会计的报表必须保留小数点后两位"

- 本地化存储保障隐私安全

⑤ 多面手工作室(多模态能力)

- 输入输出不再限于文字:
→ 把语音会议转成图文纪要
→ 将数据报告变成动态视频
→ 听着podcast就能生成思维导图

⑥ 军师联盟(多Agent协作)

复杂任务由"智能小组"协同攻克:

- 指挥官Agent:制定作战计划
- 侦查Agent:实时监控数据
- 质检Agent:交叉验证结果
- 外交Agent:向人类申请资源

⑦ 决策大脑(规划与推理)

- 拆解"举办发布会"这种模糊指令为100+子任务
- 动态调整计划:遇到场地临时取消,立即启动Plan B

三、Agent宇宙的两极战争

当前agent赛道正上演"通专对决":

通用派

- 代表选手:Manus、GPT-5(? 据传GPT5要集成各项能力)
- 优势:通用全能,写代码、做设计、管项目样样通
- 隐患:可能被巨头降维打击(例如,GPT-5或DeepSeek R3碾压Manus)

垂直派

阵容:
- 医疗Agent:能看CT片、做诊断、开处方的AI医生
- 法律Agent:3分钟生成无漏洞合同
- 金融Agent:实时监控全球37个交易所的操盘手
- 护城河:行业know-how+专属工具链构建壁垒

四、Agent时代的希望与烦恼

爆发前夜:

- 技术基建已基本就位(足够长的上下文+成熟工具链)
- 多模态大模型补齐最后短板
- 2025年或成真正"Agent元年"

暗流涌动:

- 隐私隐患:Agent需要深度访问用户数据
- 伦理困境:Agent擅自订的酒店该谁买单尽责?

五、未来已来:人机协作新范式

当Agent逐渐掌握三大终极技能:

预见性:提前预判你的需求("检测到明天下雨,已修改外勤计划")
实体化:赋予“灵魂”的机器人自主执行物理动作(机器人+Agent=机器人管家)
超进化:自主迭代工作方法(每次处理报销单速度提升3%)

人类终于迎来"君子动口不动手"的时代——人类定目标,Agent搞定所有落地细节和解决路径。这场静悄悄的效率革命,正在重塑每个行业的游戏规则。

唯一的问题是:你准备好拥抱你的数字同事了吗?

 

【相关】

【外一篇:推理范式演进中的概念】

1.1 训练与推断的二分

机器学习系统存在两个核心阶段:

- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train)
- 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)

大语言模型(LLM)领域的最新进展显示,通过引入思维链(CoT)机制,推断阶段的计算量(test time compute)显著增长,也收获了相应的智能提升。

1.2 逻辑学视角

推理类型 逻辑结构 确定性 典型应用
演绎 前提→必然结论 确定性 数学证明
归纳 个案→普遍规律 概率性 趋势发现
溯因 现象→最佳原因 启发式 诊断推测

Inference 对应概率模型中的推断过程,本质是大数据压缩后的经验性模式归纳。在传统的符号逻辑语境下,Reasoning 特指演绎推理的符号化过程,但考察当下的LLM推理模型,reasoning 最多只是对逻辑演绎的符号化模拟,本质上仍然是概率模型的推断(inference)生成。溯因在大模型范式下,其实现启发式推测的手段也还是大数据压缩后的经验性(逆向)模式归纳。总之,生成式AI大模型以不变应万变,各种思考推理过程一律采用下一词元预测(Next Token Prediction)形式的推断实现。生成机理不变,但 input-output 函数范式变了。

1.2 认知科学视角的函数范式

Kahneman在《思考,快与慢》中提出的双系统理论为理解大脑行为提供新视角:

- System 1(快思考):直觉式响应 input→output,对应大模型 seq2seq 函数式生成模式

output=F(input)

- System 2(慢思考):反思性推理 input→[Think]→output,体现为CoT (ChainofThought) 驱动的两阶段函数生成模式

CoT=F(input) & output=F(input+CoT)

大模型 F 的底层逻辑不变,但强化学习启动了思维链外化(CoT),搭建了应对复杂问题(input)的信息桥梁CoT,增加了大模型推断output的可解释性,最重要地,大幅提升了复杂问题的解决智能。

1.3 推理模型的计算-智能增长关系

强化学习赋能的推理模型新范式呈现的新 scaling law 是怎样的呢?并无定论,一切刚刚开始,经验法则需要时间测量。

例如,当test time compute增加10倍时:
- 推理准确率提升多少?
- 响应延迟增长多少?

`

1.4 答问

「蔡江滨l六问:早安,能否理解为cot的生成是推断inference ,根据cot生成的具体内容是推理?@wei li 」

cot+answer 的区分是人为的格式区分,对于ntp GPT 模型,它们都是概率性 inference 生成的 response

如果这个response 是针对理工类推理题目,那么这种 inference 是对于人类 reasoning,尤其是演绎( deduction)的模拟,但不是严格意义上的逻辑演绎。

如果是创作类任务,inference 中的 CoT 就是 planning/pondering 等思考过程, inference 中的answer就是生成结果,都谈不上逻辑推理。

reasoning model 这个实命名也不准确,还不如叫思考模型、思维链模型、慢思维模型、意识流模型、内心独白模型、小九九模型,总之就是 system 2,与传统的 system 1 模型比,只是多了个 CoT。

 

【原文】

生成式AI学习中容易混淆的几个术语

test time / reasoning / inference 辨析

推理模型是当前生成式AI的主流热点,带火了一个热词(buzz word)叫 test time compute,咱们就先从它谈起。

从模型开发者视角,test time(测试时间) 针对的是 training time (训练时间)。众所周知,这是机器学习的两个阶段,一个是在线,一个是离线。训练模型好比是软件开发;测试模型就是软件测试。模型测试阶段就是常说的(在线)推理(inference)阶段,所以 test time 又叫 inference time。

问题是,中文翻译“推理”对应了英文两个词:inference 和 reasoning,业内人士很多人是认为后者才是推理正解,而前者是错译(misnomer),合适的翻译是“推断”。但“推理”的一词二用已经混淆并流行了很久,社区习惯上不一定能改过来。但对于后学,还是要辨析清楚才好。

test time compute 之所以流行,是因为大模型领域近几个月的“范式转变”。社区依据预训练scaling law原来一直聚焦基座大模型的做大做强,但发现大算力带来大智能的效益递减,进入了平台期。于是把重心转移到后训练的强化学习,发展了一种称为 System 2 慢思维模式的推理模型。这种推理模型最大的特点就是运行起来慢了,原来的秒回现在是慢了几拍才回复,消耗了更多在线时间和在线推断的算力(即 test/inference time compute)。

按常理,在线计算量增加,模型运行慢了,听上去是在退步,而不是进步。但好消息是,模型对于复杂问题的处理智能飙升。时间换质量,当然应该看好这个新方向。慢思维推理模型的成就,就好比人类的三思而后行。一般而言,凡事喜欢琢磨的人,比不假思索就行动的人,更有智慧,也更加靠谱。学会了慢思维(术语叫思维链)的大模型亦是如此。

模型训练阶段,无论是预训练还是后训练,都是离线进行的,迭代循环,在改变模型的参数,模型并未成形,属于开发进行时。而 test time 说的是模型已经完成阶段。严格说,test time 是内部试运行阶段,让 QA(quality assurance)部门在上线发布前做测试。但现在谈 test time compute,已经不分内部测试还是用户使用,所以更准确的术语还是 inference time compute。

白老师说:

Inference当初译成推理就错,真的推理Reasoning不来还则罢了,这回真的来了,将错就错都难。

我说:

不知是不是下意识,以前一直有意无意地把 inference 与统计预测关联得更紧,而把 reasoning 与符号演绎(deduction)划了等号。前者是统计性的,后者是确定性的。(概率性)推断就是(统计性)预测,statistical inference。不知道受到了什么的暗中影响。

老友尼克说:

本意也差不多是这个意思。reasoning是偏deduction的。

大模型的术语最早借自于统计,统计中区分建模与inference两个阶段,大模型训练相当于建模。统计中inference翻译为“推断”。简中自媒体乱翻导致业界人也瞎起哄,好像上海电影译制厂把中国两代人的英文发音都带偏了。

但是定理证明community也用inference,好多会都以此冠名,所以很难把inference与reasoning完全隔开。相对讲,reasoning更偏deduction,最好的办法是在可能引起歧义时括号英文。

abduction在逻辑里是美国实用主义的特定叫法,源自Peirce。这个意思是把建模和inference合到一起的意思,就是Solomonoff Induction的不严谨的哲学说法。inference出错时,再去修正模型,the whole nine yard。在Kolmogorov Complexity中,inference被称为logic depth 。。。

其实,inference time 口语中也叫 running time 或 runtime,其他的近义词和关联词还有很多: test-time,real time,decoding time, prediction time, service time, execution time, on-the-fly computing time ...

 

 

【外一篇:推理范式演进中的概念

1.1 训练与推断的二分

机器学习系统存在两个核心阶段:

- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train)
- 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)

大语言模型(LLM)领域的最新进展显示,通过引入思维链(CoT)机制,推断阶段的计算量(test time compute)显著增长。

1.2 逻辑学视角

推理类型 逻辑结构 确定性 典型应用
演绎 前提→必然结论 确定性 数学证明
归纳 个案→普遍规律 概率性 趋势发现
溯因 现象→最佳原因 启发式 诊断推测

在传统的符号逻辑语境下,Reasoning 特指演绎推理的符号化过程,但考察当下的LLM推理模型,reasoning 最多只是对逻辑演绎的符号化模拟,本质上仍然是概率模型的推断(inference)生成;而Inference对应概率模型中的推断过程,本质是大数据压缩后的经验性模式归纳。溯因在大模型范式下,实现启发式推测的手段也还是大数据压缩后的经验性(逆势)模式归纳。总之,生成式AI大模型以不变应万变,各种思考推理过程一律采用下一词元预测(Next Token Prediction)的 inference 实现。

1.2 认知科学维度

Kahneman在《思考,快与慢》中提出的双系统理论为理解大脑行为提供新视角:

- System 1(快思考):直觉式响应 input→output,对应大模型 seq2seq 函数式生成模式

output=F(input)

- System 2(慢思考):反思性推理 input→[Think]→output,体现为CoT(ChainofThought) 驱动的两阶段函数生成模式

CoT=F(input) & output=F(CoT)

1.3 推理模型的计算-智能增长关系

强化学习赋能的推理模型新范式呈现的新 scaling law 是怎样的呢?并无定论,一切刚刚开始,经验法则需要时间测量。

例如,当test time compute增加10倍时:
- 数学推理准确率提升多少?
- 响应延迟增长多少?

`

【相关】

 

 

 

 

思维链是大模型的符号神助攻

在人工智能发展的历史长河中,符号逻辑和神经网络一直如两条平行线,难以交汇。然而,2025年春节,DeepSeek发布的推理大模型R1揭示了一个令人惊叹的技术突破——思维链(Chain of Thought, CoT)的自主生成,其展现出的语言序列仿佛在模拟人类的符号逻辑。这一强化学习的进展或将重新定义符号逻辑与神经网络的融合方向。

DeepSeek R1 CoT 示例

符号逻辑的回归

DeepSeek R1推理模型的发布引发全球关注,其强化学习框架下自主生成的思维链展现出惊人的问题解决能力与创作能力。其核心机制仍是GPT风格的自回归下一词元预测 (next token prediction, NTP),但模型生成的中间结果——思维链,却呈现出典型的符号逻辑特征,有效模拟了人类的思考过程。

这一现象值得深思:大语言模型的本质从未改变,包括最新的推理模型,其内部运作仍是基于向量计算的条件概率。然而,为了模拟人类的符号推理,这些模型竟然学会了通过自然语言构建推理链条。更令人惊讶的是,这些符号链条确实有效,它们结合内部的词元预测机制,显著提升了模型的推理和创造能力。这是一个非常值得回味反思的技术进展。这件事的奇妙,是ChatGPT核爆以来最大的震撼。

符号与神经的无缝对接

这项奇迹的发生尤其让我们符号AI的老司机感慨。多少年来,我们心心念念地追求两条路线的融合,希望符号逻辑能在关键时刻帮助神经系统和统计模型,但一直看不到入口。忽然间,在大模型预训练进入平台期的关口,神经社区内部打开了一扇通向符号逻辑的大门,找到了一种神经与符号融合的路径。这一突破来得如此突然而有力,不能不让人既惊且叹。可惊的是,符号逻辑终于开始发力了;可叹的是,闯出这条路的还是神经社区的研发者,没有符号研究者什么事儿。

大模型就是个端到端的黑盒子,符号仅在输入输出两个端口出现。具体说,我们只能在输入端将符号“嵌入”(embedding)至高维向量空间,并在输出端通过 softmax 映射回符号,而内部的多层前馈的数据流则完全由向量运算主导,与符号逻辑无关,也很难以人类可以理解的符号来解释(因此才有专门的大模型可解释性研究)。此前所有结合符号与向量的努力都失败了,感觉这两种表示就是不同物种,无法融合。符号逻辑一直坐冷板凳,而符号本身除了作为训练数据燃料,在内部智能运作上一点也帮不了忙。

符号与概率的桥梁:CoT的奥秘

现今的推理大模型将内在“思考过程”外化为自然语言CoT,很像是模型的内心独白或意识流。模型在生成最终答案前,CoT重新嵌入系统中助力最终答案的生成。看似简单的这一过程,却在推理时成功地利用了自然语言这一符号载体,使得符号逻辑与神经网络在端口上实现了全程对接,没有一点违和或不容。

这是怎么发生的呢?一切多亏了自回归的 NTP 范式。下一词元预测的GPT生成方式,使得内部的“思维过程”可以在输出端外化为符号CoT,从而利用符号推理的形态,一步步模拟人类思维过程。

从信息论的角度看,推理大模型在 question-CoT-answer 的生成过程中,实际上构建了一条低熵的信息传输路径。相比传统的 question-answer 直接映射,这种显式的中间步骤大大降低了输入question与输出answer的信息鸿沟,显著提升了正确答案的生成概率。正如我在之前的博客(推理新范式 query+cot+answer 支持新的 scaling law 吗)中所论述的,CoT 充当了信息桥梁的角色。虽然不是严谨的符号逻辑推断过程,但它无需改变概率模型的底层运作机理,实现了对于人类推理的有效模拟。

自然语言vs形式语言:CoT的载体选择

CoT 本质是思维,语言只是载体,原理上没必要用自然语言,或任何特定的语言(例如中文,或英文)。但现在的实现方式,无路DeepSeek的R系列,还是OpenAI的O系列,就是直接用了中文或英文的思维链表示。推理模型在运行时,CoT先在输出端外化为中文或英文的符号序列,然后自回归循环运作,最终生成答案。看上去简直就是在符号与神经之间变戏法。以前何曾想到符号介入神经,还带这么玩的,内部与端口天衣无缝。

我们都要感谢DeepSeek,要不是 DeepSeek 给了这样一个开源的春节大礼包,又完全公开了自己的CoT,我们会一直蒙在鼓里,绞尽脑汁也想不明白 reasoning 这种符号逻辑,怎么就悄悄进入了神经过程。符号与向量的矛盾通过端口外化,化解于无形。

从符号逻辑的角度看,自然语言虽然老妪能解,但其精确性远逊于数学符号、形式逻辑表达式或编程语言代码。对于数理问题或逻辑推演,CoT 用这些形式语言比用自然语言显然更合适。然而,目前思维链生成采用自然语言,而不是形式语言。偶然也夹杂了一些数学符号,但思维链整体还是压倒性的使用英语或中文。R1论文中还提到他们的CoT连计算机代码都排斥在外。感觉上,这其实不是推理的正道,但可以理解其成因。CoT 是模型自主生成的序列,而据以生成的基座大模型本身,其训练数据以自然语言压倒多数。原因之二是开发者刻意追求的可解释性以及对用户的透明性,觉得自然语言大家都容易看明白。R1在设计CoT强化训练的时候,强调了格式的奖励,其中语言一致性当成了一个目标。夹杂不同语言或代码的CoT,剔除出局了。从长远来看,这未必是最明智的决策。

前景与思考

推理模型的 CoT 无疑是神经网络与符号逻辑融合的一次创新,也是近年来人工智能领域的重要里程碑。未来的CoT研究方向,可以考虑越来越多地奖励 CoT 以更加严谨的形式语言表示。至少要文理分科,文科任务(如创作)继续用自然语言做CoT的载体,这类思维过程涉及的主要是篇章规划和表达斟酌,而非严格推理;理工任务(数学、编程、逻辑等)则不同,应该训练模型尽量使用形式语言来表示CoT推理过程。当然,要做到后者,可能还要进一步加强基座模型等代码和其他形式语言的数据配比,否则 LLM也许 “憋”不出来合适的表示。

最后说一下概率模型与符号逻辑的严谨性差异。推理模型的 CoT 是推理模型的现场发挥,很多时候显得不够严谨。但其实人脑也是一样。没人能出口成章地把一个复杂数学证明一气呵成,就如同没人能一口气写出一个没有bugs的程序。严谨性都是在反复校验、修正,甚至是几代科学家前赴后继不断探究中完成的。CoT 不够严谨是拿模型的“草稿”与人类专家的定稿对比产生的印象。可以预见,对于非常复杂的问题,推理模型应该像人类一样反复校正,独立复现结果比对。这可能要指望各种推理 agents 的相互协作,以及它们与人类反馈的多层交互。

【相关】

 

再谈自然模态数据是高维空间的低维流形

这个话题实际上涉及 流形假设(Manifold Hypothesis)对抗样本攻击(Adversarial Attacks)高维几何的脆弱性


1. Normal Bundle 在高维空间的“刺猬”形象

normal bundel 是微分几何里的一个重要术语,中文翻译叫“法丛”,对于欠缺数学背景的我们来说,这个术语不好理解,但理解它对于大模型的骇客攻击与AI安全性蛮重要,咱们先看看它是个什么东西。

先破题:Normal 不是‘正常’,而是‘垂直’!

咱中文里‘法’字,来自‘法线’——就是几何里那个与曲面切线呈90度的垂直方向的线。比如你拿根筷子插进苹果,筷子方向就是苹果表面的‘法线方向’。数学家说的‘法丛’(Normal Bundle),其实就是把曲面上每一点的所有垂直方向‘打包’成捆(Bundle),像给苹果表面插满箭头的刺猬!

刺猬的类比是准确的!在 低维流形嵌入高维空间 时,法丛(Normal Bundle)确实可以被想象成“刺猬”——流形的每个点都有一个法向空间,而法丛就是把这些法向空间整体“打包”在一起。见我让Sora生成的法丛示意图:

这是我给Sora发的指令:

制作3D曲面切线与法线动态演示短视频,为科普用,数学家说的‘法丛’(Normal Bundle),其实就是把曲面上每一点的所有垂直方向‘打包’成捆(Bundle),像给苹果表面插满箭头的刺猬!

有几个关键点:

    • 在 3D 空间里,我们习惯把曲面(2D 流形)的法丛(Normal Bundle)想象成一个 1D 线性空间(即法线),所以它看起来像是一个“箭头丛”。
    • 在更高维空间中,比如一个 d 维流形嵌入到 n 维空间(d < n),它的法丛一般是 (n-d) 维的,这意味着法丛方向本身就有多个自由度,而不只是单纯的“刺”。
    • 用 3D 可视化高维流形的法丛,最常见的做法确实是让法丛的“刺”呈现出扇形的扩展感,因为高维空间的法向方向比低维空间的直观“法线”更加复杂。

所以 Sora 生成的图如果能表现出“立体感更强的刺猬形态”,或者在某些点上看到“扇面展开的刺”,就能更好地表达高维法丛的概念。

想象你是只二维蚂蚁,活在皱巴巴的树叶上。对你来说,前后左右是‘切空间’——现实世界;而上下方向就是‘法丛’——完全不可见的维度。所以‘法丛’的normal,本质是几何垂直性,不是日常说的‘正常不正常’。

数学家眼里的‘法丛’一点也不玄乎,就是垂直方向的集合。既然切空间是‘tangent’(相切的),那垂直方向就叫‘normal’(正交的),跟‘正常’没半毛钱关系!要怪就怪英文一词多义。


2. 高维空间 vs. 自然数据流形

“自然数据(文本、音频、图像、视频等)通常分布在一个远低于高维空间的流形上”,这是 流形假设(Manifold Hypothesis) 的核心观点:

    • 我们的高维数据(比如图片,通常是 256×256×3 维)并没有填满整个高维空间,而是集中在 远低于该维数的流形上
    • 这类似于:宇宙是三维的,但星星和星系主要分布在局部区域,而不是均匀填充整个宇宙。
    • 这个流形的维度一般和“人类可感知的主要变化”相关,比如在 人脸识别模型 里,所有可能的“人脸”数据分布在一个 远低于像素维度的低维流形 上,而这个流形包涵了现实中所有合理的人脸样本。这实际上是人脸与表情解耦可以work的原因。

3. 对抗样本:在法丛方向制造“幽灵数据”

既然 自然数据的流形是稀疏的,那这意味着:

    • 绝大多数可能的数据点 根本不属于自然数据的流形
    • 但在数学上,它们仍然是“合法”的高维向量,可以被构造出来,并且会落在 法丛方向 之中。

这是对抗攻击(Adversarial Attacks) 可以成立的根本原因:

    1. 模型只在自然流形上训练,它对“流形外的点”几乎没有概念。
    2. 对抗攻击就是在法丛方向上微调输入数据,让它离开流形,但仍然能欺骗模型的决策边界。
    3. 由于高维空间的稀疏性,很多非自然数据的点可能距离决策边界非常近,但在我们人类看来它们几乎与原始自然数据无差别。

一个经典的例子是:给神经网络输入一张猫的图片,稍微在 法丛方向 加一点扰动(人眼几乎察觉不到)。这张图片仍然落在数据空间里,但 已经偏离自然流形,导致模型认为它是一只狗。

这种“幽灵数据”之所以有效,正是因为 法丛方向是流形的正交补空间(Orthogonal Complement),而流形本身对它并不敏感——就像蚂蚁看不到第三维的变化。


4. 为什么法丛方向上的攻击有效?

既然自然数据流形本身很低维,而法丛方向是它的补空间,远高于流形维度,那么:

    1. 法丛方向上的变动可以很大,但仍然不影响数据的可感知特性(因为它们对人类而言是“无意义的方向”)。
    2. 但是对于机器学习模型而言,这些方向仍然是合法的数据输入,它并没有经过特殊训练去防御这种扰动。
    3. 于是,在某些关键点上,对抗样本只需要在法丛方向上加一点点扰动,就能让模型的决策边界翻车

这也解释了:

    • 为什么对抗样本攻击几乎无处不在?因为高维空间里“非自然数据”占比极高,总会有某些点可以被找到来攻击模型。
    • 为什么对抗样本对人类视觉几乎无影响?因为它利用的不是“自然数据的流形变化”,而是“法丛方向的变化”,这个方向人类或自然模型根本不敏感。
    • 为什么深度学习模型的泛化能力有时不稳定?因为它们过度依赖训练数据流形,而法丛方向上的任何变化都会导致预测结果的剧烈偏移。

5. 这是否意味着“无限对抗攻击”可能存在?

在理论上,确实可以构造出 无穷多的“几何意义上非自然的数据” 来攻击模型。

    • 这些数据点不属于原始数据流形,但它们可以被设计得 足够接近决策边界,从而诱导模型出错。
    • 只要高维空间的维度够高,法丛方向的自由度就足够多,攻击者总能找到某个点来实现攻击。

这也是为什么:

    • 对抗样本防御是个无止境的军备竞赛,模型越强,对抗攻击手段就要越高级。
    • 对抗训练(Adversarial Training) 是当前最有效的解决方案之一,本质上就是“让模型在法丛方向上也学会一些关键的变化”,从而增加对抗鲁棒性。
    • 如果不考虑计算成本,我们可以尝试在更大的法丛方向空间中做鲁棒性优化,但这通常代价太高,所以现实中只能有限度地解决。万全之策是少有的,迅速堵漏或patches 对应用系统变得尤为重要。

6. AI炼丹里的‘法丛陷阱’

搞大模型训练时,参数空间就像高低起伏的山脉。梯度下降是沿着‘切空间’(Tangent Space)找路,但万一算法抽风往‘法丛’方向抖动,就可能造成极度的训练不稳定。所以高阶炼丹师都要用正则化当护栏,专门防着往法丛深渊掉。

如果没有黑客,模型使用者用到的数据输入都是自然数据,与模型训练集是同质的,模型本身的泛化能力足以轻松应对。这是因为自然数据,包括用户的自然语言指令和样例都处于模型数据的切空间里,好比在平原地带,东西南北方向坡度平缓。

但不怕贼,就怕贼惦记。黑客可以刻意制造法丛区域的数据,攻击模型。法丛处于训练数据没有覆盖的未知区域,以此为测试数据,模型性能就急剧下降,可能表现得一塌糊涂。这就像开车——切空间是方向盘能控制的方向,法丛是侧翻悬崖的方向。

这是个头痛问题,单纯依靠数据中的统计模式,难以实现真正的分布外泛化和可靠的安全性保障。常规数据增强很难解决这个法丛数据攻击的问题,因为常规自然数据如同在已知区域做探索,不会主动探索法丛方向,而且这样的数据在通常的场景极为罕见:正常用户也不会故意跳崖。开发者要探索所有法丛危险方向需要无限资源,防不胜防,通常是对骇客的数据进攻,亡羊补牢,给模型做针对性补漏。

总结:

“刺猬模型”来展示法丛(Normal Bundle)是合理的,需要强调“不同点的法向方向形成的丛”,就能很好地表达它的几何概念。
自然数据流形 vs. 法丛方向的思考是对的,它基于自然数据的流形假设。
高维空间的稀疏性 + 法丛方向上的非自然数据确是对抗攻击成立的根本原因,所以确实可以构造无数个“几何上合法但不自然”的数据点来让模型翻车。
如果要防御,关键是让模型学会法丛方向上的“稳定性”,这就是对抗训练、正则化、鲁棒性优化、构造对抗数据patching等技术的意义。

高维空间和对抗攻击的研究,可以进一步研读对抗学习(Adversarial Learning)相关论文,尤其是 Ian Goodfellow 提出的 FGSM(Fast Gradient Sign Method)经典攻击方法及其后续的种种高级变体

 

【相关】

The Three-Stage Scaling Laws Large Language Models

Mr. Huang's background features three S-curves, illustrating the scaling relay race across three stages of large language models, demonstrating a persistent spirit akin to the Chinese fable of the legendary Old Man Who Moved Mountains.

We know that large language models have three stages: pre-training, post-training, and online inference. The biggest change in recent months is the community consensus, following Ilya Sutskever's claim, that the pre-training era has ended. The famous empirical scaling laws for pre-training appear to have plateaued. This has led to the rise of inference models (OpenAI's O series and Deepseek's R series, among others), which emphasize investment in chain-of-thought (CoT) reinforcement learning during post-training and utilization of online inference time (so-called "test time compute"). These reasoning models have indeed demonstrated unprecedented achievements in mathematics, coding, and creative writing.

The scaling of post-training for reasoning models has just begun, and it's unclear how far it can go. But we can gradually see this trajectory from O1 evolving to O3, and from R1 to the reportedly soon-to-be-released R2 and their enhanced capabilities. What about the test time scaling in the final inference stage?

Recently, I spoke with my old friend Junlin, one of the earliest advocates for the three S-curves of scaling in China. I mentioned that I hadn't seen any real test time scaling because no one can control the model's test time compute—how much time/computing power it uses and when it completes assigned tasks is determined by the model itself, so test time doesn't seem "scalable." Junlin agreed that this is currently the case.

These past few days, while playing with large models' deep research capabilities, I've gradually experienced some possibilities for test time scaling. The answer is emerging. Fundamentally, it's about whether there's a curve showing that if you give a query or topic more thinking and response time, it performs better. Specifically, with O3-mini, there's a button called "deep research" that users can choose to use or not to use. Without it, your question still follows a chain of thought because you initially selected the reinforced O3 reasoning model. The process for reasoning models typically takes a minute or two. However, if you also press the deep research button, the final reasoning time is extended by several times, potentially lasting up to 10 minutes. This shows us that even with the same model, different inference times produce different results. This should count as a precursor of test time scaling.

How does it work? How can users invest different amounts of test time compute based on the difficulty or challenge of their topic and their tolerance for waiting time to generate different results for the same topic? It turns out it uses an agent-like approach. The functionality provided by the deep research button is essentially a research reasoning agent. Agents are an additional LLM-native feature that doesn't require changing the model—it changes the interaction method during the inference stage. Currently, this interaction is very simple, just one round, but this test time scaling direction is expected to continue exploring longer and more interactions with users to help maximize the effect of test time compute.

If test time compute scaling doesn't quickly hit bottlenecks, we can imagine future deep research interacting with users for extended periods to complete highly complex projects. Perhaps we're moving beyond minute-level reasoning time investments—we can entirely envision large models investing hours or even days to complete challenging tasks, such as projects that would take human researchers months or years, or completing research projects humans cannot accomplish. The current deep research is very simple—after receiving the user's prompt/query, it immediately breaks down the problem and asks the user five or six simple questions to confirm the required sources, breadth, depth, and considerations for the research. After receiving user feedback, the model begins accepting updated materials (if any) and uses search to collect more relevant information. Then, following the decomposed tasks and the plan confirmed with the user, it analyzes each source and finally synthesizes everything into a research report. This naturally extends the required reasoning time because the task is no longer singular, and the materials aren't limited to knowledge already digested within the model but include more sources searched in real-time—processing all this takes time.

For both reinforcement learning in the post-training stage of reasoning models and the investment in test time compute during the inference stage, the scaling journey has just begun. Let's hope these two S-curves can continue to rise steadily for some time, allowing the scaling relay race to help us progress continuously on the path toward artificial general intelligence (AGI) and eventually artificial superintelligence (ASI).

 

【Related】

大模型三阶段的 scaling laws 接力赛

张俊林:从Deepseek R1看Scaling Law

 

大模型三阶段的 scaling laws 接力赛

黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。

我们知道,大模型有三个阶段:预训练、后训练、在线推理。过去几个月最大的改变是,业内基本有了共识,就是伊利亚宣称的说法,预训练时代结束了,著名的预训练的 scaling law 的经验法则貌似走到了头,进入平台期。于是有了推理模型(OpenAI O 系列,以及deepseek R 系列等)的兴起,强调的是后训练的思维链强化学习的投入以及对于在线推理时间(所谓 test time compute)的利用。推理模型也确实在数学、代码以及文字创造性方面展现了前所未有的亮眼成绩。

推理模型的后训练 scaling 刚开始,能走多远,还不清晰。但这个轨迹可以从 o1 变成 o3,以及 r1 到据说今后一两个月随时可能发布的 r2 等能力增强上,慢慢看到。最后这个推理阶段的 test time scaling 呢?

前阵子我跟国内最早鼓吹 scaling 三条S曲线的老友 Junlin 说,根本就没看到什么 test time scaling 呀,因为用户不能掌控模型的 test time compute,它花多少时间/算力,啥时候完成我给它的指令任务,是大模型自己决定的,test time 并不是可以“伸缩”(scaling)的呢。Junlin说,目前确实如此。

这几天玩大模型 deep research,逐渐体会到一点 test time scaling 的伸缩可能性。答案的端倪出现了。说到底就是,如果一个query 或课题,有没有一条曲线表示,如果你给它更多的思考和响应时间,它就完成得更好。具体说,在 o3-mini 下,有一个 button 叫 deep research,用户可以选择用或者不用。如果不用,你的问题也会有思维链,因为你一开始就选择了已经后训练强化的 o3 推理模型。推理模型的思维过程通常是一两分钟吧。但是如果你同时又按下 deep research 按钮,它最终完成任务的推理时间是加n倍的等待时间,可以长达10来分钟。这至少让我们看到了,模型不变,但推理现场的缩放时间不同,其结果是不同的。这应该算是 test time scaling 的前序或影子了。

那它是怎么做到的呢?让用户可以根据自己的课题的难易或挑战性,以及自己可以容忍的等待时间,来对同一个课题做不同的 test time compute 的投入,以便生成不同的结果呢?原来,它用的是某种 agent 的思路。deep research 这个按钮所提供的功能,实际上就是一个研究性推理的 agent。agent 是 LLM-native 的附加 feature,但不需要改变模型,它所改变的是在推理阶段与用户的交互方式。目前这种交互非常简单,只有一轮,但所开辟的这个 test time scaling 方向,预计可以继续探索与用户更长更多的交互,来帮助最大化 test time compute 的效果。

如果 test time compute scaling 并不是很快就遇到瓶颈,可以想象将来的 deep research 可以与用户互动很长的时间去完成一个非常复杂的项目,也许不是分钟量级的推理时间投入了,完全可以想象大模型投入 hours 甚至 days 来完成一个高难课题,譬如一个人类研究员需要几个月甚至几年才能完成的项目,或者完成一个人类无法完成的研究项目。当前的 deep research 非常简单,它在得到用户的 prompt/query 后,立即分解问题,并反问用户五六个简单的问题,来确认这个研究所需要的资料来源、广度、深度以及注意事项。得到用户的反馈以后,模型开始接受用户更新的资料(if any),并用 search 来收集更多的相关资料,然后按照任务的分解以及与用户确认过的计划和信息,对于每一个来源做分析,最后综合贯通,形成研究报告。这样一来,它所需要耗费的推理时间自然就加长了,因为任务不再是单一的任务,资料也不仅仅是自己模型内部已经消化了的知识,而是现场搜索的更多来源,处理这一切都需要时间。

对于推理模型的后编辑阶段的强化学习以及它在推理阶段的 test time compute 的投入,这两阶段的 scaling 征程刚刚开始。希望这两条S曲线还可以稳定上升一段时间,让 scaling 的接力赛助力我们在通用智能(AGI)和超级智能(ASI)的道路上不断前行。

 

 

【相关】

张俊林:从Deepseek R1看Scaling Law

Fundamental Limitations of Deep Learning: Origins in Data-Driven Methodology

In today's rapidly evolving artificial intelligence landscape, deep learning models have become the core engine driving technological innovation. However, behind these impressive achievements, deep learning faces several fundamental limitations that are not merely technical implementation challenges but are determined by the essence of its methodological approach.

This article explores the core limitations of deep learning beyond the well-known "black box" problem and analyzes their mathematical origins.

I. "Original Sin" of Data-Driven Approaches: Philosophical Dilemma of Statistical Learning

Confusion Between Correlation and Causation

Deep learning models are essentially high-dimensional probability density estimators. Their core objective is to find the best approximation of the conditional probability distribution P(y|x;θ) through parameters θ. Models learn from large volumes of training data, attempting to capture statistical patterns of various sizes and generalize them to unknown data. However, this statistical learning paradigm leads to a fundamental problem: models learn P(y|x) rather than P(x→y) – statistical correlation rather than causal relationships.

Consider a simple example: an AI medical system might discover that a certain type of rash is highly correlated with malaria diagnoses (possibly because the data was collected in regions with mosquito proliferation issues). The model establishes a pseudo-causal relationship of "rash → malaria" while overlooking temperature, humidity, and other actual disease factors.

This "causal misplacement" leads to poor model performance in new environments:

    • In regions without mosquito problems, the model may over-diagnose malaria
    • When facing new infectious diseases, the model may misclassify them as known categories
    • When the diagnostic environment changes, model performance significantly deteriorates

Information Bottleneck and Compression Distortion

According to information bottleneck theory, neural networks need to perform a special kind of information compression during training: discarding information in input X that is irrelevant to prediction Y while preserving all relevant information. Mathematically, this is expressed as maximizing:

I(Z;Y) - β·I(X;Z)

Where Z is the intermediate representation, I denotes mutual information, and β is a trade-off coefficient.

When training data is insufficient or biased, this compression process encounters serious problems:

    1. Discarding genuine causal signals (e.g., cell morphological features in medical images)
    2. Preserving pseudo-correlative signals (e.g., using hospital wall colors as diagnostic criteria)

The essence of this "lossy compression" causes models to grasp incorrect features in new environments. In fact, when H(Y|X) is incorrectly minimized, the model establishes data defect-driven false information channels rather than accurate mappings of reality.

II. The Low-Dimensional Manifold Hypothesis for Natural Data

A classic assumption in machine learning theory is that natural data resides on low-dimensional manifolds within high-dimensional spaces. Taking a simple example of a two-dimensional manifold in three-dimensional space, it resembles folded paper – although data points exist in 3D space, the intrinsic structure is 2D. Manifolds possess local Euclidean properties of smoothness and continuity: the neighborhood of any point on the manifold can be mapped to a low-dimensional Euclidean space. For instance, when a face rotates, the image slides continuously on the manifold without sudden changes.

Basic Concepts

    • High-dimensional space: Refers to mathematical spaces with dimensions far greater than 3. For example, a 100x100 pixel image exists in a 10,000-dimensional space (each pixel being one dimension).
    • Low-dimensional manifold: A continuous, smooth low-dimensional structure embedded in high-dimensional space. For example, a two-dimensional surface in three-dimensional space, or a structure of dozens of dimensions in a space of millions of dimensions. For instance, all ways of writing the digit "2" in a 784-dimensional pixel space form an approximately 10-dimensional manifold (controlling stroke thickness, tilt, curvature, etc.).

Why Natural Data Forms Low-Dimensional Manifolds

Natural data (such as video, images, audio, text) may seem to contain high-dimensional features but is constrained by physical laws and semantic restrictions, exhibiting low-dimensional characteristics:

Physical constraints:

    • A facial photograph's parameters are limited by bone structure, lighting angle, facial muscle movements, etc., with actual degrees of freedom potentially fewer than 50 dimensions.

Semantic constraints:

    • In textual data, grammatical rules and semantic coherence restrict seemingly unlimited vocabulary combinations to a finite meaning space. Other modal data is similar, also constrained by relationships between atomic units (tokens).

Dimensionality Reduction and Feature Extraction

The information "compression" in models is actually a process of dimensionality reduction and feature extraction. For example, the hierarchical structure of Convolutional Neural Networks (CNNs) progressively strips away redundant dimensions, approaching the essence of data manifolds. Shallow layers extract edges (local linear structures), while deeper layers combine them into object parts (global manifold structures). Manifold Learning explicitly recovers the intrinsic low-dimensional structure of data.

Taking 3D object recognition as an example: The translation and rotation of objects in 3D space form a 6-dimensional manifold (3 translations + 3 rotations). When related video image data is embedded in high-dimensional pixel space, ideal 3D object recognition involves dimensionality reduction to its 6-dimensional manifold, identifying objects through feature extraction.

III. Adversarial Examples: Fragility at Distribution Boundaries

Adversarial examples refer to samples that, through minor perturbations to original input samples, can cause deep learning models to produce incorrect outputs. For instance, a slightly modified panda image might be identified as a turtle with 99% confidence by AI.

The existence of adversarial examples reveals structural defects in data manifolds, challenging the traditional manifold hypothesis discussed above and exposing its fragility:

    • Natural data manifolds contain numerous "holes": areas not covered by training data
    • Manifold boundaries have high-curvature regions: minor perturbations can cross category boundaries

Theoretically, the possible combinations of high-resolution color images far exceed astronomical numbers. While natural images are constrained by physical laws, substantially reducing the effective space, it remains far from being adequately covered by existing datasets. This data sparsity is one fundamental reason why deep learning models are susceptible to adversarial attacks and struggle to generalize to extreme scenarios.

This sparse coverage allows attackers to find vulnerable points near decision boundaries. For example, adding carefully designed noise to a panda image that is almost imperceptible to the human eye can cause an image recognition model to misclassify it as a turtle.

Adversarial examples are not random but systematically exploit the geometric structure of model decision boundaries. A panda image being identified as a turtle is not due to random noise but because the noise is precisely added in the direction of the shortest path to the decision boundary.

Failure of Lipschitz Continuity

Lipschitz continuity is a metric for measuring how sensitive a function is to input changes. The higher the Lipschitz constant (L-value) of a deep network, the more sensitive the model is to input perturbations. The L-value of actual deep networks in adversarial directions can reach 10^3 magnitude, meaning that even minor perturbations may cause dramatic changes in model output. For example, in an autonomous driving system, if the image recognition model is overly sensitive to input perturbations, it might misidentify a large truck crossing an intersection as sky, leading to incorrect driving decisions.

Ideal classification models should satisfy the Lipschitz continuity condition, meaning that minimal input changes should only lead to limited output changes:

‖f(x+δ)-f(x)‖ ≤ L‖δ‖

Mathematical expression meaning:

‖model(input+small change) - model(input)‖ ≤ L × ‖small change‖

L is the "sensitivity coefficient," smaller L is better.

The failure of Lipschitz continuity causes input space to exhibit strong anisotropy (i.e., sensitivity in different directions varies dramatically). Imagine standing in complex terrain:

    • Natural perturbation directions (L≈1): Like walking on a gentle slope, moving 1 meter changes elevation by 1 meter, movement is safe and controllable
    • Adversarial perturbation directions (L≫1, e.g., L=10³): Like standing at a cliff edge, moving 1 centimeter might result in a 100-meter fall

This geometric structure makes it difficult for data augmentation based on uniform sampling to cover high-risk areas, as these areas have extremely low probability in natural data distribution but are "close" in Euclidean distance. For example:

    • Natural direction: Not sensitive to perturbations like lighting changes, blur, etc. (L≈1) ➔ Model can correctly handle everyday image variations
    • Adversarial direction: Specific minor perturbations cause dramatic changes (L=10³) ➔ Like applying "magic noise" to images, causing model misclassification

The Danger:

    • Exploited by attackers: Finding high-L directions to create adversarial examples is like knowing cliff locations and specifically targeting vulnerable points
    • Difficult to defend: Regular training covering all directions is prohibitively expensive, like requiring hikers to adapt to all terrain types, which is unrealistic

IV. The Mathematical Chasm Between Interpolation and Extrapolation

Interpolation Success vs. Extrapolation Failure

Deep learning models perform excellently on interpolation tasks but often fail in extrapolation tasks. This is not coincidental but determined by the essence of statistical learning:

    • Interpolation: Predicting points within the support set of the training data distribution, equivalent to filling gaps in known regions
    • Extrapolation: Predicting points outside the support set of the training data distribution, equivalent to exploring unknown regions

The success of modern deep learning largely depends on the assumption that "training distribution ≈ testing distribution." When this assumption is broken, extrapolation problems become severe, and model performance deteriorates dramatically.

Differential Geometric Explanation of Extrapolation Failure

Imagine you are a geographer drawing terrain maps:

    • Input space (M): The entire Earth's surface, containing plains, mountains, canyons, and various terrains
    • Data distribution (P_data): Regions explored by humans (cities, roads, farmland, etc.)
    • Classification model (f): Maps drawn based on terrain features (marking where forests, deserts are)
    • Decision boundaries: Transition zones between different terrains (e.g., transition between forest and grassland)

Tangent Space: Trends in terrain changes in explored areas. For example, in plains, slopes are gentle in east, west, north, and south directions (corresponding to natural perturbation directions).

The normal bundle refers to directions perpendicular to explored areas, such as suddenly appearing cliffs.

Key problem: Maps are accurate in explored regions but fail in unknown cliff areas.

When moving in unknown cliff areas, test data falls in the normal bundle of the training data distribution, and model generalization performance drops dramatically. This situation can be characterized by the following inequality:

∇ₓ log P_data(x)·δ > κ

Mathematical expression meaning:

(Terrain steepness) × (Movement direction) > (Map boundary blurriness)

Where κ is the curvature radius of the decision boundary, comparable to the width of the transition zone between forest and grassland on the map; δ is the perturbation vector, i.e., the direction of movement.

∇ₓ log P_data(x): "Terrain steepness" of data distribution

    • In frequently visited human areas (like cities), terrain is gentle (small gradient)
    • In uninhabited areas (like deep sea), terrain is steep (large gradient)

It is impossible to effectively cover unknown cliff areas through conventional training data augmentation because they have extremely low probability in the training distribution. Conventional data augmentation is like exploring in known areas and will not actively explore cliff directions because (1) the probability is extremely low: normal people don't deliberately jump off cliffs; (2) the cost is prohibitively high: exploring all dangerous directions requires infinite resources.

Consequence: When map users accidentally walk to the edge of a cliff, the navigation provided by the map fails; the map cannot predict whether you will fall off the cliff or discover a new continent.

Beyond Data-Driven Artificial Intelligence

The limitations of deep learning are not temporary technical difficulties but methodological boundaries determined by its "data-driven" nature. Relying solely on statistical patterns in data makes it difficult to achieve true causal understanding, out-of-distribution generalization, and reliable security guarantees.

One future direction may be to combine data-driven learning with structured prior logical symbolic systems, creating hybrid systems that can both leverage massive data and possess causal reasoning capabilities.

 

 

【Related】

深度学习的局限性研究综述

在人工智能快速发展的今天,深度学习大模型已成为推动技术革新的核心引擎。然而,在这些耀眼成就的背后,深度学习也面临着一系列根本性的局限,这些局限不仅是技术实现上的挑战,更是其方法论本质所决定的。

本文探讨深度学习除了黑箱以外的核心局限性,并分析它们的数学根源。

请参照机器自动生成的研究报告 o3 deep research: 深度学习局限性研究报告,本文不是在该研究报告基础上修正的版本,而是笔者综述调研同时进行的平行版本。因此,不敢说一定更好,虽然我花了不少时间核对、查验、精简、修正,道理上应该靠谱一些,至少可读性更好(?)。

一、数据驱动的"原罪":统计学习的哲学困境

相关性与因果关系的混淆

深度学习模型本质上是高维概率密度估计器,它的核心目标是通过参数θ找到条件概率分布P(y|x;θ)的最佳近似。模型通过学习大量的训练数据,试图捕捉数据中的大大小小的统计规律,并将其泛化到未知数据。然而,这种统计学习范式决定了一个根本性问题:模型学习的是P(y|x)而非P(x→y),即统计相关性而非因果关系。

举个简单例子,假设一个医疗AI系统在训练数据中发现,某种皮疹与疟疾诊断高度相关(可能因为采集数据的地区同时存在蚊虫滋生问题)。模型会建立"皮疹→疟疾"的伪因果关系,而忽略温度、湿度等真实致病因素。再如,模型可能学习到“公鸡打鸣”与“太阳升起”之间的强相关性,但这并不意味着公鸡打鸣导致了太阳升起。

这种"因果错置"导致模型在新环境中表现不佳:

    • 在没有蚊虫问题的地区,模型可能过度诊断疟疾
    • 面对新型传染病,模型可能将其误判为已知类别
    • 当诊断环境变化时,模型性能会显著下降

信息瓶颈与压缩失真

根据信息瓶颈理论,神经网络在训练过程中需要执行一种特殊的信息压缩:丢弃输入X中与预测Y无关的信息,同时保留所有相关信息。数学上表达为最大化:

I(Z;Y) - β·I(X;Z)

其中Z是中间表示,I表示互信息,β是权衡系数。

当训练数据不足或有偏时,这种压缩过程会出现严重问题:

    1. 丢弃真实因果信号(如医学图像中丢弃细胞形态学特征)
    2. 保留伪相关信号(如将医院墙面色调作为诊断依据)

这种"有损压缩"的本质导致模型在新环境中往往抓住了错误特征。实际上,当H(Y|X)被错误最小化时,模型建立的是数据缺陷驱动的虚假信息通道,而非对现实的准确映射。

二、自然数据的低维流形假说

机器学习理论中有一个经典假设:自然数据位于高维空间的低维流形上。以简单的三维空间中的二维流形为例,它就形似卷起的纸张,虽然数据点存在于3D空间,但内在结构是2D的。流形具有光滑性与连续性的局部欧几里得性:流形任意点的邻域可映射到低维欧几里得空间。例如,人脸旋转角度变化时,图像在流形上连续滑动,不会突变。

基本概念

    • 高维空间:指维度远大于3的数学空间,例如一张100x100像素的图像存在于10,000维空间中(每个像素为一个维度)。
    • 低维流形:嵌入在高维空间中的连续、光滑的低维结构。例如,三维空间中的二维曲面,或万维空间中的几十维结构。例如,784维像素空间中,数字"2"的所有写法构成约10维流形(控制笔画粗细、倾斜、弧度等)。

自然数据为何形成低维流形

自然数据(如视频、图像、语音、文本)看似蕴含着高维特征,实则受物理规律和语义约束,呈现低维特性:

    • 物理约束
      一张人脸照片的参数受限于骨骼结构、光照角度、表情肌肉运动等,实际自由度可能不足50维。
    • 语义约束
      文本数据中,语法规则和语义相谐性将看似无限的词汇组合限制在有限的意义空间内。其他模态数据也是如此,同样存在原子性单元(tokens)之间相互关系的约束。

降维与特征提取

模型的信息“压缩”实际上是降维与特征提取的过程。例如,卷积神经网络(CNN)的层级结构逐步剥离冗余维度,逼近数据流形本质。浅层提取边缘(局部线性结构),深层组合成物体部件(全局流形结构)。流形学习(Manifold Learning)意味着显式恢复数据的内在低维结构。

以3D物体识别为例
物体在3D空间中的平移、旋转形成6维流形(3个平移+3个旋转)。当相关视频图像数据嵌入到高维像素空间中以后,理想的3D物体识别就是降维到其6维流形,通过特征抽取识别物体。

三、对抗样本:分布边界的脆弱性

对抗样本是指通过对原始输入样本进行微小的扰动,就能使深度学习模型产生错误输出的样本。例如,一张微调过的熊猫图片会被AI以99%的置信度识别为乌龜。

对抗样本的存在揭示了数据流形的结构性缺陷,挑战了上文的传统流形假说,揭示了这一假说的脆弱性:

    1. 自然数据流形存在大量"孔洞":未被训练数据覆盖的区域
    2. 流形边界存在高曲率区域:微小扰动即可跨越类别边界

ImageNet包含128万张标注图像,但这些数据仅覆盖了自然图像空间的极小部分。理论上,高分辨率彩色图像的可能性组合数远超天文数字,而虽然自然图像受物理规律约束,实际有效空间大幅减少,但仍远未被现有数据集充分覆盖。这种数据稀疏性是深度学习模型易受对抗样本攻击、难以泛化到极端场景的根本原因之一。

这种稀疏覆盖使得攻击者可以在决策边界附近找到脆弱点。例如,在一张熊猫图片中加入一些精心设计的噪声,人眼几乎无法察觉,但却可以使图像识别模型将其误判为烏龜。

对抗样本不是随机的,而是系统性地利用了模型决策边界的几何结构。一张熊猫图片被识别为烏龜,不是因为随机噪声,而是因为噪声被精确添加到决策边界的最短路径方向。

李普希茨连续性的失效

李普希茨连续性是衡量函数对输入变化敏感程度的一个指标。深度网络的李普希茨常数(L值)越大,表示模型对输入的扰动越敏感。实际深度网络的 L 值在对抗方向上可达 量级,这意味着即使微小的扰动也可能导致模型输出发生剧烈变化。例如,自动驾驶系统中的图像识别模型如果对输入的扰动过于敏感,就可能将前方横穿路口的大卡车误识别为天空,从而导致错误的驾驶决策。

理想的分类模型应满足李普希茨连续条件,即输入的微小变化只能导致输出的有限变化:

‖f(x+δ)-f(x)‖ ≤ L‖δ‖

数学表达含义:‖模型(输入+小改动) - 模型(输入)‖ ≤ L × ‖小改动‖
L是"敏感系数",L越小越好。

李普希茨连续性失效导致输入空间呈现强烈的各向异性(即,不同方向上的敏感度天差地别)。想象你站在一片复杂地形中:

    • 自然扰动方向(L≈1):如同缓坡行走,移动1米海拔变化1米,行动安全可控
    • 对抗扰动方向(L≫1, 例如 L=10³):如同悬崖边缘,移动1厘米可能坠落100米

这种几何结构使得基于均匀采样的数据增强很难覆盖高风险区域,因为这些区域在自然数据分布中概率极小,但在欧氏距离上却很"近"。例如,

    • 自然方向:对光照变化、模糊等扰动不敏感(L≈1)
      ➔ 模型能正确处理日常图片变化
    • 对抗方向:存在特定微小扰动导致剧烈变化(L=10³)
      ➔ 如同在图片上施加"魔法噪声",使模型错判

各向异性的危险

    • 攻击者利用:找到高L方向制作对抗样本
      就像知道悬崖位置后,专攻脆弱点
    • 防御困难:常规训练覆盖所有方向成本过高
      如同要求登山者适应所有地形,不现实

四、内插与外推的数学鸿沟

内插成功vs外推失败

深度学习模型在内插(interpolation)任务上表现出色,但在外推(extrapolation)任务上往往失效。这不是偶然现象,而是其统计学习本质决定的:

    • 内插:预测落在训练数据分布支撑集内的点,相当于填补已知区域的空白
    • 外推:预测落在训练数据分布支撑集外的点,相当于探索未知区域

现代深度学习的成功很大程度上依赖于"训练分布≈测试分布"这一假设。当这一假设被打破时,外推问题严重,模型的表现会急剧恶化。

外推失效的微分几何解释

从微分几何视角看,可以将输入空间视为黎曼流形(M,g),分类模型f:M→ℝ^C将数据点映射到类别空间。

想象你是一位绘制地形图的地理学家:

输入空间(M):整个地球表面,包含平原、高山、峡谷等各种地形

数据分布(P_data):人类已探索区域(城市、公路、农田等)

分类模型(f):根据地形特征绘制的地图(标注哪里是森林、哪里是沙漠)

决策边界:不同地形的分界线(如森林与草原的过渡带)

切空间(Tangent Space):已探索区域的地形变化趋势,例如在平原地带,东西南北方向坡度平缓(对应自然扰动方向)。所谓法丛区域(normal bundle)指的是垂直于已探索区域的方向,例如突然出现的悬崖。

关键问题:地图在已探索区域表现精准,但对未知悬崖区域失效。

在未知悬崖区域移动时,测试数据落在训练数据分布的法丛区域,模型泛化性能急剧下降。这种情况可以用以下不等式表征:

 ∇ₓ log P_data(x)·δ > κ

数学表达含义:(地形陡峭度) × (移动方向) > (地图边界模糊度)

其中κ为决策边界的曲率半径,好比地图标注的森林与草原的过渡带宽;δ为扰动向量,即移动的方向。

∇ₓ log P_data(x):数据分布的"地形陡峭度"

      • 在人类常去区域(如城市),地形平缓(梯度小)
      • 在无人区(如深海),地形陡峭(梯度大)

无法通过常规训练数据增强来有效覆盖未知悬崖区域,因为它们在训练分布中概率极低。常规数据增强如同在已知区域做探索,不会主动探索悬崖方向,因为(1)概率极低:正常人不会故意跳崖;(2)成本过高:探索所有危险方向需要无限资源。

后果:当地图使用者意外走到悬崖边时,地图提供的导航失效,地图无法预测你会掉下悬崖还是发现新大陆。

结论:超越数据驱动的人工智能

深度学习的局限不是技术实现上的暂时困难,而是其"数据驱动"本质所决定的方法论边界。单纯依靠数据中的统计模式,难以实现真正的因果理解、分布外泛化和可靠的安全性保障。

一个未来方向可能是将数据驱动学习与结构化先验逻辑符号系统相结合,打造既能利用海量数据又具备因果推理能力的混合系统。

 

【相关】

 

o3 deep research: 深度学习局限性研究报告

立委按:这是 OpenAI o3 deep research 生成的研究报告,一字未改。可能尚存幻觉类错误,仅供参考。

我自己驱动的相同综述方向的人工版本是 深度学习的局限性研究综述,可以比对参照。不一定比此版更好。

本文将整理一篇深入分析深度学习局限性的研究报告,涵盖泛化能力、对抗样本、因果推理、黑盒问题,并结合数据驱动方法论的挑战、安全性问题和数学根源展开探讨。 分析统计学习的哲学困境、信息瓶颈理论、拓扑学视角的对抗样本解析、微分几何视角下的外推问题,以及数据缺陷的量子化表达。同时,探讨现有应对策略及其局限性,并展望未来可能的发展路径。

1. 深度学习的泛化能力与局限性

深度学习模型的核心优势在于对复杂数据模式的泛化能力。通过对大量样本的训练,深度神经网络能够学习高维特征表示,并在测试集上取得优异表现。这种泛化能力使其在图像识别、自然语言处理等任务上超越传统方法。然而,这种成功主要局限于训练数据分布内的情形,当面对更广泛的情境时,模型表现出一系列局限性。

相关性与因果关系的混淆:深度学习模型倾向于利用数据中的相关性来做出预测,却缺乏辨别因果关系的能力 () ()。它们可以在海量数据中发现高度相关的特征模式,但无法确定哪些因素是真正的因果因素。例如,模型可能将巧合当作关联,著名的案例如Google流感趋势因过度拟合搜索频率而产生误判 ()。实际上,神经网络无法区分关联与因果,常常对统计上显著却非因果的模式赋予意义,这会导致所谓的“愚蠢的洞察” () ()。正因如此,在复杂系统中缺乏因果推断能力会严重限制模型的预测可靠性 ()。

对抗样本脆弱性:深度模型被发现对对抗样本非常敏感。对抗样本是指在原始输入中加入人类几乎察觉不到的微小扰动,就能使模型信心十足地给出错误输出的输入 ()。例如,只需对一张图像像素做细微修改,就可能令模型将熊猫误识别为长臂猿,而人眼几乎看不出差别 ()。 (Adversarial example using FGSM  |  TensorFlow Core)上图演示了对抗样本攻击:原始图像$x$是熊猫(模型置信度57.7%),加入放大系数$\epsilon=0.007$的微小扰动$\text{sign}(\nabla_x J(\theta, x, y))$后,得到对抗样本$x+\epsilon,\text{sign}(\nabla_x J(\theta, x, y))$,模型被误导将其分类为长臂猿(置信度99.3%)。产生对抗扰动的一种常见方法是快速梯度符号法(FGSM),其公式为:$x_{\text{adv}} = x + \epsilon \cdot \text{sign}(\nabla_x J(\theta, x, y))$,表示沿损失函数对输入梯度的正方向施加微小步长$\epsilon$ (Adversarial example using FGSM  |  TensorFlow Core) (Adversarial example using FGSM  |  TensorFlow Core)。对抗样本现象凸显了深度模型在输入空间局部扰动下的非鲁棒性,表明它更多是根据浅层相关特征作决策,而非抓住人类理解的语义要点 ()。

黑盒性质:深度神经网络往往被视为黑盒模型,缺乏可解释性 () ()。模型内部的高维参数和非线性使人类难以理解其决策依据。实际上,网络只是将输入映射为数字并拟合统计相关性,它无法提供人类可理解的决策理由 ()。研究表明,模型的可解释性往往和灵活性呈反比,而神经网络是灵活性极高的模型,因此其内部机制难以解释 ()。这种黑盒特性意味着我们难以信任深度模型去完成高风险决策任务,例如医疗诊断或自动驾驶中的生死抉择 ()。同时,由于内部机制复杂且缺乏模块化结构,深度模型也很难调试和验证,这为实际部署带来安全隐患 ()。

数据依赖与需求:深度学习在很大程度上是一个数据驱动的范式。深度神经网络对大规模标记数据的依赖程度极高 ()。没有大量多样的训练数据,网络难以学习到稳健的模式。这导致在数据匮乏的场景下,深度学习往往表现不佳。例如,人类可以通过一两次示范就学会新任务(一次学习),但神经网络通常需要成千上万的样本才能勉强泛化 () ()。如果训练数据分布存在偏差或盲区,模型很容易记忆训练集而缺乏真正的理解 ()。正如有研究指出的:“这些模型表面上表现出对任务的理解,其实只是记住了海量数据,在训练数据覆盖不到的地方就会失败” ()。因此,深度学习革命在某种意义上是由“大数据”推动的,当缺乏大数据时,这种方法就陷入困境。

综上,深度学习模型在训练分布内展现了强大的泛化性能,但其对相关性依赖、对抗攻击脆弱、内部不可解释以及对数据的高度需求,构成了其显著的局限。这些问题为我们在更广泛、更复杂的现实环境中应用深度学习敲响了警钟。

2. 数据驱动方法论的挑战

深度学习崛起于数据驱动的统计学习范式,本质上可被视为一个高维的概率密度估计器。模型通过在训练集上最大化似然或最小化误差来捕获输入与输出之间的映射关系。然而,这种纯关联式的学习方法在哲学和实践上都面临挑战:

  • 统计学习的哲学困境:相关不等于因果。深度模型所学到的是训练数据中输入与输出的联合分布或条件分布,并没有内置因果推理机制 () ()。它在本质上是一种复杂的函数拟合,追求在样本内的准确性,却无法保证在介入干预下依然有效。这就像是模型在“盲目”地记录现象,而不理解“为什么”。当数据中存在混杂因素时,模型可能错误地将伪相关当作因果规律。正如上一节提到的例子:在有偏数据集里,模型看到沙漠背景经常伴随骆驼,就误以为沙漠是骆驼出现的原因 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。实际中,“沙漠”和“骆驼”只是相关而非因果,模型缺乏常识因此产生了误因果推理。这种哲学困境表明,纯数据驱动的方法难以获得对环境的深层理解。
  • 信息瓶颈理论的启示:信息瓶颈理论认为,一个好的模型应当在保持对输出预测有用信息的同时压缩无关的输入信息。在深度学习中,隐藏层可以被看作输入信息到输出信息的“瓶颈”。研究发现,深度神经网络的训练过程可能包含两个阶段:先是拟合训练数据,尽可能记住输入细节;随后进入压缩阶段,有意或无意地丢弃与输出无关的冗余信息 (Anatomize Deep Learning with Information Theory | Lil'Log)。这种压缩有助于提升泛化能力,因为模型专注于关键信息而忽略噪声。信息瓶颈观点为泛化提供了理论解释:模型最终学到的是关于输出的充分简洁表示,而非输入的完整细节。如果一个模型无法有效压缩信息,仍记忆了大量与任务无关的细节,它在新样本上表现往往较差。这一定程度上解释了为何适当的正则化和表示压缩有利于泛化。
  • 训练数据缺陷导致伪相关:数据驱动方法严重依赖于训练数据的质量和分布假设。如果训练数据存在偏差或瑕疵,模型就会学到伪相关,并在推理时做出错误因果假设。例如,如果狗的图片大多在草地背景,模型可能将“绿色草地”作为识别狗的特征之一。结果是,一张只有草地没有狗的图片也可能被模型高置信度地预测为狗 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客) ()。这就是训练数据中的偏差导致模型学到了错误关联。在现实中,数据常常存在偏倚(例如采集自有限的环境或存在标签噪声),深度模型缺乏自我校正机制,难以分辨哪些特征是偶然相关的。研究者已经观察到,深度模型有将统计上显著却无因果意义的特征据为己用的倾向 ()。这不仅会导致模型在无偏数据上性能下降,还可能产生不公平或不可靠的决策。
  • 外推问题(分布外无能为力):深度学习模型对分布外数据(OOD)表现不佳是一个众所周知的挑战。当输入分布发生轻微变化,或遇到训练集未覆盖的情形时,模型往往束手无策 () ()。神经网络本质上擅长插值(在训练分布范围内进行预测),但在外推(超出已知分布范围进行预测)方面几乎是“绝对失败” ()。正如文献所指出:“在意料之外的新情况或极端条件下,深度模型表现会急剧恶化” ()。这源于模型只能从有限的数据近似真实函数,在超出经验数据范围时,没有依据进行可靠推断 ()。现实世界往往是开放环境,充满了复杂和未见的情境。没有无限的数据去覆盖所有可能,深度学习在开放世界中无法保证性能 ()。例如,一个在晴天公路图像上训练的自动驾驶模型,可能无法应对雪天或泥泞道路,因为这些是训练中未出现的“未知领域”。这种分布外泛化无能限制了深度学习部署在变化环境中的可靠性。

总而言之,当前的数据驱动深度学习方法存在明显的局限。它们在本质上是一种统计关联的学习:捕捉了高维数据中的模式,却缺乏因果推理和开放环境适应能力。信息瓶颈等理论为提升泛化提供了方向,但仍不足以解决由于数据缺陷和分布变化带来的挑战。未来的方法需要在纯关联学习之外,引入因果推断、先验知识和更强的模型假设,才能克服这些方法论上的瓶颈。

3. 对抗样本的数学解析

深度神经网络的对抗脆弱性可以从拓扑学、分析学和微分几何等角度加以理解。这些理论视角揭示了模型决策边界和数据结构的内在缺陷,为对抗样本的产生提供了数学解释。

3.1 拓扑视角:数据流形的结构性漏洞

高维输入数据通常假定分布在一个低维流形上。也就是说,真实样本只占据了输入空间中的一个局部子流形。然而,分类模型的决策边界需要在整个高维空间上划分类别区域。拓扑学角度表明,当数据流形嵌入在高维空间中时,其共维数(codimension)很高,围绕流形会存在大量“空白”区域。在这些流形之外的方向上,模型的决策边界缺乏约束,容易被攻破 (On the Geometry of Adversarial Examples | OpenReview)。正如一项几何分析指出的:对抗样本是深度模型决策边界在数据流形附近不正确分类的自然结果 (On the Geometry of Adversarial Examples | OpenReview)。由于训练时模型只需在流形上正确分类数据,它可能仅在流形表面学得很好,而对于流形附近的点(只差一点点就偏离了训练分布)分类却是任意的 (On the Geometry of Adversarial Examples | OpenReview)。这一结构性漏洞意味着:攻击者可以沿着垂直于数据流形的方向轻微移动样本,使其仍然在原始样本的邻域中(人眼看来几乎没变),却因脱离流形而落入决策边界另一侧。换言之,数据流形犹如悬浮于高维空间中的“岛屿”,四周充满了模型未曾见过的区域,对抗攻击正是利用了这些区域的漏洞。流形结构越是弯曲、高维,留给攻击者可利用的“缝隙”就越多,使得生成对抗样本成为可能 (On the Geometry of Adversarial Examples | OpenReview)。

3.2 李普希茨连续性失效:局部稳定性问题

理想情况下,分类函数应该是足够平滑的,对输入的小扰动保持稳定。然而,深度神经网络通常缺乏全局的李普希茨连续性约束,其输出对输入变化非常敏感。当网络在训练数据上高度拟合时,在某些方向的梯度会变得很大。这意味着存在较大的局部李普希茨常数——输入的一微小变化可以引起输出置信度的巨大变化,从而跨越决策边界。研究已表明,仅修改图像的几个像素就可能导致DNN完全错误地分类,这强调了此类模型局部稳定性的缺失 (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)。形式上,如果一个模型$f(x)$的李普希茨常数$L$非常大,那么$|x'-x|$虽很小,但$|f(x')-f(x)|$可能超过判别阈值,导致类别变化。对抗样本正是利用了这一点:通过沿着梯度方向施加精心设计的微小扰动,攻击者使模型输出发生非线性放大,从而产生错误分类。直观来说,深度网络在输入空间形成了复杂的山谷和峰峦,对抗扰动就像在谷底推了一把,看似平静的输出瞬间跃上海拔。稳定性精确拟合间存在矛盾:理论和实证结果都指出,提高模型对对抗扰动的鲁棒性常常要以牺牲部分标准精度为代价 (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)。这被视为深度学习中的一种基本权衡:追求对训练数据的极致拟合(高精度)会导致决策函数过于陡峭,从而难以兼顾对输入噪声的稳定性。这种李普希茨连续性的失效解释了为何神经网络在非常局部的范围内缺乏鲁棒性,也指导我们通过控制梯度范数(例如谱范数约束)来提升模型稳健性。

3.3 微分几何视角:测地线攻击路径与决策边界曲率

从微分几何的角度,可以将输入空间视为带有测度的流形,分类决策边界则是嵌入其中的一个超曲面。测地线攻击路径指的是在输入空间中,连接原始样本与目标对抗样本的最短路径。如果模型足够鲁棒,那么在原始类别流形内沿任意短路径都不应越界;但实际情况是,攻击者可以找到一条极短的路径穿过决策边界,将样本送入错误类别。这条路径往往偏离数据流形,抄近道绕过了模型对流形内数据的防御。决策边界的曲率在其中扮演重要角色:如果边界在样本附近高度弯曲或复杂起伏,那么存在局部区域使得很小的扰动即可达到另一侧类别。研究发现,通过对抗训练等方法增强鲁棒性,会显著降低决策边界在输入空间的曲率,使其更加平滑 ([PDF] Robustness via Curvature Regularization, and Vice Versa)。也就是说,脆弱模型的决策边界可能是“皱巴巴”的,充满高曲率的小曲面,导致分类区域犬牙交错;而鲁棒模型的边界更趋于平滑和笔直,需要更大的扰动才能跨越 ([PDF] Robustness via Curvature Regularization, and Vice Versa)。在微分几何上,可以将对抗扰动视作在决策边界法向方向上的微小位移。对抗攻击等价于找到一条绕过边界的捷径,而边界曲率越大,这条捷径越短。比如,当决策边界在样本点附近形成一个凸起,攻击者沿垂直于边界方向前进一点点就跌下凸起进入另一侧分类区域。这解释了测地线极短且几乎贴着数据流形表面的攻击路径是如何存在的。此外,高曲率还意味着不同方向上的鲁棒性各异,模型在某些特征方向上特别脆弱。综合来看,微分几何视角揭示:深度模型决策边界的形状不够平滑规整,存在曲率过大的薄弱环节,这使得对抗样本能够以最小的“能量”越过边界成功欺骗模型。

通过以上拓扑、分析和几何视角的解析,我们更全面地理解了对抗样本形成的原因:高维数据流形之外的大量空间给了攻击以可乘之机,模型的局部不稳定和决策边界弯曲则决定了这些攻击可以以何等微小的代价奏效。这些理论洞见也为提升模型鲁棒性指明了路径,例如通过流形约束、梯度正则和边界平滑等手段来弥补先天的结构缺陷。

4. 安全性问题与防御方案

深度学习模型的对抗脆弱性和不可解释性带来了严重的安全隐患。针对这些问题,研究者提出了多种防御策略。然而,每种方案都有其局限性,需要辩证地加以理解。

对抗样本攻击的防御策略大致可分为以下几类:

  • 对抗训练:将经过算法生成的对抗样本加入训练集中一同训练模型,使模型学会识别并抵抗这些微扰 (Adversarial Attack and Defense: A Survey)。这是目前最主要的防御手段之一,通过在训练阶段模拟攻击来增强模型鲁棒性。对抗训练在小规模数据集上显示出显著效果,但其局限在于对数据和计算量要求更高,而且在大规模数据集(如ImageNet)上训练和调参非常困难 (Adversarial Attack and Defense: A Survey)。即使经过对抗训练,模型的防御也不是牢不可破——往往攻击者稍作调整就能再次骗过模型 (Adversarial Attack and Defense: A Survey)。此外,对抗训练还可能降低模型对干净样本的精度,这体现了鲁棒性与准确率间的权衡。
  • 鲁棒优化:从优化的角度,将训练目标改为极小极大问题,提升模型在最坏情况下的性能。这与对抗训练本质相同,即在损失函数中加入对扰动的最大化过程,寻找模型决策在局部的最坏情况并据此更新参数。一些改进的方法如PGD(投影梯度下降)对抗训练、TRADES等,都属于鲁棒优化范畴。它们通过更强的攻击迭代或修改损失项来提高鲁棒性。然而,这类方法经常面临计算成本高昂的问题,而且当扰动范围增加或攻击方式改变时,模型鲁棒性可能急剧下降 (Adversarial Attack and Defense: A Survey)。鲁棒优化也难以防御分布外或物理世界中的攻击(如真实场景的光线变化、打印再拍摄攻击),因为这些超出了简单范畴内扰动的假设。
  • 正则化与随机化方法:通过在训练时加入各种正则项或在预测时对输入/模型进行随机扰动,来平滑模型决策边界,提高鲁棒性。例如,梯度正则化方法在损失中惩罚输入梯度的大小,使模型学习到更平缓的函数;随机噪声注入输入转化(如输入随机压缩、平移)在预测阶段扰乱潜在攻击者的信息。同样地,防御蒸馏(distillation)曾被提出通过压缩软标签知识来增强模型稳定性。这些方法有时能在非适应性攻击下减少对抗样本成功率,但很多被证明属于**“梯度掩蔽”**(gradient masking)技巧 (Towards Understanding and Improving Adversarial Robustness of Vision Transformers)——它们并未真正提高模型本质鲁棒性,而是通过隐藏有用梯度信息来暂时阻碍攻击。当攻击者认识到防御策略并进行相应调整后,这些防御常被攻破 (Towards Understanding and Improving Adversarial Robustness of Vision Transformers)。因此,仅依赖正则和随机手段往往不能提供持久可靠的安全保障。

尽管上述防御策略层出不穷,深度模型的安全性仍然令人担忧。这些防御的局限性在于:首先,大多数防御只针对已知的特定攻击,在遇到新型攻击或适应性攻击时失效。例如,一些防御通过让梯度不可导或不可用来阻止攻击,但改进的攻击(比如通过梯度估计或期望重写技术)仍能突破。其次,防御往往带来性能开销。对抗训练会降低模型对正常样本的精度,复杂正则项增加了训练难度,有些防御还需要额外的推理步骤。再次,许多防御缺乏理论保证,我们无法证明模型在某扰动范围内一定安全,只能不断地通过各种攻击来检验。事实上,近年来多个声称成功的防御在更强的白盒攻击下纷纷被攻破,表明安全对抗是一个动态的攻防军备竞赛

即便如此,这些研究为未来指明了改进方向。例如,对抗训练的发展催生了混合对抗训练特征层对抗训练等更强方法;鲁棒优化激发了认证鲁棒性研究,尝试从数学上证明模型对一定范围扰动是安全的;正则化手段则逐步与架构设计结合,出现了诸如利用随机平滑获得置信区间的方案等。总的来说,目前没有万无一失的防御——每种方法都有局限,但组合多种策略或探索全新思路可能带来突破。

5. 理论分析与未来发展

面对深度学习当前的局限性,研究者从更深层的理论角度分析问题,并探索未来的发展路径。下面讨论几个具有前瞻性的方向:

数据缺陷的量化表达:对于深度模型因数据导致的泛化问题,有学者借鉴物理概念提出了类似**“正交灾难”“不确定性原理”的观点加以描述。正交灾难指的是在高维空间中,不同样本或特征方向往往近似正交,导致模型难以在各方向上同时保持良好性能——在一个方向上精细拟合数据(降低误差),可能会牺牲在另一个正交方向上的泛化,从而陷入维度灾难的困境。这可以类比于量子多体系统中的正交性灾难:状态空间维度巨大,以致一个微小扰动就使系统基态与原本几乎正交,重叠率骤降。对应到深度学习,微小的分布变化可能令原模型与新形态的“真实函数”几乎无重叠,需要完全重新学习,这解释了模型对分布变化如此敏感的原因。同时,不确定性原理被用来类比深度模型中精度与鲁棒性**的不可同时最大化 (On The Uncertainty Principle of Neural Networks)。有研究提出,网络对输入的识别能力和对扰动的抗噪能力是一对互相制约的“共轭变量” (On The Uncertainty Principle of Neural Networks)——提高对特征的敏感度(提升精度)会降低对梯度扰动的鲁棒性,反之亦然 (On The Uncertainty Principle of Neural Networks)。这种观点将深度学习的权衡提升到原理层面,提示我们在设计模型时必须接受某种形式的折衷,如同测不准原理限制同时精确测定粒子的位置和动量一样。对这些现象的量化分析,能够加深我们对模型固有局限的理论理解,为突破现有瓶颈提供指引。

因果介入学习:鉴于深度学习混淆相关性与因果性的缺陷,融入因果推理被认为是未来的重要方向之一 () (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。因果介入学习主张在模型中显式地考虑干预和反事实推断,让模型不仅“知其然”还要“知其所以然” (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。具体途径包括:借助因果图谱和结构方程模型,将领域知识融入网络;在训练过程中对输入进行干预操作(如打破某些相关性,模拟因果试验),迫使模型区分直接原因和伴随因素;开发新型损失函数,使模型对因果不变特征的预测更优(如因果不变风险最小化)。已经有大量研究致力于因果表征学习,希望学习到的中间表示能对应真实的因果因素 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。通过因果介入,模型有望获得更稳定的泛化性能更强的可解释性,例如在面对分布变化时,只要因果机制不变,模型决策就应当不变。这对于实现真正可靠的人工智能至关重要。目前,包括科技巨头在内的很多研究团队都在积极探索将因果推断融入深度学习的方法 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。尽管这仍处于早期阶段,但它为克服关联学习的瓶颈提供了有力方向。

微分流形增强:上一节讨论的对抗漏洞表明,需要从数据流形的结构入手增强模型鲁棒性。未来模型或训练策略可能显式地考虑流形约束几何信息。一种思路是令模型的表示空间本身构建为一个更合理的流形,使得类内样本分布在紧致光滑的流形上、类间有明显间隔,减少不确定区域。例如,利用流形正则化,在训练时惩罚模型在流形邻域内的输出变化,鼓励决策边界顺着数据流形表面而非横切通过 (Manifold-driven decomposition for adversarial robustness - Frontiers)。又或者,结合流形学习方法(如流形降维、自回归流形建模),先学习数据所在的低维流形结构,再在该流形坐标系中训练分类器,从而避免高维空间那些无效区域的干扰。微分几何还启发我们关注决策边界的平滑度:未来的训练可能直接以降低边界曲率为目标,形成更“平坦”的分类区域,提高对抗鲁棒性。此外,拓扑层面的分析(如利用代数拓扑的持久同调等)也可用于约束模型,使其决策边界拓扑结构与数据真实分类结构一致,不出现奇异的决策区域。从业界进展看,已经有一些针对特定任务的流形防御措施(如在人脸识别中将对抗样本投影回人脸图像流形)取得了积极效果。总体而言,将深度学习与微分流形/拓扑分析结合,有望打造出更理解数据几何结构、更稳健可靠的模型。

量子化正则化:这里的“量子化”并非专指量子计算,而是泛指离散化/量化技术对模型的正则作用。一方面,将模型权重和激活进行数值量化可以减少自由参数的表示能力,从而在一定程度上防止过拟合,提高泛化性能。这类似于把连续的参数空间用栅格划分,模型无法表示非常精细的差异,从而自然具有滤除高频噪声的效果。另一方面,量子力学中的某些原理也被借鉴来改进正则化手段。例如,有人提出利用量子态塌缩机制来随机正则网络权重,使模型在训练过程中跳出某些陷阱解;或者利用量子叠加/纠缠思想构造新的激活函数和正则项,迫使网络学到更具鲁棒性的表示 (Quantum adversarial machine learning | Phys. Rev. Research) ((PDF) Quantum adversarial machine learning - ResearchGate)。此外,真正的量子机器学习也在兴起,利用量子算法求解经典网络的优化问题、或构造量子神经网络等。如果将来量子计算机足够成熟,或许可以训练出内在就具有抗噪性的量子化模型(因量子系统天然服从不确定性原理约束)。当然,目前这些都处于探索阶段,但“量子化”思想提供了一种跳出现有框架限制的新视角,即从离散化与物理原理角度重新审视模型复杂度与泛化的平衡。

新型架构的实践进展:深度学习架构的革新也被寄予厚望以改进模型的局限性。以Vision Transformer (ViT)为代表的自注意力模型是近年出现的与卷积网络不同的新架构。ViT在图像领域不依赖卷积结构,而是采用全局自注意力机制,一开始人们希望这种架构能缓解CNN某些固有偏差(例如CNN偏重局部纹理)。实践表明,Transformer在某些方面展现出与CNN不同的泛化特性和鲁棒性。有研究指出,在采用对抗训练时,ViT在对抗攻击下的泛化性能可能优于同等条件下的CNN (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective);但也有研究发现,Transformer在某些频率域扰动下甚至更脆弱 (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective) (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective)。总体来看,ViT等新模型并非对局限性免疫:它们仍需要大量数据预训练,在缺乏归纳偏置的情况下甚至更依赖数据;同时自注意力机制本身也会遭受对抗攻陷(如针对补丁的攻击)。不过,好消息是,ViT的出现拓宽了架构设计空间,启发了诸如混合架构(结合卷积和注意力)、更强归纳偏置的Transformer(如嵌入位置编码的先验)等探索。这些最新架构为研究模型结构与泛化/鲁棒性的关系提供了新的试验平台。例如,通过比较CNN和Transformer对抗扰动的反应,我们可以更深入了解是什么导致了模型的脆弱性,并据此改进架构设计。未来的模型或许会融合多种机制,既拥有卷积的局部稳定,又具备注意力的全局灵活,以在复杂任务中取得更好的稳健性和平衡性能。

总结展望:深度学习的局限性既源于算法范式(数据驱动的相关学习),也与工程实现(模型结构、训练数据)密切相关。理论分析为我们揭示了这些问题背后的深层原因,如信息瓶颈、维度灾难、对抗攻防中的基本权衡等。在未来的发展中,一个共识是:仅靠堆积数据和参数规模难以彻底克服当前瓶颈,我们需要在学习范式上有所突破。这可能意味着结合因果推理引导学习、融入物理世界的先验和约束、设计更具透明性和模块化的模型,以及跨越经典与量子的思维来正则化学习过程。当下的研究已经在朝这些方向前进,同时新的架构(如ViT)和训练策略也不断涌现,为改进提供了契机。可以预见,未来的深度学习模型将不再是纯粹的数据相关性黑盒,而将逐步朝着更懂因果、更几何鲁棒、更加可控可靠的智能体演进。在这个过程中,本文讨论的各方面局限性研究将持续发挥作用,指导我们迈向下一个人工智能阶段的里程碑。

参考文献:

【1】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.3-4. ()

【2】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.7. ()

【3】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.7-8. () ()

【4】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.5. ()

【5】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.5-6. () ()

【6】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.6. ()

【7】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.10. ()

【8】 CSDN博文. 深度学习因果推断与机器学习的高级实践, 2024. (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客) (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)

【9】 CSDN博文. 深度学习因果推断与机器学习的高级实践, 2024. (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)

【10】 Marc Khoury, Dylan Hadfield-Menell. On the Geometry of Adversarial Examples. ICLR 2019. (On the Geometry of Adversarial Examples | OpenReview)

【11】 Marouan Benidir et al. Multivariate Lipschitz Analysis of the Stability of Neural Networks. Frontiers in Signal Processing, 2022. (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)

【12】 Francesco Croce et al. Robustness via Curvature Regularization, and Vice Versa. CVPR 2020. ([PDF] Robustness via Curvature Regularization, and Vice Versa)

【13】 Zhen Xiang et al. On the Uncertainty Principle of Neural Networks. arXiv preprint arXiv:2205.01493, 2023: pp.6-7. (On The Uncertainty Principle of Neural Networks)

【14】 Hongshuo Liang et al. Adversarial Attack and Defense: A Survey. Electronics, 11(8):1283, 2022: pp.15-16. (Adversarial Attack and Defense: A Survey)

【15】 Samyak Jain et al. Towards Understanding and Improving Adversarial Robustness of Vision Transformers. CVPR 2024. (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective) (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective)

【16】 TensorFlow Tutorial: Adversarial example using FGSM. TensorFlow官方教程, 2022.

 

 

【相关】

深度学习的基石:多层感知机

一、单层感知机的致命缺陷

要理解多层感知机的突破性,我们先看一个经典案例:假设我们需要实现“异或”逻辑(XOR),定义如下:

| 输入A:0 | 输入B:0 | 输出:0 |
| 输入A:0 | 输入B:1 | 输出:1 |
| 输入A:1 | 输入B:0 | 输出:1 |
| 输入A:1 | 输入B:1 | 输出:0 |

当我们在坐标系中绘制这些点时,会发现正例(0,1)和(1,0)位于对角线两侧,形成一个典型的非线性可分问题。单层感知机的决策边界只能是直线,就像试图用一把直尺分开两堆交叉摆放的硬币——这是数学上证明不可能完成的任务(闵斯基1969年证明)。

二、解法:特征空间升维

关键思路:通过增加隐藏层,将原始二维输入投影到三维特征空间。

我们设计两个特殊神经元:

神经元H₁:激活条件 = 1*A + (-1)*B > 0.5
神经元H₂:激活条件 = (-1)*A + 1*B > 0.5

输入变换过程

当输入(1,0)时:

H₁:1*1 + (-1)*0 = 1 → 激活
H₂:(-1)*1 + 1*0 = -1 → 不激活

当输入(0,1)时:

H₁:1*0 + (-1)*1 = -1 → 不激活
H₂:(-1)*0 + 1*1 = 1 → 激活

当输入(1,1)时:

H₁:1*1 + (-1)*1 = 0 → 不激活
H₂:(-1)*1 + 1*1 = 0 → 不激活

此时特征空间变为:

| 原始输入:(0,0) | 隐藏层特征 :(0,0) |
| 原始输入:(0,1) | 隐藏层特征 :(0,1) |
| 原始输入:(1,0) | 隐藏层特征 :(1,0) |
| 原始输入:(1,1) | 隐藏层特征 :(0,0) |

神奇的事情发生了——原本线性不可分的问题,在特征空间中被转换为线性可分问题!

三、输出层

在输出层,我们只需一个简单的OR逻辑:

输出 = H₁ OR    H₂

此时只需一条直线就能完美分割正负例。这种「空间变换+线性分割」的思想,正是深度学习突破维度诅咒的武器。现代神经网络中,每个隐藏层都在进行更复杂的空间扭曲,最终在高维特征空间中用超平面分割数据。

四、数学本质:非线性变换

整个过程可视为:

f(X) = σ(W₂·σ(W₁X + b₁) + b₂

其中:

W₁是第一层权重矩阵 [[1,-1], [-1,1]]
b₁是偏置向量 [-0.5, -0.5]
σ是阶跃激活函数
W₂是输出层权重 [1,1]
b₂是输出偏置 -0.5

这个结构实现了:
1. 第一层:将输入空间扭曲为线性可分的新空间
2. 第二层:在新空间中进行线性分类

传统OR门的感知机表达式:

输出 = 1*H₁ + 1*H₂ - 0.5 > 0

每个输入的权重都是1,表示H₁和H₂同等重要
当任意一个输入为1时,加权和为1;两个都为1时和为2
设置阈值0.5(移项后表达式为加权和 > 0.5)
只要有一个输入为1(1 > 0.5),即触发激活
两个都为0时(0 > 0.5)不激活


用真值表验证公式的正确性:

H₁ H₂ 计算过程 结果
0 0 0+0-0.5 = -0.5 0
0 1 0+1-0.5 = 0.5 1
1 0 1+0-0.5 = 0.5 1
1 1 1+1-0.5 = 1.5 1

(注:在XOR场景中,H₁和H₂不会同时为1,最后一行为理论验证)

用Python实现这个经典XOR网络:

import numpy as np

# 定义网络结构
W1 = np.array([[1, -1], [-1, 1]])  # 第一层权重
b1 = np.array([-0.5, -0.5])        # 第一层偏置
W2 = np.array([1, 1])              # 输出层权重
b2 = -0.5                          # 输出层偏置

def perceptron(X):
    # 第一层计算
    h = np.heaviside(np.dot(X, W1) + b1, 0)
    # 输出层计算
    return np.heaviside(np.dot(h, W2) + b2, 0)

# 测试所有输入
inputs = [[0,0], [0,1], [1,0], [1,1]]
for x in inputs:
    print(f"输入{x} → 输出{perceptron(x)}")

输出结果:

输入[0, 0] → 输出0
输入[0, 1] → 输出1
输入[1, 0] → 输出1
输入[1, 1] → 输出0

六、历史意义与延伸

这个简单案例揭示了深度学习的核心思想:

- 层次化处理:如同视觉皮层V1→V2→V4的信息处理流程
- 分布式表示:单个概念由多个神经元协同表示
- 端到端学习:现代网络通过反向传播自动学习W,b参数

今天的Transformer架构依然延续这个基本原理,只是:

- 隐藏层数从2层增加到数百层
- 手动设计参数变为自动优化
- 阶跃激活变为ReLU等平滑函数
- 增加了注意力机制等复杂交互

理解这个案例,就掌握了理解深度学习的钥匙——任何复杂网络,本质上都是这个「俄罗斯套娃」结构的扩展与优化。

 

左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练

交替使用监督微调(SFT)与强化学习(RL)的策略探讨

在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。


1. 交替使用 SFT 和 RL 的根本动因

(1) 训练稳定性与策略纠偏

    • RL 的脆弱性
      强化学习高度依赖奖励函数设计,但在现实任务中,奖励信号往往稀疏(例如数学推理任务中仅有最终答案正确性的反馈)或含有噪声(如人类反馈存在标注误差)。如果长期仅依靠 RL,模型可能陷入局部最优,生成虽能获得高奖励却逻辑混乱的答案。
    • SFT 的锚定作用
      定期引入 SFT 训练,通过高质量数据(如人工修正的思维链或模型“拒绝采样”而过滤的思维链)校正模型生成分布,可以有效防止 RL 阶段过度偏离合理路径。例如,DeepSeek-R1 在第二阶段 RL 后,通过 SFT 数据,成功修复了模型在复杂不等式推导中出现的符号错误。

(2) 数据效率与知识复用

    • RL 的数据饥渴性
      生成有效的 RL 训练数据(如通过模型自身采样获得的推理轨迹)成本极高。以 Open-R1 项目为例,每天需用 512 块 H100 GPU 生成 18 万条轨迹,其中只有约 30% 能通过数学验证。【依据细节待查验】
    • SFT 的快速收敛优势
      在关键能力瓶颈期(例如模型无法处理多步逻辑组合时),直接注入少量精标的 SFT 数据(如 5000 条人工编写的分步解析)能迅速突破性能瓶颈,避免 RL 长时间的探索过程。R1第一步的冷启动即是如此。

(3) 防止灾难性遗忘

    • RL 的窄化效应
      当 RL 过度优化特定任务(如数学证明)时,模型可能会牺牲其他能力(例如常识推理)。有研究表明,纯 RL 训练的模型在 MATH 数据集上准确率提升了 5%,但在 TruthfulQA 上真实性得分下降了 8%。【依据细节待查验】
    • SFT 的全域校准
      通过混合多领域 SFT 数据(例如同时包含数学题和事实核查问答),可以有效维持模型的通用性。DeepSeek-R1 第三阶段的混合数据微调正是基于这一设计理念。

2. 为何不持续使用 RL 或仅用蒸馏?

(1) RL 的固有局限性

    • 奖励假设的不可靠性
      RL 假设奖励函数能够完全表征任务目标,但在复杂任务中,这一假设几乎难以成立。例如,代码生成任务若仅以单元测试通过率作为奖励,模型可能生成通过测试但存在安全漏洞(如缓冲区溢出)的代码。
    • 策略坍塌风险
      长期 RL 训练可能导致模型策略多样性丧失。在对话任务中,模型可能反复生成高奖励但公式化、缺乏创意的回答,从而损害用户体验。

(2) 蒸馏的适用边界

    • 表达能力损失
      蒸馏通过模仿教师模型的输出分布实现知识迁移,但这种方式往往会丢失隐式推理能力。例如,DeepSeek-R1-Zero 的蒸馏版本在多跳推理的 MATH 题目上性能较原模型下降了约 12%。【依据细节待查验】
    • 教师依赖陷阱
      蒸馏效果受限于教师模型的整体质量。如果教师模型存在系统性错误(如物理常识错误),学生模型难以自主纠正,而 RL 能够利用环境反馈及时修正此类错误。

3. 交替循环的深层价值

(1) 螺旋式能力进化

    • SFT → RL 的递进
      SFT 阶段提供了基本能力的锚点,RL 则在此基础上探索更优策略。例如,模型在 SFT 阶段学会标准数学符号的使用,随后通过 RL 发现了更简洁高效的路径。
    • RL → SFT 的修正
      RL 阶段暴露出的不足(如过度简化关键步骤)可以通过新一轮 SFT 注入数据进行修正。这种交替循环类似于人类“学习-实践-反思”的认知过程。

(2) 多目标动态平衡

    • 性能与安全性的博弈
      纯 RL 可能为追求高得分而牺牲安全性,例如生成偏激或不当内容。而定期使用 SFT 注入经过伦理审查的数据,可以动态约束模型输出,确保既有高性能又符合安全规范。
    • 通用与专用的适配
      交替训练使得模型既能通过 SFT 保持广泛适用性(如客服对话),又能通过 RL 深耕垂直场景(如医疗诊断中的检查项推荐),从而在多种任务上均表现出色。

总结:交替策略的系统性优势

    • 风险控制:通过 SFT 定期校准,规避了 RL 训练过程中可能出现的失控风险。
    • 资源优化:在 RL 数据生成成本与 SFT 标注成本之间取得了良好的平衡。
    • 能力完备性:既兼顾了 SFT 的模仿学习规范性,又融合了 RL 的探索学习创造性,最终实现了模型能力的稳健提升。

这种交替策略实际上是将“定向引导”与“自由探索”相结合,既避免了纯 RL 的“野蛮生长”,也超越了纯 SFT 的“照本宣科”,最终实现了模型综合能力的全面进化。同时,尽管蒸馏在某些场景下(如移动端轻量化)有其独特优势,但它并不能替代这种系统性的优化路径。

 

【相关】


o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析

好的,我将对 DeepSeek R1 的整体训练过程进行研究,并重点分析强化阶段(第二、三、四阶段)的具体细节,包括 RL、SFT、CoT 的方法和策略。

报告将采用问答解析的形式,同时保持一定的技术深度,并确保可读性。还会在必要时提供与 GPT-4、Claude、Gemini 等模型的简单核心对比,以展示其独特性。

我会尽量参考 DeepSeek 官方网站的论文和技术资料,同时结合网络上的研究和学习经验进行综合分析。

DeepSeek R1 多阶段训练流程问答解析

Q1: DeepSeek R1 的整体训练包含哪些阶段,为什么采用多阶段策略?

A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式,然后大规模提升推理能力,接着扩展通用能力,最后对齐人类偏好,逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说:

通过上述多阶段渐进式训练,DeepSeek R1 最终在推理能力上达到接近OpenAI o1系列闭源模型的水平,同时保持了输出的规范性和对用户需求的良好适应 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻)。

Q2: 第二阶段的推理强化学习是如何实施的?训练是逐个问题进行还是批量进行?训练数据是否会保留?奖励机制如何设计?

A: 阶段2是针对推理能力的强化学习训练。在这一阶段,DeepSeek R1 采用了GRPO算法(分组相对策略优化)来高效地进行RL训练 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。具体来说,对每个问题,不会只生成单一回答,而是从当前策略采样一组不同的回答,然后根据这组回答的得分情况来优化模型 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。这种“按问题分组”的方式相当于批量生成和评价:每道训练题目产生多个解答,计算每个解答的奖励,并用组内奖励的相对差异(优势值)指导模型参数更新 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。由于采用组内平均得分作为基准(baseline),GRPO 不需要额外的价值网络(critic),降低了大模型RL的开销 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。因此,就单个问题而言是通过多次尝试来强化,但在实现中会并行处理多个问题批次,以加速训练。每轮生成的回答在用于计算梯度更新后并不长期保留,属于在线的RL采样;只有当阶段2训练收敛后,会使用最终的模型来批量生成数据供下阶段使用 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。

奖励机制方面,DeepSeek R1 在此阶段设计了规则奖励,主要包括:

最终,以上各项奖励会加权求和形成总奖励 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。模型通过最大化期望奖励来更新参数:正确且格式规范、语言一致的回答获得最高回报,从而模型逐步学会既推理正确表述规范地回答问题 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。

值得一提的是,DeepSeek R1-Zero(没有冷启动微调的版本)在纯RL下已经自行涌现出了反思验证、超长链式推理等强大能力,但同时输出可读性差、语言混杂 (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻) (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻)。因此在 R1 中通过以上冷启动和奖励改进,显著改善了这些问题 (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻)。阶段2 的RL训练让模型的推理准确率在数学等任务上大幅提升(例如 AIME 数学竞赛准确率从15.6%提高到71% (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻)),为后续步骤打下强大的推理基础。训练过程中产生的大量问答尝试并未直接用于模型参数更新之外的用途,而是在训练完成后经过筛选用于下一阶段的数据集构建 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。

Q3: 第三阶段为什么要用 60 万条推理再生数据和 20 万条非推理数据进行微调?这一混合微调策略有何作用?

A: 阶段3是承上启下的监督微调,目的是在保持高推理能力的同时扩展模型的通用能力 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。之所以采用“60万推理 + 20万非推理”的数据组合,主要有以下考虑:

Q4: 第四阶段为何需要再次进行强化学习?这一阶段是如何结合人类偏好进行对齐的,人类偏好对齐有什么必要性?

A: 阶段4是DeepSeek R1的二次强化学习阶段,核心目的在于对齐人类偏好,进一步提升模型在实际应用中的安全性和实用性 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。即使经过阶段2和阶段3,模型在推理和一般任务上已表现出色,但仍可能存在不符合用户期望的行为,例如回答不够礼貌有用,或在敏感问题上产生不安全内容。这正是当前尖端LLM都会面临的问题,需要引入人类偏好对齐(例如 OpenAI 的GPT-4通过RLHF过程进行对齐)。对于DeepSeek R1,这一阶段通过融合人类偏好相关的奖励信号来微调模型,使其行为更符合人类期望 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体而言:

通过上述措施,阶段4 实现了模型行为和人类期望的深度对齐,相当于执行了一次RLHF式(基于人类反馈的强化学习)训练。 (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻)在对齐后,DeepSeek R1 兼具强大的推理能力和良好的安全性/有用性:既能给出复杂问题的正确解答,又能确保回答让用户容易理解、愿意接受,在敏感问题上遵循安全准则 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。这种人类偏好对齐对于模型大规模应用是必要的 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)——它保证模型不会因为追求高推理准确率而忽略了与用户互动的品质,确保模型的高智商能够以让人类舒适的方式呈现出来。换句话说,经过阶段4,DeepSeek R1 不仅是“推理高手”,也是“贴心助手”。

Q5: DeepSeek R1 与 GPT-4、Anthropic Claude、Google Gemini 等顶尖模型有哪些核心差异?

A: DeepSeek R1 的训练路线与这些闭源大模型有一些独特之处,但总体目标相似(都追求强性能和对齐人类意图)。主要区别在于:

综上,DeepSeek R1 展现了一条与主流商用大模型不同但并行的研发路线:用较少人工介入、充分利用RL自我提升推理,再辅以必要的监督和对齐,来培养强大的通用AI。这为业界提供了新思路,也使研究者能够探究在不开天量数据集的情况下提升模型智力的可能 (The Illustrated DeepSeek-R1 - by Jay Alammar) (The Illustrated DeepSeek-R1 - by Jay Alammar)。各模型各有侧重,但目标殊途同归:让AI既“智商高”又“情商高”,能真正解决问题并让用户放心使用。

**参考文献:**

DeepSeek R1 官方论文 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)及技术报告、DeepSeek 官方博客和数据集说明 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning),以及相关分析文章和讨论 (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻) (阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?_腾讯新闻)。

上述内容综合了官方资料与社区解读,以问答形式呈现,希望对DeepSeek R1的训练策略有全面而清晰的说明。

 

后记

才试了一下 openai o3 最新推出的 deep research 功能,不能不说,作为研究工具,非常给力,完成后的成品具有直接发表的水平,想做一点后编辑都难。有点叹为观止的感觉,堪称完美。当然,现在各家头部模型都开始 offer 这种“深度研究”的功能了,这等于是平替了大多数咨询公司的研究人员的工作。即便是训练有素的数据分析和调研人员,多数人实际上做不了它这么全面和细致。最见功力的是它的引用的全面和细密。说话有根据,幻觉自然减少。

【相关】

Dilemma of RPA and Early-Stage LLM Co-pilot Entrepreneurs in the Age of Agent Tsunami

As large language models (LLMs) surge forward, LLM Agents are reconstructing the automation landscape at unprecedented speed. This revolution not only threatens traditional RPA (Robotic Process Automation, reliant on rule engines or small models) but also pushes early-stage co-pilot application builders to the edge of a cliff. At its core, this technological shift represents two fundamental disruptions: 
1. Natural language interaction overpowering low-code programming in complex, dynamic, unstructured data scenarios. 
2. General intelligence violently overshadowing shallow vertical solutions.

"Triple Disruption" of LLM Agents

1. Paradigm Shift: From "Low-Code" to "Emergent Intelligence"

- Traditional RPA: Engineers script step-by-step logic (e.g., UiPath’s drag-and-drop designer), akin to teaching robots to hop grids – brittle and error-prone.
- LLM Agent: Directly interprets human intent (e.g., "Extract invoice data from emails into the system"), autonomously decomposes tasks, and dynamically adjusts execution paths.
- Case Study: ChatGPT plugins already book flights or fetch data via API calls, while traditional RPA requires low-code scripting for equivalent functions.

2. Moat Erosion: Data Barriers vs. General Intelligence

Pre-LLM RPA Moats:
Industry know-how (e.g., nuances of financial reimbursement workflows) + custom deployment capabilities + template libraries.
Reality: Most RPA firms accumulated shallow industry exposure rather than deep vertical data expertise.

LLM’s Breaching Tactics:
- Digests unstructured documents (e.g., diverse invoice formats) via multimodal vision and computer use capabilities.
- Adapts to new workflows via zero-shot Chain-of-Thought (CoT) reasoning (e.g., interpreting vague commands like "Sync key contract terms to CRM").

Final Blow: As standardized scenarios get natively covered by leading LLMs (including reasoning models), RPA’s last defense – proprietary industry APIs – is being devoured by LLM vendors’ customization and privacy solutions.

3. Ecosystem Cannibalization: From "Tool Vendor" to "LLM-native Layer"

Early Co-pilot Traps:
Products like Character.ai (personalized chatbots) and Jasper (writing/marketing assistants) – essentially thin wrappers over base models – crumble when ChatGPT launches role presets or DALL·E 3 plugins.

Survivor Playbooks:
- Perplexity.ai: Carves a niche with real-time search + academic citations (fixing LLM hallucination).
- Cursor: Builds vertical moats via developer workflow integration (codebase semantics, AI pair programming).

Industry Upheaval in RPA

- UiPath’s stock plummets from 2021 highs; its "Autopilot" feature (English-to-automation) criticized as a "GPT-4 wrapper."
- Microsoft Power Automate integrates Copilot, generating cloud workflows from natural language prompts.
- Adept (AI-for-computer-actions startup) hits $1B+ valuation, directly threatening RPA’s existence.

Survivor’s Map: Niches Resisting the LLM Tide

1. Deep Verticalization
- Cursor: Dominates IDE ecosystems via VSCode extensions and developer workflow data.
- Harvey (legal AI): Trains on LexisNexis corpus + private deployment for compliance.

2. Real-Time Data Masters
- Perplexity.ai: Search engine-grade indexing + academic database partnerships.
- Hedgeye (finance): Aggregates Bloomberg/Reuters feeds + proprietary prediction models.

3. Hardware Fusion
- Covariant: Embeds LLMs into warehouse robotics, leveraging mechanical barriers.
- Tesla Optimus: Physical-world operation via embodied AI, evading pure-digital competition.

Agent Startup Pitfalls & Counterstrategies

Common Traps

- Thin Model Wrapping
Issue: Repackaging ChatGPT prompts as "AI customer service" adds no real value.
Fix: Develop domain-specific features (e.g., clinical decision support requiring privacy-sensitive data pipelines).

- Over-Reliance on Fine-Tuning
Issue: Claiming "medical LLM" after basic terminology tuning ignores the need for closed-loop clinical workflows.
Fix: Build proprietary data flywheels and scenario-optimized architectures.

- Ignoring Enterprise Needs
Issue: Overlooking security, SLA guarantees, and system integration.
Fix: Architect enterprise-grade frameworks for organizational deployment.

Differentiation Strategies

- Workflow Integration Specialists: Develop deep connectors for niche scenarios (e.g., legal document parsing).
- Human-AI Orchestrators: Design quality control layers and manual override mechanisms.
- Vertical Knowledge Engineers: Curate domain-specific benchmarks and evaluation protocols.

RPA’s Last Stand

While battered, RPA retains residual value in:

- High-compliance scenarios: Auditable/traceable workflows (e.g., financial regulations).
- Legacy system integration: Stability in outdated IT environments.
- Ultra-high precision demands: Deterministic execution for core systems (e.g., stock trading).


Challenges for Early Co-pilot Entrepreneurs

Two fatal flaws plague AI application startups: 
1. No proven scaled success cases – LLMs are barely 2-3 years old, leaving co-pilots (beyond chatbots) unvalidated for commercial viability. 
2. Vulnerability to LLM upgrades – Without exclusive industry data or customer channels, co-pilot startups risk being crushed by foundational model advancements.

The Inevitable Conclusion

LLM Agents are replaying cloud computing’s annihilation of on-prem servers: foundational capabilities get standardized (like AWS replacing data centers), while vertical opportunities spawn new giants (like Snowflake). RPA and generic Agent startups must either:
1. Become vertical domain experts, or
2. Master human-AI collaboration architectures

... or face obsolescence as LLM agents absorb 90% of automation value. The silver lining? This disruption will unlock an automation market 100x larger than the RPA era – but tickets are reserved for those who architect vertically fused, LLM-empowered solutions.

As Sam Altman warned: Avoid building what foundational models will inevitably swallow.

 

 

【相关】

RPA 赛道与大模型Copilots早期创业者的困局

在大模型技术狂飙的当下,LLM Agents(基于大语言模型的智能体)正以前所未有的速度重构自动化版图。这场革命不仅冲击着传统 RPA(机器人流程自动化)的生存空间,更将早期依赖规则引擎或小模型的RPA创业者以及co-pilot的大模型应用的早期创业者逼至悬崖边缘。这场技术迭代的本质,是在复杂、多变、非结构化数据处理的自动化场景下,自然语言交互对低代码编程的降维打击,更是通用智能对浅垂直场景的暴力覆盖。

一般而言,作为agent的早期形式,co-pilot创业的有两大问题:第一是没有成功案例可循,因为LLM才两三年,还没来得及给除了chatbot以外的copilot证明其商业闭环的机会。第二是co-pilot创业如果没有深厚的独家行业数据基础以及客户渠道,就非常容易把自己定位在大模型的迭代升级的路口上,被大模型升级所碾压。

一、LLM Agents 的 "三重碾压效应"

1. 技术路径的颠覆:从 "低代码" 到 "自然涌现"

- 传统 RPA:依赖工程师编写脚本或流程图(如 UiPath 的拖拽式设计器),需精准定义每一步操作逻辑,如同教机器人跳格子,容错率低。
- LLM Agent:直接理解人类意图("把邮件里的发票信息录入系统"),自主拆解任务链条,动态调整执行路径。
- 典型案例:ChatGPT 插件系统已能调用 API 完成订机票、查数据等操作,而传统 RPA 实现同等功能需低代码脚本。

2. 护城河的瓦解:数据壁垒 vs 通用智能

- 前大模型时代的 RPA 壁垒

行业 know-how(如财务报销流程的细微差异)+ 客户定制化部署能力 + 长期积累的模板库。

但多数RPA公司本来的业务就是深入各行各业办公室的小批次业务累积,而不是垂直行业的数据深耕,基本没有多少垂直行业的门坎。

- LLM Agent 的破壁逻辑

- 通过大模型视觉以及电脑使用(Computer Use)能力直接消化非结构化文档(如五花八门的发票格式)以及模拟人类使用网络(而不是调用API)
- 通过思维链(CoT)零样本学习适应新业务流程(如理解 "将合同关键条款同步到 CRM" 的模糊指令)
- 致命打击:当大部分标准化场景被头部大模型(包括推理模型)原生覆盖,RPA 仅存的护城河只剩特定行业的私有数据接口——而这块蛋糕正被大模型厂家的的定制化、私有部署以及隐私保护能力所蚕食。

3. 生态位的吞噬:从 "工具提供商" 到 "基础设施层"

- 早期 Copilot 创业者的困境:

- Character.ai(个性化对话角色)、Jasper(营销文案生成)等曾风光一时的产品,本质上是对基础模型能力的浅层封装。
- 当 ChatGPT 开放角色预设功能和 DALL·E 3 插件,这些 "中间件" 的生存空间被急剧压缩。

- 幸存者法则:

- Perplexity.ai 以实时搜索+学术级引用杀出血路(弥补了通用模型的事实性缺陷)
- Cursor 通过深度绑定开发者工作流(代码库语义检索、AI 结对编程)建立垂直壁垒

二、RPA 赛道的行业剧变

- UiPath 股价较 2021 年高点严重下跌,其推出的 Autopilot 功能( "用英语描述自动化流程")被用户吐槽为 "套壳 GPT-4"
- 微软 Power Automate 全面接入 Copilot,支持 "描述你想要自动化的任务" 直接生成云端工作流
- 硅谷明星创业公司 Adept(专注训练 AI 执行电脑操作)估值突破 10 亿美元,直接威胁 RPA 生存根基

三、幸存者地图:哪些赛道还能抵抗 LLM 洪流?

1. 重度垂直型

- Cursor 的代码助手:深度集成 IDE 生态(利用VSCode 扩展市场的高占有率),掌握开发者真实工作流数据
- Harvey(法律 AI):通过LexisNexis法律特有语料训练理解法律术语+私有化部署解决合规问题

2. 实时数据型

- Perplexity.ai:构建搜索引擎级索引体系+ 学术数据库独家合作
- Hedgeye(金融分析):聚合 Bloomberg/Reuters 实时行情+行业独家预测模型

3. 硬件耦合型

- Covariant 仓储机器人:将 LLM 与机械臂控制算法深度融合,硬件壁垒延缓大模型侵蚀速度
- Tesla Optimus:通过具身智能实现物理世界操作,暂时规避纯数字自动化竞争

四、Agent 创业的陷阱与对策

常见陷阱

    1. 简单封装大模型
      • 问题:仅对通用大模型进行表层封装,缺乏实质性增值,例如将 ChatGPT 的提示词模板包装成 "智能客服系统"
      • 修正:开发特定领域专用功能,针对垂直场景深度优化
    2. 过度依赖微调
      • 问题:认为对大模型进行简单微调就能构建竞争壁垒,例如微调行业术语就标榜 "医疗大模型",实则临床决策支持需要具有高度隐私敏感的“地下”数据综合能力
      • 修正:构建专有数据闭环和场景优化的工作流程,形成实质性差异
    3. 忽视企业级需求
      • 问题:不重视安全合规、SLA保障和系统集成
      • 修正:构建企业级功能框架,满足组织级部署要求

差异化策略

    1. 工作流集成专家
      • 聚焦特定工作场景深度集成
      • 开发专用连接器和数据通道
    2. 人机协作架构师
      • 设计高效的人机分工模式
      • 构建质量监控和人工干预机制
    3. 行业知识库构建者
      • 整合垂直领域专业知识
      • 开发领域特定的评估标准

RPA 的剩余价值: 虽然 LLM Agent 冲击巨大,但 RPA 并非完全没有生存空间。RPA 在以下方面具有剩余价值:

    • 合规性要求高的场景: RPA 流程的可审计性和可追溯性可能更符合某些行业的合规要求。
    • 与遗留系统的集成: 在某些遗留系统集成方面,RPA 可能比 LLM Agent 更成熟和稳定。
    • 超高精度和稳定性的需求: 在极少数对精度和稳定性要求极高的场景下,例如金融交易核心系统,RPA 的确定性执行可能更受青睐。

残酷结论

LLM Agents 正在重演云计算淘汰本地服务器的历史:通用能力标准化底层服务(AWS 取代企业机房),垂直场景留给细分玩家(Snowflake 在云上长成数据仓库巨头)。RPA 和早期 Agent/Copilot 创业者若不能快速转型为 "领域场景深耕者" 或 "人机协作架构师",必将成为大模型吞噬算力时扬起的尘沙。唯一的好消息是:这场碾压的终局将释放出比 RPA 时代大百倍的自动化市场——但入场券只留给能与 LLM 共舞的垂直场景产品架构师。

大模型创业需要避坑,首要的坑正如Sam所说,就是不要开发大模型边缘迟早会内化的能力。

 

【相关】

Understanding the Division of Labor Among Q, K, V in Self-Attention Mechanism

For those diving into self-attention mechanisms, the roles of Query (Q), Key (K), and Value (V) often spark confusion: Why must every token in a sequence generate these three distinct roles to capture contextual dependencies?To grasp how Q, K, and V matrices autonomously specialize through backpropagation, we must delve into the foundational logic of model training. This process mirrors the natural phenomenon of "ant colony division of labor": though initially identical, ants evolve into workers, soldiers, or reproducers through environmental feedback. Similarly, Transformer parameters self-organize via error-driven optimization.

I. The Driving Force: Loss Function as a Macro-Regulator

Suppose we are training a translation model, with the input sentence "猫追逐激光点", and the target output "The cat chases the laser dot." The following are the key steps in parameter differentiation:

1. Initial Chaotic State
- W_Q, W_K, W_V matrices are all randomly initialized
- At this point, the Q vector of "追逐" (chase) may have no correlation with the K vector of "激光点" (laser dot)

2. First Forward Propagation
- When calculating attention weights, "追逐" (chase) fails to associate with "激光点" (laser dot)
- This leads to an incorrect translation (such as outputting "The cat eats the laser")

3. Error Signal Feedback
The loss function calculates two key gradients:
- Content missing gradient: Need to strengthen the action association "追逐→chases"
- Object mismatch gradient: Need to establish the verb-object relationship between "追逐" (chase) and "激光点" (laser dot)

4. Parameter Differentiation Begins
- W_Q matrix receives the signal: Make the Q vector of verbs more attentive to action target features
- W_K matrix receives the signal: Strengthen the acted-upon object attributes in noun K vectors
- W_V matrix receives the signal: Preserve details such as mobility in nouns

🔥 Key Mechanism: The same error signal propagates through different computational paths, causing the update directions of the three matrices to differentiate.

II. Mathematical Principles of Parameter Differentiation

By breaking down the attention calculation process, we can see how gradients guide division of labor:

Attention Weight Calculation Paths

- Gradients for W_Q:
Mainly come from the similarity calculation between the Q of the current token and the K of contextual tokens, forcing W_Q to learn how to generate effective query features
(Example: Making the Q vector of a verb contain potential features like "needs to be paired with an object (transitive verb)"; Q resembles the encoding signal for potential sentence patterns in traditional linguistics, similar to Subcat)

- Gradients for W_K:
Also come from Q-K similarity calculation, but the direction is to optimize K features to be recognizable by Q
(Example: Making the K vector of nouns contain attributes like "can serve as an object of action (object noun)")

- Gradients for W_V:
Come from the final weighted sum, requiring V to retain sufficient information
(Example: The V vector of "激光点" (laser dot) needs to include details like "small, bright, movable")

Four Steps of Weight Calculation:

1. Q-K Dot Product: Measure relevance.
2. Scaling: Prevent gradient explosion.
3. Softmax: Normalize into probability weights.
4. Weighted Sum: Generate contextualized representations.

III. Structural Guarantees for Stable Division of Labor

Beyond gradient driving, model structure design also ensures that the division of labor remains consistent:

1. Isolation of Linear Transformations
- Q/K/V come from three completely independent matrix multiplications
(Unlike LSTM gating mechanisms that share parameters)
- Gradient updates for each matrix do not interfere with each other

2. Multi-Head Attention Mechanism
Using 8-64 independent attention mechanisms (multi-head attention) is like having a team of detectives investigating different directions: some focus on the timeline, others analyze character relationships, and finally, all relationship matching results are synthesized.

Different attention heads form a "division of labor":
- Head 1: W_Q¹ learns grammatical role matching
(Example: Matching the Q of a subject with the K of a predicate)
- Head 2: W_Q² learns semantic associations
(Example: Matching the Q of "bank" with the K of "interest rate")
- This multi-objective optimization forces parameters to specialize

IV. Empirical Validation: Concretization of Parameter Division of Labor

By visualizing the parameters after training, clear patterns of division of labor can be observed:

Case Study: Related Parameters for the Verb "吃" (eat)
- W_Q Matrix:
In the Q vector of "吃" (eat), high-weight dimensions correspond to features like "edible," "concrete object," etc.
- W_K Matrix:
In the K vector of "苹果" (apple), high-weight dimensions correspond to attributes like "food category," "solid," etc.
- W_V Matrix:
In the V vector of "苹果" (apple), high-weight dimensions include details like "color," "texture," "nutritional components," etc.

When calculating `Q(吃)·K(苹果)` (`Q(eat)·K(apple)`), strong attention weights are generated due to high activation values on the "edibility" dimension from both parties. Meanwhile, V(apple) carries the specific information needed for output production (such as knowing it's a fruit rather than a technology company when translating to "apple").

Key Conclusion: The Wisdom of Self-Organization
The essence of parameter division of labor in Transformers is the functional specialization that naturally evolves under the constraints of a unified objective function. The system does not need to preset division of labor details but spontaneously forms an efficient information processing system through repeated "trial-error-feedback" cycles with massive data. This self-organizing process driven by error is the source of the powerful representation capabilities of deep learning models.

[Addendum] A Deeper Interpretation of Q/K/V Relationships

Relationship Between Q and K
- Q is a specific perspective or projection of the K space
- Just like a book can be retrieved from different angles:
- Q1: Subject classification (K1: Literature/Technology/History)
- Q2: Difficulty level (K2: Beginner/Advanced/Professional)
- Q3: Writing style (K3: Theoretical/Practical/Case-based)

This is because Q "actively" seeks certain features associated with other tokens, while K is "passively" prepared to be matched by other tokens. K is like an index that needs to summarize all the main features of a token, but Q focuses on querying a specific feature.

This makes understanding multi-head attention more intuitive:

```
Each head learns a different projection perspective
Q1 = token * W_q1 # May focus on thematic relevance
Q2 = token * W_q2 # May focus on grammatical relationships
Q3 = token * W_q3 # May focus on semantic roles
```

It's like different facets of a high-dimensional space:
- Each attention head learns a specific "query perspective"
- These perspectives collectively build a complete picture of inter-token relationships

Division of Labor Between K and V
- K: Information's "retrieval representation"
- Contains various ontological features that might be queried
- Similar to a multidimensional tagging system for books
- V: Information's "content representation"
- Contains information that actually needs to be utilized
- Like the specific content of a book's text

A Concrete Example
Using the word "驾驶" (driving) as an example:

Different perspectives that multi-head attention might learn:
- Q1: Seeking action tools (highly relevant to "汽车" (car))
- Q2: Seeking action subjects (highly relevant to "司机" (driver))
- Q3: Seeking action modifiers (relevant to "快" (fast), "稳" (stable), etc.)

This understanding effectively explains:
1. Why Q/K separation is necessary
2. Why multi-head QKV mechanisms are needed
3. How the model automatically learns different types of contextual relationships

Continuity Between V and Token Representation
A token's V (Value) is most related to the token's initial embedding, as both represent the content and meaning of this token.
- Initial embedding: Represents the general meaning of the token learned in large-scale embedding training in advance, similar to looking up a dictionary
- Value vector: Can be seen as a continuation and update of this initial representation in a specific context

In other words:
1. Embedding is the "basic dictionary definition" of a token
2. Value is the "specific expression" of this definition in a particular context

Evolution of Token Represenation in the Model

As information flows through multiple network layers:

Initial embedding → Layer 1 Token → Layer 2 Token → ... → Final representation

During this process:
- Each layer's token representation carries increasingly rich contextual information
- While maintaining continuity with the original token meaning (residual connections can compensate if continuity degradation is a concern)
- This evolution is gradual, not disruptive

Essential Differences Between Q/K and V
- Q and K primarily serve the goal of "establishing relationships"
- Q and K extract query features and index features for matching
- Q and K are naturally more abstract and general than V
- V directly carries "concrete content"
- Contains actual information that the token needs to convey
- More specific, more detailed

Figuratively speaking:
- Q/K is like the retrieval system in a library
- V is like the actual content of books on the shelves

Conclusion: The Deep Wisdom of the QKV Mechanism

From the perspective of the entire model:
1. Initial embeddings enter the first layer
2. Each layer updates the next layer's token representation through attention mechanisms and feed-forward networks
3. The final layer's representation encompasses all contextual relationships and meanings, directly empowering the output

The QKV division of labor in self-attention mechanisms, seemingly simple yet embedding profound information processing philosophy: through carefully designed computational flows and gradient paths, the model naturally develops functional differentiation during the optimization process. This design philosophy of "emergent intelligence" has become a core paradigm in modern artificial intelligence.

It is precisely this capability for self-organization and self-evolution that enables Transformer models to capture complex and variable relationship patterns in language, laying the foundation for the powerful capabilities of large language models.

 

【相关】

Linguists Should Find Self-Attention Intuitively Familiar

Written for my linguistics and symbolic NLP peers — a reflection on my journey to leverage computational linguistics in undersranding modern AI LLM.

Breaking Through the Jargon Barrier

For linguists bewildered by large language models (LLMs), the confusion often stems from terminology and implementation details obscuring shared foundational principles. Let’s cut through the noise and focus on self-attention — the beating heart of the Transformer architecture.

As a computational linguist and lifelong NLP practitioner, I’ve spent years dissecting symbolic grammars and, more recently, tracking the rise of LLMs. Here’s my attempt to "translate" the core design of multi-head Query-Key-Value (QKV) mechanisms into a framework linguists already know.

QKV: A Linguistic Reinterpretation

Query as Subcategorization (Subcat)
First, I would like to point out, Query mirrors Subcat in symbolic grammar: the slots a head word "digs" for its dependents. Take a transitive verb (vt) as an example: it creates two syntactic "slots"—a noun subject (pre-verbal) and a noun object (post-verbal). Similarly, the predicate eat defines two semantic slots: an animate agent (e.g., animal) and an edible patient (e.g., food). These constraints — syntactic roles and semantic selection restrictions — are bread-and-butter concepts for linguists.

Key as Ontological Features
Key represents ontological attributes: nounhood, animacy, action, state, time, descriptive, etc.  Value is the filler—the "carrot" that occupies a slot. When I first read Attention is all you need, the QKV triad felt alien. No one explained that this was just dynamic slot-filling.

Why LLMs "Get" Language

LLMs thrive because their "slots" and "fillers" align perfectly across linguistic hierarchies. Every token carries QKV information because every word can both be a seeker (Query) and a target (Key/Value). When a Query (e.g., eat) finds a compatible Key (e.g., apple), their dot product sparks a high attention weight. The Value (the token’s semantic essence) is then passed forward, blending into the next layer’s representation of the token.

Contextual "Polygamy"
Tokens in the context window engage in group marriage, not monogamy. Each token 'flirts' with all others via Query-Key dot products. Relationships vary in intensity (weights), and the resulting "offspring"—the next layer’s tokens—inherit traits from multiple "parents" through weighted summation. Stronger relationships dominate; weaker ones fade. This crazy yet efficient "breeding" compresses linguistic structure into dense vector spaces, a process conceptually equivalent to parsing, understanding, and generation in one unified mechanism.

The Database Analogy (and Why It 'Misled' Us)

QKV borrows terms from database systems (Query for search, Key-Value for retrieval), but early attempts to map this to linguistics fell flat. We thought: "Databases? That’s just dictionary lookups — isn't it already handled by embeddings?!" The breakthrough came when we realized: Self-attention isn’t static retrieval—it’s dynamic, context-aware slot-filling.

For decades, we built bottom-up parsers using Subcat frames. Transformer layers do the same, but with vectors instead of symbolic representaions. See the 2 slides I made 3+ years ago when GPT3 playground was launched when I compared the parallel archtectures and approaches from two schools of AI, grammar school and multi-neural network school.  Symbolic grammars, though, despite their transparency, pale in scalability:
- Granularity: LLMs leverage hundred or thousand dimensional vectors; we relied on only hundreds of one-hot features.
- Generalization: Transformers parse text, audio, video—any modality. Symbolic grammars, at best, aspire to universal grammar across languages.

A Convergence of Paths

My colleague Lü Zhengdong once mapped the evolution of attention: 
Seq2Seq (Google Brain) → Auto-alignment (Mila) → Transformer (Google) → Pre-trained LMs → LLMs (OpenAI)...

To this, I chuckled: "You pioneers see the trajectory clearly. But for us symbolic refugees, diving into Attention is all you need felt like drinking from a firehose." Without fully understanding the historical context, the concepts overwhelmed us—until one day, it clicked: Subcat-driven parsing and self-attention are two sides of the same coin.

Symbolic methods are obsolete, yes—clunky, rigid, and modality-bound, with the only merit of full transparency of symbolic logic. Yet understanding their parallels to Transformers suddenly made LLMs feel familiar. The difference? Scale and ambition. Linguists seek cross-linguistic universals; AI aims for cross-modal universals.

Postscript: Simplifying the Transformer

The original Transformer paper (Attention is all you need) is not an easy-read at all, bogged down by encoder-decoder specifics for machine translation. Strip away the noise, and the core is simple:
1. Self-attention layers (dynamic slot-filling).
2. Feedforward networks (nonlinear transformations).

GPT’s decoder-only architecture reveals the essence: next-token prediction (NTP) is the key to general intelligence. The so-called "decoder" isn’t just about decoding or generation—it’s also analysis and understanding fused into one stream.

Closing Thoughts

Dr. Bai, Shuo once remarked:

Language processing demands a unified ‘currency’—a mechanism to reconcile syntax, semantics, pragmatics, and world knowledge. Only neural networks (imperfect as they are) managed to have achieved this, probabilistically. Attention is that currency.

He’s right.  Attention isn’t just a tool—it’s the universal metric we’ve sought all along.

 

【相关】

语言学家应该很容易理解自注意力机制

作为计算语言学家和NLP老司机,本篇是写给我的语言学老师和同学,以及符号NLP同行的,分享自己的心路历程,希望对大家有所启发。

如果语言学家以前觉得大模型烧脑和不解,那是因为窗户纸没有捅破,存在不同体系下的术语与机制细节的理解障碍,但底层逻辑并不乏不少共同的东西。本篇聚焦在大模型Transformer架构中的核心注意力机制的理解。

我出身计算语言学,这几年又一直在追踪大模型,可以“翻译”一下自注意力机制的核心设计多头的 QKV。

我们做符号文法的 早就该知道 Query 就是 Subcat,主导词为潜在结构“挖坑”用的,例如及物动词 (vt)就挖了两个坑:一个「名词」主语,一个「名词」宾语。主语、宾语是句法结构的角色要求,「名词」是对所要求对象的限制条件(更细致地,Subcat 还有其他限制条件,例如主语在vt前,宾语在 vt后,等)。具体到概念谓词“eat”,逻辑语义上也相应地挖了两个坑:一个是「动物」施事,一个是「食物」受事。「动物」(包括「人」)是逻辑语义结构中对施事角色的语义限制条件,「食物」是逻辑语义结构中对受事角色的语义限制条件。这些都是我们语言学家践行多年、耳熟能详的概念体系。

Key 就是本体特征, 例如,名词、物体、食物、动作、状态、修饰、时间等,Value 就是填坑的“萝卜”。可惜,初读论文「Attention is all you need」 ,被 QKV弄得晕头转向的时候,没有人指点迷津。

为什么LLM大模型吃透了语言,说话那么顺溜,原来各个层级的坑与萝卜,都是那么相配,天赐良缘。为什么每一个单词都有QKV信息,道理也简单,每一个词都可能在“求偶”,追求别人,也都可能被追求。追与被追发现非常谈得来的时候, QK相配,注意力权重大,于是结合,就是把身子(Value)献上;然后生子 ,就是创造下一层的 Token 表示。

有意思的是,上下文窗口里的 Tokens 是群婚制,不是一夫一妻制生孩子。一个 Token 与周围所有 tokens 谈恋爱 q k(i)点积,其他tokens(包括该 Token自己)都与该Token 有一腿,但关系强度不同(谈吹的tokens,权重为0)。该 Token与这种多边关系“杂交”生出的孩子是怎样的呢?加权求和。就是说孩子继承了母亲的很多特征,同时也继承了周围众父亲的特征。谁的特征在子代最彰显或较弱,完全决定于交情的深浅、关系的强度。每个token都是这样推陈出新,一代一代传下去。最后发现,这种群婚制对于信息压缩(理解、解析、生成)特别有效。真有意思。

QKV这些概念显然是从数据库技术拿来的,对于软件界一点都不陌生。但当年理解注意力机制的时候,还是遭遇很大的困惑,想不明白 语言解析与数据库啥关系。当时觉得扯上数据库,最多就是查词典相关,而查词典早就在词嵌入(embedding)编码阶段就完成了。自注意力的核心不是静态的查词典,而是动态的上下文理解。 当年因为想不明白为什么要套用数据库的信息查询和匹配的说法,只能把注意力机制泛泛理解为关注上下文。这也没错,但看不到 insights,也理解不了为什么这东西这么厉害,成就了大模型的超人语言能力。

经过很久终于豁然开朗:原来我们做了一辈子的 subcat-based bottom up parsing,跟 attention+feedforward 做的完全是一回事,一个原理,殊途同归(见下图:这是我在大模型GPT3 playground刚冒头时候做的一个对比,illustrate 当年意识到两条路线殊途同归时候的震撼)。只不过我们符号文法处理完全打不过它。一个是颗粒度没法比,人家的家底是几百上千维度的实数向量,加上各种投射以及非线性转换,我们才有最多几千个强行结构化的符号特征(one hot features)。另外,人家的泛化可以从文字解析,推广到任何模态信号的压缩和理解,我们的文法不具有任何的模态可推广性、可移植性,最多只是跨过了语言壁垒,文法追求可以适用于任何语言的 universal grammar。

我的主流弄潮儿的一位老友吕正东说:

在attention 的发展史上(so far),我看到多次颠覆式的创新, 从最早的 seq2seq (Google Brain) → auto alignment (Mila) → Tranformer (Google again) → pre-trained language model (?) → LLM (openAI )→ ...

我苦笑道:你是真正业内前沿,一路发展轨迹自然一目了然。你可能想象不出我们这些符号出身的人,突然被逼去研读这种经典论文(Attention is all you need)时候的困境。因为缺乏历史演进的知识垫底,一下子就被这些概念砸晕了。不知道经过多少次嘀咕、查阅,才慢慢明白:天下大势,冥冥之中,有万变不离其宗。原来,我们在符号文法摸索了一辈子的被证明最有效的谓词Subcat框架和自底而上的结构解析算法,底层逻辑与 transformer 及其自注意力机制不谋而合。 虽然符号技术过时了,也确实笨拙,除了符号逻辑的透明性外,没有多少其他长处,但现在理解深度学习大模型的原理和框架,由此骤然变得亲切了很多。只不过现在眼界开阔了,与信息论和计算理论更加靠近。(计算)语言学家一辈子的追求就是跨语言,而AI的追求更高一筹,是跨模态,无论音频、视频还是文字。

【后记】

大模型经典论文 Attention is all you need 不好读也有时代的原因,它提出的框架是直接应对RNN的短板和机器翻译的需求和验证。这就让它的核心部分被这些因素干扰而模糊了。框架看上去太复杂,encoder decoder 两大部分,还必须在encoder 到 decoder 之间做一种交叉对齐 ,但其实内核组块没有任何区别。这些对于理解 transformer 的通用性和原理,都是“噪音”。

transformer 主体简单极了,不过就是多层感知器,在每一层加了个自注意力而已。 到了GPT 发现 ntp(下一词预测)是打开通用智能的钥匙的时候,从框架角度就更简单了,decoder-only 足矣(说明:decoder 并不是名字所说的那样只做解码,它一样做分析和理解,这是由其核心组块决定的)。

老友看了我的transformer博客解说(Transformer 和注意力机制简介),说你这个太简陋了,连篇幅都比原论文短。

原文中有一些细节舍去了。
作者: 立委 (*)
日期: 2025/02/21 12:23:37

包括:

原架构是两大块:encoder + decoder

但实际上这两大块里面的组快都是完全一样的。而且,主流已经抛弃了 encoder,GPT 采用的就是 decoder-only 架构。

另外,位置编码是序列的一个因素,与处理过程解耦以后,位置编码有一套说法,怕干扰了主旨的理解,就点到为止了。

再有就是一些数学公式和实现细节,包括归一化、残差等。舍弃不影响对于 “注意力+神经网络” 这个核心主旨的理解。

所以通篇实际上就是一个理解重点:自注意力机制怎么work的,因为多层感知器是个 given,不是 transformer 的创新。

顺便一提,所谓 自注意力,国人喜欢顾名思义,以为是自己注意自己,感觉很蹊跷。其实自注意力是针对跨序列的交叉注意力而言的,自注意力是在同一层序列的上下文中注意所有的相关tokens(确实也包括它自己),是单层序列之内的事儿,这个“自”回指的不是token自己,而是token自己所在的那个窗口序列。交叉注意力说的是跨序列层的注意力,例如传统的神经机器翻译中,目标语序列针对源语序列的注意力。到了 GPT 的通用生成式AI(gen-AI)主流,没有跨序列的必要了,因为所有的 input 序列 和 output 序列,都被自回归“挤压”到同一层的序列去了。仅有的 output 就是 next token,其余一切tokens都连成一串了作为input的条件:everything is ntp。

以“中译英:我爱你” 的机器翻译为例,GPT自回归生成的序列是这样的:

Input                  Output
中译英:我爱你         I
中译英:我爱你 I       love
中译英:我爱你 I love  you

屠可伟老师的研究进一步验证了parsing与transfromer的可对齐性:

李老师,关于transformer自注意力机制和语言学的关系,我们前年有个工作,之前也和您提过:我们发现transformer自注意力机制与概率依存句法模型的近似推理计算图极为相似,局部几乎一模一样: Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation

白硕老师说:

我对这个问题的观点:

1、语言处理的符号主义本身并没有一个基于第一性原理的强有力理论体系,最牛的乔姆斯基也没做到。

2、语言处理的完整方案必须包含一个词法、句法、语义、语用、常识、事理、逻辑各方面“角力”因素能够以可以“统一度量衡”的表达-竞争-筛选机制,这点,目前只有多层神经网络可以做到,虽然只是“概率性的”。

3、语言处理和知识处理的共性是滑动上下文内的key-value填充,也就是我们俗称的“哪些萝卜填哪些坑”,这个共性的需求,被一个共性的机制——注意力机制在很大程度上解决了。再单独、分别做语言层面的填充机制(什么成分做什么角色)或是知识层面的填充机制(什么槽位取什么值)已经失去意义。要么不做,要么统一做而且比注意力机制做得更好。没有其他的出路。

白老师所言极是。白老师说的“统一的度量衡”就是自注意力。

 

【相关】

Introduction to Transformer and Its Attention Mechanism

The Transformer architecture and its attention mechanism form the foundation of mainstream GPT large language models, making them extraordinarily important. Despite the abundance of explanations and popular science articles on this topic, many friends tell me they still find it bewildering or only partially understand it. Therefore, I've decided to write a couple of blogs to contribute my understanding.

As someone curious about mainstream AI, you've likely heard of the renowned Transformer framework and its "attention mechanism" that powers large language models, perhaps considering them mysterious concepts. You may have read the classic paper "Attention is All You Need," but still found it confusing or difficult to decode. Don't worry—this is completely normal, and most of us have gone through this stage! While the paper may be a bit mind-bending, its core logic isn't actually that complex.

To understand the Transformer architecture in AI large language models (LLMs), we need to break down its workflow. First, we should understand how large language models work and how they're trained. Base large language models gain knowledge from data through "self-supervised learning" using multi-layer neural networks. Self-supervised learning is a special type of machine learning that uses "masking" to generate supervision signals. While supervised learning typically uses human-annotated data with output targets, self-supervised learning requires no human annotation. Instead, it masks certain data points and trains the system to predict them (like "filling blanks" or "continuing sequences"), using the masked data as the correct answer and supervision signal. Mainstream GPT models mask the next word, training the system to predict it based solely on previous context (called "next token prediction")—this is the current paradigm for generative AI.

The Complete Process from Input to Output

1. Starting with "Dictionary Lookup": Tokenization and Embedding

To understand an entire input text for next token prediction, we first need to break it down into basic units, called tokenization, which converts text into a sequence of tokens (the smallest units of text). These tokens might be complete words (like "work") or subwords (like "un+believ+able").

Tokens are symbols, and computers struggle with direct symbol manipulation—they only work well with numbers. So we need to convert tokens into numbers.

Each token is converted into a numerical representation—a multi-dimensional vector—by looking up an embedding dictionary. Each token is transformed into a 300-1024 dimensional vector (imagine establishing feature representations for each word across many conceptual dimensions, such as: noun, singular, organization, finance, etc.). Embedding allows words to have computable semantic spatial relationships.

This multi-dimensional vector space acts like a "meaning space" where each token's vector defines its position. The distance between tokens across different dimensions represents their semantic distinctions. This aligns with our intuition: a word's meaning becomes apparent through comparison with other words.

These vectors aren't randomly generated but are numerically encoded representations trained on massive natural text corpora, providing the basic semantic information of tokens—their position in meaning space. For example, the vector for "bank" naturally sits closer to "money" and far from "trees." Similarly, the vector for "apple" might contain information about both "fruit" and "technology company."

Imagine trying to help a computer understand the sentence: "The cat sat on the mat."

Step one: Tokenization breaks this sentence into individual tokens: The+cat+sat+on+the+mat.

Step two: Dictionary lookup (Embedding) finds a numerical representation—a multi-dimensional vector—for each token.
"cat" -> [0.1, 0.5, -0.2, ...]
"sat" -> [-0.3, 0.8, 0.1, ...]
...

Simply put:
Tokenization breaks text into the smallest units (tokens) that computers can easily process and analyze.
Embedding converts these tokens into vectors that computers can easily calculate and combine.

Key point: The vectors obtained from the embedding dictionary are only the "initial meaning representations" of tokens, without considering their specific context. Decoding contextual meaning from vector representations is the task of the next steps, using the multi-layer neural networks + attention mechanism in the Transformer architecture.

The core modules of Transformer can be broken down into two parts:
1. Attention mechanism: Used to calculate the relevance between tokens and dynamically update token representations.
2. Neural network: Used to process information transformation between tokens.

The entire Transformer is stacked with multiple such blocks for transformation, and with each attention layer recalculating token representations, deepening understanding progressively.

2. Attention Takes the Stage: Updating Word Meanings Based on Context

Now we have a sequence of vectors, each representing the "initial meaning" of a token. But here's the problem: the same word can have different meanings in different contexts! For instance, "bank" can mean a financial institution or a riverbank.

The core of the Transformer architecture is the attention mechanism (self-attention), which serves to dynamically adjust the representation of each token based on context, reflecting its relationships with other tokens.

For example: In the sentence "I like to eat apples," "apple" and "eat" are highly correlated, so the model will rely more on the word "eat" to update the meaning of "apple," determining that "apple" here refers to fruit rather than a company.

How is this done?

The model calculates attention weights between each token and other tokens through QKV attention:
- Query: querying vector of the current token (e.g., "he")
- Key: key vectors of contextual tokens (e.g., "police," "witness")
- Value: The actual meaning after association

For example, through matrix operations, the model discovers that "he" is most strongly associated with "witness," so it updates the vector for "he" to carry information from "witness."

Calculating "relevance": For each token, we calculate its "relevance" with all other tokens in the sentence, assigning different "attention weights" (attention scores) to different tokens. This "relevance" can be understood as: how important are other tokens when understanding the meaning of the current token.
* For example, when understanding the word "sat," "cat" and "mat" are obviously more important than "the."

Weighted average: Based on the calculated "relevance" (i.e., token weights), we take a weighted average of the V vectors from all tokens in the context to obtain a new vector representation for this token. This new vector is the meaning representation of the current token in this specific sentence.
For instance, the new vector for "sat" will be more influenced by the vectors of "cat" and "mat," and less by the vector of "the."

Key point: The attention mechanism dynamically updates the meaning of each token by calculating the relevance between tokens. This update is context-based—the same token will have different representations in different sentences.

This way, each token's meaning is no longer fixed but changes dynamically based on the entire sentence's context. For example, in "I saw a bat," "bat" could refer to either a flying mammal or a sports implement, but the attention mechanism will combine the bigger context to infer its more appropriate meaning.

For details on how QKV works in the attention mechanism, please refer to the companion article "How to Understand QKV Division of Labor in Self-Attention Mechanism?"

3. The Transformer Backbone: Multi-layer Progressive Information Compression

The core building blocks of Transformer can be broken down into two parts:
Multi-head attention layer: Used to calculate relevance between tokens and dynamically update token representations.
Feed-forward neural network layer: Further process and transform information (compression, abstraction)

The entire Transformer consists of multiple such modules stacked together, with each layer recalculating token representations for deeper understanding. Depending on the number of blocks, the Transformer repeatedly performs this update process. Like humans pondering a text multiple times, each layer deepens the understanding of the text. Deeper layers may capture more complex semantic relationships.

Each Transformer block iteratively upgrades understanding, for example:
- Bottom layers: Capture local grammar (such as the contrasting relationship in "not...but...")
- Middle layers: Understand "who 'he' actually refers to"
- Top layers: Grasp the main theme of the entire text

The main features of Transformer
1. Parallel computation: Word order is decoupled from token processing, allowing parallel processing of all tokens (in contrast to the linear inefficiency of previous RNNs)
2. Hierarchical understanding: Progressive interpretation from literal meaning to deep intention, capturing patterns both large and small.

4. Output: The Model's Final Prediction

Transformer models can be used for various tasks. Different tasks have different forms of output.

GPT: Next Token Prediction
For mainstream GPT models, their ultimate task is to predict what comes next through "autoregressive" next token prediction (autoregression is the dynamic extension of previous context, recursively implementing word-by-word continuation). The model decides what content should logically follow based on the deeply understood context. This opened the path to general AI, as sequence learning has mastered the "code" for converting inputs to outputs for general tasks, but that's a topic for another article.

5. Summary

Tokenization and Embedding lay the foundation for computers to understand text, similar to looking up a dictionary.
Attention mechanism calculates relevance between tokens and dynamically updates token representations.
Transformer consists of neural network layers + attention layers, optimizing token representations layer by layer, covering various relationships at different levels.
The final output depends on the task. Translation models generate target language text. GPT is responsible for predicting the next token, ultimately evolving this simple prediction mechanism into a general-purpose large model capable of unlocking various tasks.

 

【相关】

Has Symbolism Been Sidelined for Too Long? Could Neural LLM terminate AI?

Though no one can predict the future, and though abandoning one of the two paths feels politically incorrect, we cannot rule out the possibility of such unipolar dominance.

As is widely known, AI has always been marked by the competition between two schools: symbolic rationalism and data-driven empiricism. Their fortunes have waxed and waned throughout history, but over the past 30+ years, the pendulum has shown no sign of swinging back toward symbolism.

Why?

The ongoing contemporary history of large language models is fascinating. Each time challenges and obstacles arise, the mainstream paradigm overcomes them from within. Whether this will continue remains to be seen, but the trend seems likely to persist.

When large language models (LLM) first emerged, people marveled at their capabilities. But soon, critiques arose: their simple "next token prediction" (NTP) objective and the statistical nature of their probabilistic models led many to conclude they were merely advanced statistical tools, like large parrots—lacking true "understanding."

Ilya Sutskever and Geoffrey Hinton had to step in repeatedly to explain: "Do not underestimate next token prediction. This is no mere statistical n-gram model from the past. It abstracts a system of understanding that integrates human knowledge. When next-token prediction grows increasingly accurate, deep comprehension of context becomes indispensable." Such explanations struggled to convince skeptics. Later, Ilya invoked Kolmogorov complexity as a theoretical foundation, but this framework remains esoteric and inaccessible to most audiences—even many PhDs and professors view it with bemused skepticism. Yet, no better explanation exists.

What ultimately dissolved the "statistical parlor trick" critique was firsthand experience. Users interacting with LLMs realized: these systems seem to genuinely understand. No matter how you phrase your queries, in any language, with nuance or subtext, large models grasp meaning more reliably than most humans.

With the "understanding" debate fading, critics shifted focus: "LLMs cannot reason."

As recently as last year, Yann LeCun cited this as one of his core arguments against the mainstream GPT-style LLM paradigm (advocating instead for vision-based world models as the true path). Many relished pointing out flaws—like LLMs failing at elementary arithmetic such as multi-digit multiplication.

But this critique no longer holds. With the advent of reasoning models like OpenAI’s "o-series" and DeepSeek’s "r-series," accusations of "no reasoning ability" have collapsed. Hardliners may still dismiss probabilistic reasoning as unstable, lacking the rigor of symbolic logic. Yet users deploying these models for mathematics, coding, or project planning overwhelmingly report breakthroughs. Large-model reasoning now rivals or surpasses human experts, approaching master’s or doctoral proficiency. Coding capabilities already exceed those of average engineers.  This is just the beginning.  It is well plausible that within a year or two, reasoning models could dominate Olympiad-level math or competitive programming.

Once again, barriers were breached through internal innovation—this time after large-model pretraining neared its limits. The core framework remains unchanged, though: reinforcement learning still relies on NTP for chain-of-thought (CoT) generation; reasoning models remain probabilistic. Symbolic AI contributed nothing. Symbols remain confined to input/output interfaces—even the "inner monologue" of CoT manifests as output tokens.

The sheer creative potential within this paradigm is staggering. Those of us from symbolic AI backgrounds once naively imagined that when neural approaches hit walls, our logic-and-grammar toolkit would ride to the rescue. Hybrid neuro-symbolic fantasies danced in our minds.

Zooming out, modern large models evolved from earlier statistical frameworks, with neural networks as a tributary. When those statistical models hit ceilings, breakthroughs came from within—via deep learning. Symbolism played no role.

A profound question arises: Why has the theoretically appealing vision of hybrid neuro-symbolic synergy remained an impractical or unnecessary dream?

Two possibilities stand out.

First, the data-driven empiricist approach possesses far greater resilience and potential than we imagined.

This hints at deeper truths. Artificial neural networks, inspired by biological brains, had languished for decades until the deep learning revolution. Over the past decade, their human-like (or superhuman) performances have forced us to confront a possibility: perhaps this is indeep how intelligence works. If artificial systems achieve human-level cognition through mechanisms mirroring our own biology—despite neuroscientists’ caveats about our limited brain knowledge—this alignment would powerfully validate the neural paradigm. Symbolic logic and statistical feature engineering, by contrast, are alien to biological cognition. Their limitations may stem from this fundamental mismatch. One might even argue that high-dimensional vector spaces in LLMs—where multimodal signals are embedded within neural frameworks—encode a "language of God," or the essence of universal information. Symbols, then, are mere human-imposed constructs, sensory accommodations divorced from reality’s substrate.

Second, when a paradigm harbors untapped potential, progress demands sufficient talent density to exploit it.

AI uniquely concentrates genius. Countless brilliant minds flock to this field, creating an intellectual critical mass unmatched in most domains.

With these conditions in play, we must never underestimate the internal momentum to break through barriers. AGI (Artificial General Intelligence) believers, via their "insane" grind, keep delivering results. Could they indeed be AI’s ultimate Terminators?

 

Addendum: Symbolic might just be "reduced" to a symbolic tool that may retain its irreplaceable cognitive value

yanyongxin:

What distinguishes humans from other animals is our evolved reasoning capacity. Though rooted in neurons, this ability represents a qualitative leap beyond mere "instinctive reactions." It abstracts object relationships, enabling multi-step reasoning that can be transmitted and memorized through linguistic symbol chains. Reasoning is inherently discrete—thus symbolizable—as a simulated system built atop neural architecture. This simulation likely requires structural differences in human neural systems compared to other animals.

The most striking contrast between reasoning systems and primal neural cognition lies in sustained deliberation. Unlike "muscle memory" or intuition, human reasoning varies dramatically. During my university years, I observed students who excelled at quick problem-solving yet froze when faced with complexity. Today's LLMs approximate the reasoning level of humanities undergraduates, but still lag behind trained STEM specialists—particularly in mathematics and physics. The essence of STEM disciplines lies in rigorously symbolizing real-world problems. Simulating such precision within biological neural systems demands rare opportunities (elite education), prolonged training, and specific neurostructural advantages ("talent"), all channeled through disciplined formalization. Yet achieving this capability bridges biology with mechanical rigor—enabling interfaces with tools like Mathematica.

This charts AI's next frontier: building superior logical simulation systems atop neural frameworks until seamless integration with pure symbolic tools is achieved. The brain's logical simulation system remains energy-intensive, error-prone, and costly to develop. Its key advantage? Seamless integration with underlying neural processes.

Li Wei: Well said.

Interfacing with symbolic systems manifests as tool use. For instance, when confronting complex math problems, instead of forcing probabilistic reasoning through natural-language chain-of-thought (CoT), LLMs should just generate code properly to invoke Mathematica. This tool-use capability is now defined as a fundamental trait of LLM-native agents—yet another innovation emerging from within the paradigm.

Thus, we see a clear evolutionary trajectory:

1. Traditional Statistical Models ("Artificial Idiocy"):
Failure: Little natural language understanding 
Solution: LLMs (e.g., ChatGPT)

2. Pretrained LLM: 
Failure: Lacking reasoning ability 
Solution: Reasoning-reinforced LLMs (e.g., OpenAI’s o1, DeepSeek’s r1)

3. Reasoning LLM:
Failure: Insufficient symbolic rigor 
Solution: LLM Agents (symbolic tool integration)

yanyongxin:

Traditional statistical models earned their "artificial idiocy" label because their parameter spaces and data structures proved inadequate to host the world models required for true language understanding.

 

【相关】