Anthropic 发布 "Think" 工具: 让复杂的工具停下来思考

AI加速器@AI行业圈子 2025年03月23日 20:54

Open: 9db2dfa665c3598b2755d02255aeb62d_MD5.gif
81d69d0c0af83fc448f27bcf8bf982a3_MD5

Anthropic 的迷人新提示工程技巧。他们使用标准工具调用机制来定义一个名为“思考”的工具,如下所示:

`{` `"name": "think",` `"description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",` `"input_schema": {` `"type": "object",` `"properties": {` `"thought": {` `"type": "string",` `"description": "A thought to think about."` `}` `},` `"required": ["thought"]` `}``}`

这个工具什么也不做

LLM 工具(如web_search)通常涉及某种实现 - 模型请求工具执行,然后外部请求消失并执行指定的工具并将结果反馈到对话中。

“思考”工具是无操作的 - 没有实现,它只是允许模型使用其现有的训练来判断何时使用工具来停止并将一些额外的想法转储到上下文中。

这完全独立于Claude 3.7 Sonnet 中引入的新“思考”机制。

Open: 45a96e1a7f8dff980ccd35db120b72e6_MD5.jpg
80f98ae5dc670437b0f455f3ad5106e3_MD5

Anthropic 的基准测试显示,启用此工具后,性能得到了显著提升。我完全相信其他供应商的模型也能从同样的技巧中受益。

Open: 5552f58874cb19a09b5567891d11c343_MD5.jpg
5861ba8522a051f06d468d660c4171f5_MD5

何时使用“思考”工具

根据这些评估结果,我们确定了 Claude 从“思考”工具中受益最多的特定场景:

实施最佳实践

为了充分利用 Claude 的“思考”工具,我们根据 τ-bench 实验推荐以下实施实践。

1. 使用特定领域的例子进行策略性提示

最有效的方法是提供关于何时以及如何使用“思考”工具的明确说明,例如用于 τ-bench 航空公司领域的工具。提供针对您的特定用例量身定制的示例可显著提高模型使用“思考”工具的效率:

2. 在系统提示中放置复杂的引导

我们发现,当它们很长或很复杂时,在系统提示中包含有关“思考”工具的说明比将它们放在工具描述本身中更有效。这种方法提供了更广泛的背景,并有助于模型更好地将思考过程整合到其整体行为中。

何时不使用“思考”工具

尽管“思考”工具可以提供实质性的改进,但它并不适用于所有工具使用案例,并且确实会增加提示长度和输出标记。具体来说,我们发现“思考”工具在以下用例中没有提供任何改进:

入门

“思考”工具是 Claude 实现的一个直接补充,只需几个步骤即可带来有意义的改进:

最好的部分是,添加此工具对性能结果的影响很小。除非 Claude 决定使用它,否则它不会改变外部行为,也不会干扰您现有的工具或工作流程。

结论

我们的研究表明,“思考”工具可以显著提高 Claude 3.7 Sonnet 在执行需要在长链工具调用中遵守政策和推理的复杂任务时的性能。 “思考”并不是一个万能的解决方案,但它为正确的用例提供了实质性的好处,而且实现复杂性极低。

我们期待看到您如何使用“思考”工具与 Claude 一起构建更强大、更可靠、更透明的 AI 系统。

Open: 99a62ee457a6229cb447cac785d461e7_MD5.webp
8d71932c871afd9472cf2409e4d1a1e2_MD5

参考链接:https://www.anthropic.com/engineering/claude-think-tool

Open: 80209accda856a6189d7582ff3b6e36b_MD5.webp
a5d1496a6a4e9c3da7dd4522783088d9_MD5

Open: 73dea04ce34be473cb5254ccceac6572_MD5.gif
7b3ba5f0b036165a87904fd6c34493bc_MD5

Open: d1e8c91d4405f78a1ba26eacec8154a2_MD5.gif
d92e7c6684ec810f316ddb39ae1ab822_MD5


tag: AI决策,Anthropic,工具开发