在AI技术日新月异的当下,字节跳动旗下的智能助手豆包正悄然进行一场深度思考模型的测试革命。据内部消息透露,豆包目前正对多个深度思考模型的实验版本进行小范围测试,这一举动标志着字节跳动在AI领域的又一次重要探索。
据了解,豆包此次测试的深度思考模型是基于其1.5基座模型进一步研发的产物。早在今年1月中旬,豆包大模型团队在发布豆包1.5Pro时,就已预告了深度推理模型Doubao-1.5-pro-AS1-Preview的存在。该模型在不依赖其他模型数据的前提下,通过强化学习(RL)算法的突破和工程优化,成功实现了RL Scaling,并引入了深度思考模式。
极客公园的实测发现,与豆包进行对话时,其生成的答案偶尔会显示出推理过程的思维链,尽管这一现象尚不稳定。值得注意的是,目前豆包的对话页面还未正式开放“深度思考”功能的入口,但这一变化已足够引起业界的广泛关注。
与此同时,腾讯旗下的AI应用“腾讯元宝”在苹果应用商店的强劲表现,给豆包带来了不小的压力。在腾讯、百度等多个应用接入deepseek后,字节跳动的豆包如何应对,成为了众人瞩目的焦点。而今,豆包通过引入深度思考模式,似乎正在给出自己的答案。
深度思考模式并非新鲜事物,最早具备这一能力的模型是OpenAI于去年底推出的o1系统,但该系统采用闭源策略且仅限付费用户使用。相比之下,DeepSeek则通过开源策略、降低成本以及交互创新,成功将深度思考能力大规模普及。DeepSeek发布的R1模型,不仅透明化思维链,展示完整的推理过程,包括自我质疑、假设验证等拟人化思考路径,而且其推理成本仅为OpenAI o1的1/27。
在深度思考模式下,用户不仅能看到AI的最终答案,还能观察到模型解决问题的完整逻辑链条。豆包在实测中也展示了这一功能,当被问及两款新发布的推理模型——Anthropic的Claude 3.7 Sonnet和阿里云的Qwen推理模型QwQ-Max预览版时,豆包不仅搜到了相关资料,还进行了深入思考并给出了评价。这一过程让用户能够清晰地看到模型的推理步骤,增强了用户对模型输出的信任感。
为了更直观地展示豆包在深度思考上的表现,极客公园将其与deepseek进行了对比测试。在解决一个简单的数学问题“9.11和9.9谁大”时,虽然两者都遵循了小数比较的基本规则,但豆包更注重教学引导和考虑到用户可能的误解,而deepseek则更侧重于自我质疑和反复验证,思考过程更为复杂。在回答哲学问题“意识的本质是什么?AI会获得自我意识吗?”时,DeepSeek的回答分为科学理论、AI意识路径、伦理框架和解决路径四个部分,引用了神经科学、量子理论等,而豆包的回答则更偏向哲学理论分类,列举了物理主义、二元论等,并讨论了支持与反对AI权利的观点。
通过本次实测,可以看出豆包在深度思考模式上的初步表现虽仍有待提升,但其对推理过程的展示已为用户带来了更直观的理解路径。随着技术的不断进步和测试的深入,豆包有望在未来为用户带来更加智能、高效的AI体验。