在通义App实测Qwen3，这可能是2025年上半年最强大模型-格隆汇

者称为「全球最强开源」的模型家族，一夜之间就刷屏了整个AI圈，并且和前一代千问系列模型一样，千问3的发布也是满屏的好评。

作为国内首个实现"混合推理"能力的开源模型，千问3不仅达到了36万亿token的训练数据量，还支持119种语言和方言。通过混合专家（MoE）架构与混合推理机制的深度整合，在参数效率与任务适应性层面实现双重突破。

而在数学证明、代码生成等核心基准测试中，旗舰模型Qwen3-235B-A22B性能与DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球顶尖模型表现相当。

纸面数据这么强的模型，真实实力到底如何？

目前通义App以及通义网页版（www.tongyi.com）已经全面上线千问3，我们也通过通义App的“千问大模型”智能体（默认搭载Qwen3-235B-A22B模型）进行了文字陷阱、逻辑思维、文案创作、信息获取再创作等多轮测试，结果让我们大吃一惊。

今年高考，国产AI要拿高分了

首先为了保证测试的是千问3更为纯粹的逻辑以及推理能力，我们在测试前将联网功能进行了关闭，并且仅使用旗舰模型进行测试。

我们先用了两道经典的大模型测试问题为其“开开胃”：9.8和9.11谁大以及strawberry中有几个r，千问3均能直接果断的给出推理过程和答案，并且指出了常见误区以及用了多种不同的方式来证明答案的正确性。

随后我们又向千问3提出了此前难倒众多大模型的国内小学奥赛题目：

奥利弗周五摘了 44 个猕猴桃，周六摘了 58 个，周日摘的数量是周五的两倍，不过有5个更小一些。问奥利弗一共摘了多少个猕猴桃?

这道题目是北京海淀一所小学二年级的问题，逻辑很简单，不需要多么复杂的数学推导，但在此前却让GPT4o等大模型“翻车”。

然而千问3仅用7秒便准确的给到了我们正确答案，并且给到的关键点解析中也明确的标注出易错环节和验证逻辑。

仔细看千问3的推理过程，也能看出其准确的识别到了题目的陷阱，并且对答案进行了多轮验证。

简单的文字游戏难不住千问3，那么更加需要推理的问题呢？

于是我们拿出了去年高考理科数学中最后一道选择题，让千问3来解答：

已知b是a,c的等差中项,直线ax+by+c=0与圆x²+y²+4y-1=0交于A,B两点,则|AB|的最小值为？

对于这道需多轮推算与核对的难题，千问3并没有掉链子，细细查看给到的推理过程以及答案，可以发现千问3不但答对了题目，更是用了多种解题手段，并且考虑到了多种情况，且每一步都会反复验证，保证能够给到准确的信息。

高考过的知道，数学最后一道选择题，往往是卷子中最难的之一，千问3能够准确且快速的给到答案，相信在今年的大模型PK高考数学的竞赛中，定能脱颖而出。

AI加持，小白也能成大拿

除了这些常规问题，我们又深度测试了千问3在创意写作、角色扮演、多轮对话、指令跟随等多方面的能力。需要注意的是，这些问题往往实时性较高，所以在这个环节我们也打开了联网功能。

首先，我们作为一个想要买黄金的小白，让千问3扮演一个职业金融分析师的角色，看看其能否给到我们专业，同时又通俗易懂的市场分析建议。

从千问3给到的回答中，我们可以清晰的看到其调用了极其专业的知识库信息，通过多维思考，给到了非常有逻辑的市场状况、核心驱动因素以及技术层面的分析和建议。在其助力下，即便是对经济市场完全不了解的小白用户，也能做出理性判断。

简单的没有难到千问3，那更为抽象的问题呢？我们给了千问3一个“擅长以莎士比亚风格来分析金融市场的研究员”的身份，然后让其分析未来黄金的走势。没想到的是，千问3没有丢掉任何一个要求，不仅有理有据的分析了市场，还将这些与莎士比亚的经典风格结合到了一起，这确实有点超前了。

当然，一个新的大模型问世，难免逃不过与同行的对比，于是我们也将千问3与目前较火的Deepseek-R1以及豆包1.5pro进行了对比测试。

不过对于大多数普通用户来说，这些都还不够日常，于是我们以最近比较火的“look in my eyes”作为考点，让千问3进行相关情景创作。千问3不但准确的找到了该梗出处，创作出的文案也属于直接能用的水准。

值得一提的是，其实这个环节我们也让在创作者群体中比较火的Deepseek-R1以及豆包1.5pro参与了创作，但让人意想不到的是豆包和Deepseek都没能识别出这个梗的出处以及真实含义，创作出的文案也几乎是无法直接使用。

一个指令，人人都可以是产品经理

除了解答问题、创作文案外，代码生成也是千问3的亮点能力。

在网页版的通义中（www.tongyi.com），用户可以进入更擅长处理代码问题的代码模式，在这个模式中，只要一句话便可生成一个应用。

我作为一个完全的代码小白，想让千问3帮我生成一个摸鱼小游戏，但没有更为具体的想法，于是就直接向千问3下达了生成摸鱼小游戏的指令。大概10S钟的时间，一个接金币小游戏便生成了，并且玩起来也十分丝滑。

随后我提出新的需求，希望通义帮我做一个通勤助手，要求以卡片形式整合 “天气+交通+日程”，一站式展示通勤关键信息。

通义给出的结果，再次让人眼前一亮，不仅实现了功能需求，还对重点细节部分进行了详细说明，以便用户直接更改需求使用。

值得一提的是，通义网页版还配备了指令优化功能，可以直接优化用户指令，使其更丰富且更贴合代码生成逻辑。

小球测试也是难倒众多大模型代码能力的测试，我们也拿这个来考考千问3，给到其要求：编写一个动画程序，模拟一个红色小球在顺时针旋转的五边形中晃动，并遵循重力规律。

千问3快速给到了代码，并且给到了使用指南，而我们根据使用指南将代码运行起来，得到了一个符合指令的展示效果。

其实通过一轮轮测试下来，可以明显的感知到千问3在复杂任务处理上的碾压级优势——它不是简单堆砌知识点的答题机器，而是真正具备思维链构建能力的智能体。

当然，一个出色的大模型也需要一个出色的落地产品。在使用通义App体验千问3的过程中，也能确切的感受到新版通义App在多轮进化升级后，无论是产品界面还是交互体验等设计层面的全方位变化，都变得更加易用，也更具温度。

虽然过去的通义App同样具备不俗的AI实力，但在用户使用体验上仍有优化空间。例如此前的通义App在主界面上集合了不少功能，这种设计虽然可以帮助用户快速跳转，但对于新用户来说，难免会出现摸不着头脑的情况，需要摸索后才能轻松上手。

如今的通义App整体界面大做减法，产品设计更加简洁清爽，将提问、对话、图片理解与生成、翻译、写作等多种核心以及常用的功能放到最显眼的位置，主智能体“邻家女孩”这一富有亲和力的新形象，能胜任大部分应用场景中的需求，保证了所有用户都能轻松体验。

新版通义App在其他方面的设计和调整，也进一步降低了用户使用的门槛。例如左滑便可直接看到对话记录、我创建的、我聊过的智能体等资产沉淀，右滑就是通义过去积累起来的智能体平台，有非常丰富的专业智能体，比如AI视频、健康顾问、AI生图、AI扩图、表情包大师等等，通过这些名称更直观地找到自己所需的信息，并且整体界面显得清爽了不少。

另外，通义App在视觉呈现上也下足了功夫，色彩搭配舒适，功能排版清晰，各种功能按钮的位置设置合理。可以说，通义App通过这些贴心的设计，让千问3的强大能力得以更好地展现，也让用户更加愿意沉浸其中，探索AI的无限可能。

从榜单到场景，千问3真正做到了“能上手、能落地”，而当每个开发者都能基于这套最强开源底座创造价值，当每个用户都能通过一个好用的App去释放AI潜力，这种让最强AI触手可及的普惠性，或许才是千问3以及通义App定义的最强新内涵。

特别声明：本文为合作媒体授权DoNews专栏转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表DoNews专栏的立场，转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

在通义App实测Qwen3，这可能是2025年上半年最强大模型

相关阅读

评论