在通义App实测Qwen3,这可能是2025年上半年最强大模型

通义App 能给到的,不止是千问3。

 者称为「全球最强开源」的模型家族,一夜之间就刷屏了整个AI圈,并且和前一代千问系列模型一样,千问3的发布也是满屏的好评。

作为国内首个实现"混合推理"能力的开源模型,千问3不仅达到了36万亿token的训练数据量,还支持119种语言和方言。通过混合专家(MoE)架构与混合推理机制的深度整合,在参数效率与任务适应性层面实现双重突破。

而在数学证明、代码生成等核心基准测试中,旗舰模型Qwen3-235B-A22B性能与DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球顶尖模型表现相当。

纸面数据这么强的模型,真实实力到底如何?

目前通义App以及通义网页版(www.tongyi.com)已经全面上线千问3,我们也通过通义App的“千问大模型”智能体(默认搭载Qwen3-235B-A22B模型)进行了文字陷阱、逻辑思维、文案创作、信息获取再创作等多轮测试,结果让我们大吃一惊。

今年高考,国产AI要拿高分了

首先为了保证测试的是千问3更为纯粹的逻辑以及推理能力,我们在测试前将联网功能进行了关闭,并且仅使用旗舰模型进行测试。

我们先用了两道经典的大模型测试问题为其“开开胃”:9.8和9.11谁大以及strawberry中有几个r,千问3均能直接果断的给出推理过程和答案,并且指出了常见误区以及用了多种不同的方式来证明答案的正确性。

随后我们又向千问3提出了此前难倒众多大模型的国内小学奥赛题目:

奥利弗周五摘了 44 个猕猴桃,周六摘了 58 个,周日摘的数量是周五的两倍,不过有5个更小一些。问奥利弗一共摘了多少个猕猴桃?

这道题目是北京海淀一所小学二年级的问题,逻辑很简单,不需要多么复杂的数学推导,但在此前却让GPT4o等大模型“翻车”。

然而千问3仅用7秒便准确的给到了我们正确答案,并且给到的关键点解析中也明确的标注出易错环节和验证逻辑。

仔细看千问3的推理过程,也能看出其准确的识别到了题目的陷阱,并且对答案进行了多轮验证。

简单的文字游戏难不住千问3,那么更加需要推理的问题呢?

于是我们拿出了去年高考理科数学中最后一道选择题,让千问3来解答:

已知b是a,c的等差中项,直线ax+by+c=0与圆x²+y²+4y-1=0交于A,B两点,则|AB|的最小值为?

对于这道需多轮推算与核对的难题,千问3并没有掉链子,细细查看给到的推理过程以及答案,可以发现千问3不但答对了题目,更是用了多种解题手段,并且考虑到了多种情况,且每一步都会反复验证,保证能够给到准确的信息。

高考过的知道,数学最后一道选择题,往往是卷子中最难的之一,千问3能够准确且快速的给到答案,相信在今年的大模型PK高考数学的竞赛中,定能脱颖而出。

AI加持,小白也能成大拿

除了这些常规问题,我们又深度测试了千问3在创意写作、角色扮演、多轮对话、指令跟随等多方面的能力。需要注意的是,这些问题往往实时性较高,所以在这个环节我们也打开了联网功能。

首先,我们作为一个想要买黄金的小白,让千问3扮演一个职业金融分析师的角色,看看其能否给到我们专业,同时又通俗易懂的市场分析建议。

从千问3给到的回答中,我们可以清晰的看到其调用了极其专业的知识库信息,通过多维思考,给到了非常有逻辑的市场状况、核心驱动因素以及技术层面的分析和建议。在其助力下,即便是对经济市场完全不了解的小白用户,也能做出理性判断。

简单的没有难到千问3,那更为抽象的问题呢?我们给了千问3一个“擅长以莎士比亚风格来分析金融市场的研究员”的身份,然后让其分析未来黄金的走势。没想到的是,千问3没有丢掉任何一个要求,不仅有理有据的分析了市场,还将这些与莎士比亚的经典风格结合到了一起,这确实有点超前了。

当然,一个新的大模型问世,难免逃不过与同行的对比,于是我们也将千问3与目前较火的Deepseek-R1以及豆包1.5pro进行了对比测试。

不过对于大多数普通用户来说,这些都还不够日常,于是我们以最近比较火的“look in my eyes”作为考点,让千问3进行相关情景创作。千问3不但准确的找到了该梗出处,创作出的文案也属于直接能用的水准。

值得一提的是,其实这个环节我们也让在创作者群体中比较火的Deepseek-R1以及豆包1.5pro参与了创作,但让人意想不到的是豆包和Deepseek都没能识别出这个梗的出处以及真实含义,创作出的文案也几乎是无法直接使用。

02

一个指令,人人都可以是产品经理

除了解答问题、创作文案外,代码生成也是千问3的亮点能力。

在网页版的通义中(www.tongyi.com),用户可以进入更擅长处理代码问题的代码模式,在这个模式中,只要一句话便可生成一个应用。

我作为一个完全的代码小白,想让千问3帮我生成一个摸鱼小游戏,但没有更为具体的想法,于是就直接向千问3下达了生成摸鱼小游戏的指令。大概10S钟的时间,一个接金币小游戏便生成了,并且玩起来也十分丝滑。

随后我提出新的需求,希望通义帮我做一个通勤助手,要求以卡片形式整合 “天气+交通+日程”,一站式展示通勤关键信息。

通义给出的结果,再次让人眼前一亮,不仅实现了功能需求,还对重点细节部分进行了详细说明,以便用户直接更改需求使用。

值得一提的是,通义网页版还配备了指令优化功能,可以直接优化用户指令,使其更丰富且更贴合代码生成逻辑。

小球测试也是难倒众多大模型代码能力的测试,我们也拿这个来考考千问3,给到其要求:编写一个动画程序,模拟一个红色小球在顺时针旋转的五边形中晃动,并遵循重力规律。

千问3快速给到了代码,并且给到了使用指南,而我们根据使用指南将代码运行起来,得到了一个符合指令的展示效果。

其实通过一轮轮测试下来,可以明显的感知到千问3在复杂任务处理上的碾压级优势——它不是简单堆砌知识点的答题机器,而是真正具备思维链构建能力的智能体。

当然,一个出色的大模型也需要一个出色的落地产品。在使用通义App体验千问3的过程中,也能确切的感受到新版通义App在多轮进化升级后,无论是产品界面还是交互体验等设计层面的全方位变化,都变得更加易用,也更具温度。

虽然过去的通义App同样具备不俗的AI实力,但在用户使用体验上仍有优化空间。例如此前的通义App在主界面上集合了不少功能,这种设计虽然可以帮助用户快速跳转,但对于新用户来说,难免会出现摸不着头脑的情况,需要摸索后才能轻松上手。

如今的通义App整体界面大做减法,产品设计更加简洁清爽,将提问、对话、图片理解与生成、翻译、写作等多种核心以及常用的功能放到最显眼的位置,主智能体“邻家女孩”这一富有亲和力的新形象,能胜任大部分应用场景中的需求,保证了所有用户都能轻松体验。

新版通义App在其他方面的设计和调整,也进一步降低了用户使用的门槛。例如左滑便可直接看到对话记录、我创建的、我聊过的智能体等资产沉淀,右滑就是通义过去积累起来的智能体平台,有非常丰富的专业智能体,比如AI视频、健康顾问、AI生图、AI扩图、表情包大师等等,通过这些名称更直观地找到自己所需的信息,并且整体界面显得清爽了不少。

另外,通义App在视觉呈现上也下足了功夫,色彩搭配舒适,功能排版清晰,各种功能按钮的位置设置合理。可以说,通义App通过这些贴心的设计,让千问3的强大能力得以更好地展现,也让用户更加愿意沉浸其中,探索AI的无限可能 。

从榜单到场景,千问3真正做到了“能上手、能落地”,而当每个开发者都能基于这套最强开源底座创造价值,当每个用户都能通过一个好用的App去释放AI潜力,这种让最强AI触手可及的普惠性,或许才是千问3以及通义App定义的最强新内涵。

特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论