IT 之家 11 月 28 日音讯,阿里通义千问今天(11 月 28 日)发布《QwQ: 念念忖未知之界》博文,推出了 QwQ-32B-Preview 实验性无间模子,在数学和编程边界,尤其在需要深度推理的复杂问题上,具备特地的 AI 推明智商。
它是少数能与 OpenAI 的 o1 匹敌的模子之一,何况是第一个能以宽松许可证下载的模子。QwQ-32B-Preview 在 Apache 2.0 许可证下"公开"可用,这意味着它不错用于买卖诳骗。
QwQ 愿景
阿里通义千问团队示意"念念考、质疑、清醒,是东说念主类探索未知的不朽追求",而 QwQ 犹如一位怀抱无穷风趣的学徒,以念念考和疑问照亮前路。
模子局限性
阿里通义千问团队当先标明 QwQ 模子具备局限性,仍在学习若何行走于感性之路,它的念念绪偶尔飘散,谜底或者未尽完善,机灵仍在积淀。
IT 之家附上原文中对该模子的局限性先容如下:
说话切换问题:模子可能在复兴中夹杂使用不同说话,影响抒发的连贯性。
推理轮回:在处理复杂逻辑问题时,模子偶尔会堕入递归推理花式,在相似念念路中轮回。这种活动固然反应了模子试图全面分析的致力,但可能导致冗长而不够聚焦的复兴。
安全性酌量:尽管模子已具备基础安全管控,但仍需要进一步增强。它可能产生不顺应或存在偏见的复兴,且与其他大型说话模子相通,可能受到顽抗报复的影响。咱们浓烈漠视用户在坐褥环境中严慎使用,并弃取符合的安全阻挡步调。
智商互异:QwQ-32B-Preview 在数学和编程边界发扬出色,但在其他边界仍有普及空间。模子性能会随任务的复杂度和专科进度而波动。咱们正通过抓续优化,致力普及模子的抽象智商。
模子发扬
QwQ-32B-Preview 包含 325 亿个参数,能够处理最长 32000 个 tokens 的教导词;在 AIME 和 MATH 基准测试中,它的发扬优于 OpenAI 的两个推理模子 o1-preview 和 o1-mini。
GPQA
该基准是一个通过小学级别问题评估高阶科学解题智商的评测集,旨在练习科知识题惩处智商。QwQ-32B-Preview 评分为 65.2%,展示了无间生水平的科学推明智商。
AIME
该基准涵盖算术、代数、计数、几何、数论、概率等中学数学主题的抽象评测,测试数知识题惩处智商。QwQ-32B-Preview 评分为 50.0%,证实了浩大的数知识题惩处妙技。
MATH-500
该基准包含 500 个测试样本的 MATH 评测集,全面练习数学解题智商。QwQ-32B-Preview 获利为 90.6%,体现了在种种数学主题上的全面清醒。
LiveCodeBench
该基准评估实在编程场景中代码生成和问题惩处智商的高难度评测集。QwQ-32B-Preview 获利为 50.0%,考证了在推行编程场景中的出色发扬。
参考kaiyun网页版登录入口