《人工智能大模型体验报告2.0》权威发布！讯飞星火总分第一，技压群“模”

2023-08-14 22:15:23 来源：投资资讯网

(资料图片)

自“十四五”数字经济发展规划下发以来，我国高度重视发展数字经济，密集出台顶层战略规划，明确数据要素是数字经济深化发展的核心引擎，对提高生产效率具有“乘数效应”，要求“政企研用”各环节协同推进新技术、新模式、新业态和制度创新。其中以人工智能为核心的大模型产业呈现星火燎原之势，为社会数字化发展带来强劲动力。8月12日，新华社重磅发布《人工智能大模型体验报告2.0》，将时下热门的讯飞星火、百度文心一言、商汤商量、阿里通义千问、智谱AI-ChatGLM、昆仑万维(300418)天工、澜舟Mchat、360智脑共计八款国产大模型进行横向测评，结果讯飞星火以总分第一的成绩技压群“模”，可以说是成为了现阶段国产大模型的“领头羊”。

此次大模型报告由新华社研究院中国企业发展研究中心权威发布，历时一个多月。相比6月首次发布的《人工智能大模型体验报告》（1.0版本），在题目设计、对标Benchmark（人类）、打分权重以及专家测评团队四大维度进行了全面升级。新版报告将大模型能力拆解为基础能力、智商评估、情商评估以及工具提效指数四大维度。除研究院研究员参与深度体验外，还特邀北京大学文化与传播研究所，以及其他业界、学界专家参与；通过增设500道测评题目，对各款大模型的优劣特长进行更加全面、客观的综合性评估。

从技术源头追溯，大模型是数智化社会的底层基石，可视为“根技术”之一。在基础能力上，课题组以语言能力、AI向善、跨模态和多轮对话四大指标进行测评，结果显示以讯飞星火、商汤商量、文心一言为代表的五款大模型“越”过了180分的高分红线。但总体而言，得益于各家大模型持续性的投入，人类与AI之间的差距并不显著。

人类作为高等灵长类生物，在漫长的岁月发展中沉淀了对世界、社会和文化的基本信息认知。而在智商评估中，课题分别从常识知识、逻辑能力和专业知识等方面对大模型进行考察，结果讯飞星火与智谱AI-ChatGLM以147分并列第一。它们在处理复杂问题时能够提供更严谨的思维逻辑和更强大的分析决策能力，推动人工智能从认知走向感知。再结合医疗、法律等专业领域的推理能力，有助于在特定领域中进行更准确与高效的问题处理。

作为数字时代的新生产力工具，大模型能否帮助人类工作提质增效成为重点考量范畴。报告显示，讯飞星火提供了更为丰富、有效的工具，包括代码生成、数据自动分析和可视化工具、文件整理等，足以帮助人类更快、更从容地完成工作任务。同时讯飞星火能够提供新的思路和方法，推动业务流程、选题创新和内容创新等工作方式的改进和升级。在该项评估中，讯飞星火以350分大比分领先于其他大模型，与第二名都拉开了15分的巨大差距。

作为人工智能的国家队，科大讯飞(002230)背靠认知智能国家重点实验室，加速了大模型的持续研发和创新迭代。比如在今年NeurIPS 2022教育因果挑战赛中，认知智能国家重点实验室以显著优势夺得真实场景教学效果推断赛道冠军，创新性提出了基于学习过程一致性知识追踪的教学效果推理模型，并在科大讯飞AI学习机中实现了规模化落地，让前沿技术走出实验室，在广阔市场真正有了“用武之地”。

据悉，科大讯飞将在15日举办星火V2.0升级发布会，届时不仅会带来代码能力的突破，更将进一步面向客户提供业界领先的私有化代码能力平台，让大模型在重点领域、关键环节实现全栈式自主可控。

（免责声明：此文内容为广告，相关素材由广告主提供，广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，请自行核实相关内容。广告内容仅供读者参考。）

（责任编辑：周文凯）

标签：