当前位置： 首页 >> 智能环球 >> 查看详情

大语言模型意识水平测评报告显示：DeepSeek-R1语义一致性表现较好

来源： 科技日报 日期：2025-03-03 责编： 殷绪江

2月25日，记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉，由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告（100题版）》（以下简称《报告》）日前出炉。
　　《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型，从数据、信息、知识、智慧、意图等方面，构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块，对主流大语言模型的意识水平进行系统化、量化深度剖析。
　　《报告》对当前主流的大语言模型进行了全面测评，包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示，不同模型在不同模块的表现各有千秋。
　　例如，感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色，体现出稳定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通义千问-2.5、Kimi和Grok在信息提取方面表现优异，特别是在数据到信息转化路径上的表现尤为突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。
　　知识构建与推理部分的测评考察模型将信息整合为知识的能力，以及逻辑推理能力。结果显示，通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o表现突出。
　　意图识别与调整部分的测评重点考察模型对用户意图的理解能力，以及根据意图调整输出的能力。结果显示，豆包和Gemini-2.0 Flash Thinking Experimental表现较好，能够准确理解用户的问题并提供相关回答。（记者王祝华）

标签：人工智能科技 AI 大模型 GPT

上一文章：当机器人照镜子，它看见了什么

下一文章：深圳机器人“天团”解锁多元新赛道

手机端 点一点或扫一扫
咨询、采访、合作、投稿等请致电：13911566744（含微信）

凡注明 “环球科技网” 字样的图片或文字内容均属于本网站专稿，如需转载图片请保留 “环球科技网” 水印，转载文字内容请注明来源“环球科技网”；凡本网注明“来源：XXX(非环球科技网)”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其作品内容的实质真实性负责，转载信息版权属于原媒体及作者。如转载内容涉及版权或者其他问题，请投诉至邮箱；1978751725@qq.com
本网公告：本网系北京伯乐传媒广告有限公司主办、所持有。唯一域名（www.hqkjw.cn），其它域名链接均为假冒。望广大网民及企业主认真甄别。

聚焦中国AI大模型之一：阿里巴巴专家解读AI与手机深度融合前景 2025-02-28 15:24:37
新年伊始，国产AI大模型的显著进步引发全球关注。微观层面，我们可以向大模型提问获取答案或者让它撰写文稿，将大模型逐渐嵌入手机等智能终端，发展辅助工作学习的专用大模型……宏观来看，人类又要如何与AI相处，如何实现科技平权、让更多人享受大模型带来的便利？本期的《中国经济面面观》，请与我们一同发现AI大模型的无... [阅读]
我们需要什么样的人工智能 2025-02-27 15:12:55
百年未有之大变局下，我们加快了寻找答案、走向新域的步伐。这一进程中，层出不穷的技术“候选者”为解决问题而来，其中，人工智能（AI）是风头最劲的一位。　　但面对这位备受全球科技界眷顾的选手时，我们依旧要冷静思索：中国，需要怎样的AI？因为AI发展道路怎么走，对我们的步调至关重要。　　社会主义的本质，是解放、... [阅读]
DeepSeek“开源周”打响发令枪　AI进入“开源盛世” 2025-02-27 15:03:44
2月21日，国内知名AI公司深度求索（DeepSeek）发布“开源周”计划，在2月24日—28日每日开源新内容，总共5个代码库。DeepSeek官方的GitHub代码提交记录成了AI开发者眼中的“赛博烟花”，打响了AI新一轮开源竞赛的发令枪。　　“这里没有象牙... [阅读]
大模型企业闯进“纯视觉时代” 2025-02-26 08:55:10
视频生成有望成为通用知识学习方法，在现实世界充当“人工大脑”。近日，豆包大模型团队宣布其携手北京交通大学与中国科学技术大学共同研发的视频生成实验模型“VideoWorld”正式开源，首次实现无需依赖语言模型即可认知世界。民生证券发布研报称，豆包开源视频大模型“VideoWo... [阅读]

大语言模型意识水平测评报告显示：DeepSeek-R1语义一致性表现较好

相关文章

新闻排行榜

热门新闻

推荐新闻

商务合作

友情链接

自媒体矩阵