大语言模型能力评价体系构建及问题研究

情报探索 ›› 2024, Vol. 1 ›› Issue (11): 1-.

• 理论探索 •

大语言模型能力评价体系构建及问题研究

（南京大学信息管理学院江苏南京 210023）

出版日期:2024-11-15 发布日期:2025-03-05
作者简介:符鹏（2000—），男，2022级硕士研究生，研究方向为人工智能；杨海平（1967—），男，博士，教授，博士生导师，通迅作者，研究方向为知识服务。

Online:2024-11-15 Published:2025-03-05

摘要/Abstract

摘要：

［目的／意义］大语言模型是人工智能领域的一项新型技术，因其强大而专业的能力已应用于多个领域，探究大语言模型能力体系及对大语言模型做出评价有助于其研究与应用。\[方法/过程\]收集各领域评价大语言模型榜单共20个，基于扎根理论构建大语言模型能力评价体系，选取12个大语言模型对其进行实证分析。\[结果/结论\]基于人类能力体系构建的大语言模型能力评价体系具有合理性与可行性，现有大语言模型能力评价中存在变量未控制、流程不规范、结果可行性存疑等问题，并给出解决对策，为大语言模型评价提供理论参考。

关键词:

大语言模型, 人工智能, 体系构建, 扎根理论

符鹏杨海平.

大语言模型能力评价体系构建及问题研究 [J]. 情报探索, 2024, 1(11): 1-.

[1]	唐明伟陈宙丁晗萱朱翼顾明辉陈羽. 大语言模型中文问答正确性对比实验研究*——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例 [J]. 情报探索, 2024, 1(7): 1-.
[2]	郭倩周冯宇蒋烨李明. 小微企业竞争情报信息组织研究进展与评述* [J]. 情报探索, 2024, 1(6 ): 1-.
[3]	李青维张心悦. 基于解释结构模型的微博用户中辍行为影响因素研究* [J]. 情报探索, 2024, 1(5): 1-.
[4]	戴梦菲. 以ChatGPT为代表的自然语言AI在数据库内容检索与生成中的应用——以全国报刊索引为例 [J]. 情报探索, 2024, 1(5): 1-.
[5]	周冰芮杨金龙孙亚宁. 常态社会下大学生健康信息在线获取感知价值影响因素模型研究* [J]. 情报探索, 2024, 1(4): 1-.
[6]	史雅莉贺红钰. 2003—2023年我国自动标引研究及实践进展* [J]. 情报探索, 2024, 1(4): 1-.
[7]	李媛媛. 问诊类移动医疗APP用户持续使用意愿影响因素研究 [J]. 情报探索, 2024, 1(3): 1-.
[8]	陈盈池管庆华傅文奇. 乡村图书馆服务效能的影响因素及提升路径研究*——以福州、泉州为例 [J]. 情报探索, 2024, 1(3): 1-.
[9]	王益君龙苗苗. 情感框架、意见领袖与政府信任* [J]. 情报探索, 2024, 1(2): 1-.
[10]	刘晶吕斌. 情报分析师职业胜任力模型构建——基于美国情报界相关实践的探讨 [J]. 情报探索, 2024, 1(2): 1-.
[11]	朱良兵, 刘发德. 大语言模型与知识图谱的比较和融合研究* [J]. 情报探索, 2024, 1(12): 1-.
[12]	李俊辰吴绍忠. GAI技术视角下的虚假信息对开源情报工作的影响* [J]. 情报探索, 2024, 1(11): 1-.
[13]	秦瑾若. 社会化问答社区答题者知识隐藏行为的影响因素研究 [J]. 情报探索, 2024, 1(10): 1-.
[14]	吕浩航林家业. 基于扎根理论的移动阅读平台用户间歇性中辍行为机理研究 [J]. 情报探索, 2024, 1(10): 1-.
[15]	潘雪峰王超卢智增. ChatGPT在健康谣言鉴别中的实证探讨与应用展望* [J]. 情报探索, 2024, 1(1): 1-.

大语言模型能力评价体系构建及问题研究

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价