摘要:
[目的/意义]大语言模型是人工智能领域的一项新型技术,因其强大而专业的能力已应用于多个领域,探究大语言模型能力体系及对大语言模型做出评价有助于其研究与应用。\[方法/过程\]收集各领域评价大语言模型榜单共20个,基于扎根理论构建大语言模型能力评价体系,选取12个大语言模型对其进行实证分析。\[结果/结论\]基于人类能力体系构建的大语言模型能力评价体系具有合理性与可行性,现有大语言模型能力评价中存在变量未控制、流程不规范、结果可行性存疑等问题,并给出解决对策,为大语言模型评价提供理论参考。