大语言模型中文问答正确性对比实验研究*——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例

情报探索 ›› 2024, Vol. 1 ›› Issue (7): 1-.

• 工作研究 •

大语言模型中文问答正确性对比实验研究*——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例

（南京审计大学计算机学院江苏南京 211815）

出版日期:2024-07-15 发布日期:2024-08-09
作者简介:唐明伟（1982—），男，博士，副教授，研究方向为智能信息处理，已发表论文25篇；陈宙（2000—），男，2022级硕士研究生，研究方向为文本分析；丁晗萱（2001—），女，2022级本科生，研究方向为文本分析；朱翼（1987—），男，博士，副教授，研究方向为人工智能应用，已发表论文5篇；顾明辉（2003—），男，2021级本科生，研究方向为文本分析；陈羽（2003—），女，2021级本科生，研究方向为文本分析。
基金资助:
*本文系教育部人文社会科学研究规划基金项目“面向情景推演的突发事件应急预案知识组织研究”（项目编号:23YJA870009）；江苏高校哲学社会科学研究重大项目“面向应急决策的突发事件应急预案知识推理研究”（项目编号：2021SJZDA153）；江苏高校“青蓝工程”和国家自然科学基金青年项目“行为科学视角下人类个体差异性对人机合作信任的影响研究”（项目编号：62006121）成果之一。

Online:2024-07-15 Published:2024-08-09

摘要/Abstract

摘要：

［目的／意义］对大语言模型中文问答正确性进行实验测评研究，为中文用户使用大语言模型提供一定的指导作用。\[方法/过程\]针对科技、教育、医学、生活、旅游美食和哲学文化6个领域，分别设计常识性、专业性和开放性三类问题，每类20个问题，共计360个问题。分别向ChatGPT 3.5、Claude 1.0和文心一言2.1提问，再针对回答进行正确性的人工评价。最后汇总评价结果，进行正确性的多方面对比分析。\[结果/结论\]实验分析表明中文语料数据的规模与质量，以及大语言模型的参数规模是影响大语言模型中文问答正确性的重要因素。

唐明伟陈宙丁晗萱朱翼顾明辉陈羽.

大语言模型中文问答正确性对比实验研究*——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例 [J]. 情报探索, 2024, 1(7): 1-.

大语言模型中文问答正确性对比实验研究*——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 1

编辑推荐

Metrics

本文评价