aigc
GSM8K简介
GSM8K数据集是由OpenAI发布的小学数学题数据集,其目的是诊断当前模型的失败并支持研究。
数据集的组成
- 问题数量与来源:由8.5K高质量的小学数学问题组成,这些问题都是由人类写手创造的。其中7.5K为训练问题,1K为测试问题。
- 问题难度与解决方式:这些问题需要2到8个步骤来解决,解决方法主要是使用基本的算术运算( + - / * )进行一连串的基本计算以得出最终答案,一个聪明的中学生应该能够解决每个问题。
答案格式
答案使用计算注释,使最终的数字解成为解决方案的最后一行,前面是####。在训练时,按原样在这个语言数据上进行微调;在测试时,当模型选择使用这些注释时,计算器将覆盖采样。
相关衍生数据集
- GSM8K - FIX数据集:是原始GSM8K数据集的修正版本,包含多个特征如'id','query','query4test'等。其train数据包含8792个样本,总大小为5847311字节。
- GSM8K - STEP - ANS数据集:基于GSM8K原始数据集构建,通过引入逐步推理(STEP - BY - STEP)和答案(ANS)的标注方式,提供更为细致的数学问题解答过程,不仅包含原始问题文本描述,还详细记录每一步推理逻辑过程以及最终答案,并且包含负面推理步骤以增强模型鲁棒性和推理能力