如何构建高质量数据集?
如何构建高质量数据集?
数据集在微调任务中起着至关重要的作用。毫不夸张的说,要想得到好的微调效果,数据集
的质量要远大于其他参数的设置,如果数据集太小、多样性不足、数据噪声太大、样本偏差
严重等问题都会导致微调任务失败。按照经验来讲,在一次微调任务中,大概 80% 的时间应
该花在数据集的准备和处理上,因为微调的工具、流程和参数的调整都是有经验可循的,而
数据集的构建却需要结合具体业务场景。从数据采集时需覆盖多维度场景,到清洗时剔除噪
声与偏差样本,再到标注时确保一致性与准确性,每个环节都影响最终效果。此外,还需合
理划分训练/验证/测试集,通过数据增强扩充样本多样性,让模型在微调中真正学习到关键
特征。
数据集格式要求
本次任务我们进行的是指令监督微调(SFT),在 LLaMA Factory 中主要支持 Alpaca 格式和
ShareGPT 两种格式:
Alpaca 格式的指令微调数据集:
Alpaca数据集 ShareGPT数据集
代码块 ...
附件列表