活字是由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048。 在标准的中文和英文基准以及主观评测上均取得同尺寸中优异的结果。
局限性: 由于模型参数量以及中文预训练数据较少和自回归生成范式,活字仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容,请谨慎鉴别和使用生成的内容,请勿将生成的有害内容传播至互联网。若产生不良后果,由传播者自负。
模型设置 模型基座使用BLOOM-7B1,结合了BLOOM模型本身的中文能力。在保证性能的同时支持单卡推理。 指令微调数据集采用ChatML格式。训练数据总量为15B token,包含约20%的预训练语料和80%的对话及指令数据。
模型特色
活字1.0
中英双语: 在标准的中/英文基准与主观测评上均取得优异的效果,同时支持多语言对话能力。指标分数详见 人工综合评测。 更丰富的指令微调数据: 人工构造了更多指令微调模板,以及一系列的self-instruct指令构造的SFT数据,使得指令微调的数据更加丰富。 取得更好的指令遵循能力 支持生成代码以及表格 更高质量的安全数据: 基于多轮对抗攻击,以SFT形式手动设计安全数据,强化模型回复的安全性和合规性。 安全性指标达到 84.4⁄100 ,甚至超越了ChatGPT。
活字2.0
更好的回复:活字2.0的回复具有更好的模式,往往更加详实、条理清晰。 融合多种trick的稳定PPO训练: 训练更加稳定高效 训练过程中保持数据分布一致 在奖励函数中加入KL-散度罚值 Actor权重滑动平均 多维度标注的中文偏好数据: 回答更丰富,遵从指令的能力更强,逻辑更加清晰 针对Instruction标注是否具有诱导性 针对每条回复从有用性、真实性和无害性三个维度打分 综合考虑Instruction类别、回复质量的偏好排序
官网
https://github.com/HIT-SCIR/huozi
[…] 地址:huozi – 哆啦时代 (doraera.com) […]