VisCPM
是一个开源的多模态大模型系列,支持中英双语的多模态对话能力( VisCPM-Chat
模型)和文到图生成能力( VisCPM-Paint
模型),在中文多模态开源模型中达到最佳水平。VisCPM基于百亿参数量语言大模型 CPM-Bee(10B)训练,融合视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力, VisCPM
可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
– 👐 开源使用:VisCPM可以自由被用于个人和研究用途。我们希望通过开源VisCPM模型系列,推动多模态大模型开源社区和相关研究的发展。 – 🌟 涵盖图文双向生成:VisCPM模型系列较为全面地支持了图文多模态能力,涵盖多模态对话(图到文生成)能力和文到图生成能力。 – 💫 中英双语性能优异:得益于语言模型基座CPM-Bee优秀的双语能力,VisCPM在中英双语的多模态对话和文到图生成均取得亮眼的效果。
官网
https://github.com/OpenBMB/VisCPM
[…] 地址:VisCPM – 哆啦时代 (doraera.com) […]