始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。
本次模型基准测试涵盖了 16 款接近 1.5B 参数规模的开源大语言模型,包括 RWKV 系列中的前代架构,如 RWKV-4 和 RWKV-5,也包括此前发布的 RWKV-6 Finch 1.6B。在测试中,英语的性能测试将通过 12 个独立的基准测试来衡量大模型在常识推理和世界知识等英语内容上的表现。多语言能力的评估中,则采用了 xLAMBDA、xStoryCloze、 xWinograd 和 xCopa 四种基准测试,深度探索了评估模型在多语言环境中的逻辑推理、故事理解、歧义解决和因果推理能力。
值得注意的是,在训练 RWKV 时并未加入这些测试的训练集。换言之,没有为获取更佳的评分结果而进行特殊优化。因此,RWKV 模型的能力实际上是比它的评分排行更强的。
对 RWKV-6 1.6B(2.5T Tokens)模型进行了续写、翻译等多种类型的任务测试,任务内容涵盖英语、日语、西班牙语等多种全球语种。
以下是任务的实际效果:(黄色背景部分为输入给模型的 prompts ,后为模型的输出)
由上图可见,RWKV-6 1.6B(2.5T Tokens)模型在多种语言混合的任务中表现出色。
值得一提的是,用于训练新模型的 2.5 T tokens 语料中只有少量翻译数据,但 RWKV-6 1.6B(2.5T Tokens)模型仍然可以准确地翻译很多未学习的内容,证明模型拥有较强的泛化能力
RWKV-6 7B (2.5T) 预计在 5 月中旬升级完成,将在完成升级的第一时间与大家分享新模型。
RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理,时间复杂度为线性复杂度,在长序列推理场景下具有优于 Transformer 的性能潜力。相对 Transformer 架构,RWKV 架构的推理成本降低 2~10 倍,训练成本降低 2~3 倍。
始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”),有意加盟的朋友也可以把简历投递到。
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验银河官方官网室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到,也可以扫码添加wisemodel微信。
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,可以申请加入wisemodel社群,持续关注社区动态。
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。