网站首页 > 资讯 > google deepmind 模型(Google DeepMind 学者研发Focused Transformer,扩展大模型输出长度限制)

google deepmind 模型(Google DeepMind 学者研发Focused Transformer,扩展大模型输出长度限制)

2023-07-13 15:00:39 发布

品玩7月11日讯,据 Arxiv 页面显示,Google DeepMind 研究团队近日联手华沙大学和波兰科学院等机构,研发一项名为 Focused Transformer 的技术。

Focused Transformer 技术旨在通过对比训练来扩展上下文长度的方法,可以用于大型语言模型。Focused Transformer 技术通过对比训练来增强 (key, value) 空间的结构,从而扩展了上下文长度。这项技术使得已经预训练的大型语言模型可以被重新训练来延长它们的有效上下文。

论文显示,研究团队使用一款名为 LongLLaMA 的大模型进行测试。经过实验,研究团队已经成功使用 LongLLaMA 模型在密码检索任务中实现了256K的上下文长度。

掌上观察网声明:本文内容来自用户上传并发布或网络新闻客户端自媒体,本站点仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系删除。

目前已解决问题

29239

登录
发布