Flop - 搜索 News

11 天

预训练语言模型通常在其参数中编码大量信息，并且随着规模的增加，它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说，参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。

此外，该研究首次提出了对字节级模型进行 flop 控制的扩展研究，参数规模高达 8B，训练字节高达 4T，从而展示了在没有固定词汇表 tokenization 的 ...

BLT 在许多基准测试中超越了基于 token 的架构。最近几天，来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens ...

一些您可能无法访问的结果已被隐去。

今日热点