BLOOM
BigScience 大规模开放科学与多语言开放存取模型(BLOOM)[1][2] 是一个基于Transformer模型的自回归大型语言模型(LLM),具有1760亿个参数。该模型与其代码基础,以及训练所用的数据,均以自由许可证形式发布。[3] BLOOM于2022年3月至7月间,使用约3660亿(1.6TB)个语料进行训练。[4][5]
BLOOM是BigScience合作计划的主要成果,[6]该计划是一个为期一年的研究工作坊,自2021年5月开始,至2022年5月结束。BigScience由HuggingFace领导,并涉及来自法国及其他国家数百名代表学术界和私营部门的研究人员与工程师。BigScience得到了法国公众超级电脑Jean Zay的大规模公众计算资源的支持,该电脑由GENCI和法国国家科学研究中心(IDRIS)管理,并在其上进行训练。
BLOOM的训练语料库名为ROOTS,它结合了来自当时最新版本网络基础OSCAR语料库的数据(占ROOTS的38%),以及从人工挑选和记录的语言数据来源清单中收集的新数据。该语料库涵盖了46种自然语言(语料占比从英语的30%到Chi Tumbuka语的0.00002%不等)以及13种编程语言。[7]
参考资料
- ^ BigScience Large Open-science Open-access Multilingual Language Model. [2022-10-01].
- ^ Le Scao T, Fan A, Akiki C, Pavlick E, Ilić S, Hesslow D, Castagné R, Luccioni A, Yvon F, Gallé M, Tow J, Rush AM, Biderman S, Webson A, Sasanka Ammanamanchi P, Wang T, Sagot B, Muennighoff N, Villanova del Moral A, Ruwase O, Bawden R, Bekman S, McMillan-Major A, Beltagy I, Nguyen H, Saulnier L, Tan S, Ortiz Suarez P, Sanh V, Laurençon H, Jernite Y, Launay J, Mitchell M, Raffel C, et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. 2022. arXiv:2211.05100 [cs.CL].
- ^ The BigScience RAIL license. [2024-01-10].
- ^ Heikkilä, Melissa. BLOOM: Inside the radical new project to democratize AI. MIT Technology Review. 2022-07-12 [2023-12-26].
- ^ Release of largest trained open-science multilingual language model ever. French National Centre for Scientific Research. 2022-07-12 [2023-12-26].
- ^ BigScience. [2024-01-10].
- ^ Laurençon H, Saulnier L, Wang T, Akiki C, Villanova del Moral A, Le Scao T, Von Werra L, Mou C, González Ponferrada C, Nguyen H, Frohberg J, Šaško M, Lhoest Q, McMillan-Major A, Dupont G, Biderman S, Rogers A, Ben allal L, De Toni F, Pistilli G, Nguyen O, Nikpoor S, Masoud M, Colombo P, de la Rosa J, Villegas P, Thrush T, Longpre S, Nagel S, Weber L, Muñoz M, Zhu J, Van Strien D, Alyafeai Z, Almubarak K, Vu MC, Gonzalez-Dios I, Soroa A, Lo K, Dey M, Ortiz Suarez P, Gokaslan A, Bose S, Adelani D, Phan L, Tran H, Yu I, Pai S, Chim J, Lepercq V, Ilic S, Mitchell M, Luccioni S, Jernite Y. The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset. 2022. arXiv:2303.03915 [cs.CL].
这是一篇小作品。您可以通过编辑或修订扩充其内容。 |