BookCorpus

BookCorpus （也稱Toronto Book Corpus ）是一個數據集，包含網際網路上收集的約 11,000 本未出版書籍的文本。它是用於訓練OpenAI的GPT初始版本的主要語料庫^[1]，並用作包括谷歌的BERT^[2]在內的，其他早期大型語言模型的訓練數據。該數據集包含約 9.85 億單詞，涵蓋了多種類型的書籍，包括浪漫小說、科幻小說和奇幻小說。

多倫多大學和麻省理工學院的研究人員在 2015 年的一篇題為「Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books」的論文中介紹了該語料庫。作者將其描述為「由尚未出版的作者撰寫的免費書籍」^[3]^[4]。該數據集起初託管在多倫多大學的網頁上。原始數據集不再公開，但多倫多大學創建了一個鏡像版本 BookCorpusOpen。雖然在 2015 年的原始論文中沒有記錄這個網站，但現在已知的刪除語料庫書籍的網站是Smashwords 。

參考

^ BookCorpus. Wikipedia. 2023-03-22 [2023-03-25]. （原始內容存檔於2023-03-25）（英語）.
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs]. 2019-05-24 [2023-03-25]. （原始內容存檔於2023-07-09）.
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. 2015 [2023-03-25]. （原始內容存檔於2023-02-05）.
^ Lea, Richard. Google swallows 11,000 novels to improve AI's conversation. The Guardian. 2016-09-28 [2023-03-25]. ISSN 0261-3077. （原始內容存檔於2023-03-25）（英國英語）.

[1] BookCorpus. Wikipedia. 2023-03-22 [2023-03-25]. （原始內容存檔於2023-03-25）（英語）.

[2] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs]. 2019-05-24 [2023-03-25]. （原始內容存檔於2023-07-09）.

[3] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. 2015 [2023-03-25]. （原始內容存檔於2023-02-05）.

[4] Lea, Richard. Google swallows 11,000 novels to improve AI's conversation. The Guardian. 2016-09-28 [2023-03-25]. ISSN 0261-3077. （原始內容存檔於2023-03-25）（英國英語）.

[1]

[2]

[3]

[4]