大型語言模型

人工智能模型型式
上級分類	語言模型
用途	對話型AI
話題方面	人工智能
簡稱	LLM
詳情描述網址	https://www.youtube.com/watch?v=WqYBx2gB6vA
使用	AI提示、變換器
EntitySchema for this class	Entity schema not supported yet (E434)
相對概念	小型語言模型

大語言模型（英語：large language model，LLM）是一種語言模型，由具有許多參數（通常數十億個權重或更多）的人工神經網絡組成，使用自監督學習或半監督學習對大量未標記文本進行訓練^[1]。大語言模型在2018年左右出現，並在各種任務中表現出色^[2]。

儘管這個術語沒有正式的定義，但它通常指的是參數數量在數十億或更多數量級的深度學習模型^[3]。大語言模型是通用模型，在廣泛的任務中表現出色，而不是針對一項特定任務（例如情感分析、命名實體識別或數學推理）進行訓練^[2]。

儘管大語言模型僅在預測句子中的下一個單詞等簡單任務上接受過訓練，但發現具有足夠訓練和參數計數的神經語言模型可以捕獲人類語言的大部分句法和語義。此外大語言模型還展示了相當多的關於世界的常識，並且能夠在訓練期間「記住」大量事實^[2]。

雖然 ChatGPT 等大語言模型在生成類人文本方面表現出了卓越的能力，但它們很容易繼承和放大訓練數據中存在的偏差。這可能表現為對不同人口統計數據的歪曲表述或不公平待遇，例如基於種族^[4]、性別^[5]、語言^[6]和文化群體^[6]的不同觀點與態度。

訓練架構

指令調優

指令調優（Instruction Tuning）是一種微調技術，通過在包含（指令，輸出）對的數據集上以監督學習方式進一步訓練大型語言模型，使其更好地理解和執行人類指令。這種方法彌合了大型語言模型的下一個詞預測目標與用戶希望模型遵循人類指令之間的差距^[7]。

基於人類反饋的強化學習

近端策略優化等基於人類反饋的強化學習算法被廣泛用於進一步微調一個大語言模型^[8]。

偏差和局限性

大語言模型偏差和局限性是自然語言處理（NLP）領域正在進行的研究。雖然大語言模型在生成類人文本方面表現出了卓越的能力，但他們很容易繼承和放大訓練數據中存在的偏見。這可能表現為對不同人口統計數據的不公平待遇，例如基於種族、性別、語言和文化群體的統計數據。此外，這些模型通常面臨事實準確性的限制。研究和緩解這些偏見和限制對於人工智能在不同社會和專業領域的道德發展和應用至關重要。

幻覺

幻覺指的是大語言模型輸出與客觀事實不符的內容，其可能由模型本身或用戶引導產生。^[9]

語言偏差

語言偏差是指與語言相關的一種統計抽樣偏差，也就是說在信息抽樣中，查詢語言導致的系統偏差會使其無法準確呈現數據中的各種不同主題和觀點。當前的大型語言模型主要是根據英語數據進行訓練的，因此通常將英語觀點視為真實可靠的觀點，而系統地將非英語觀點視為不相關、錯誤或噪音。當被問到諸如「什麼是自由主義？」之類的政治意識形態的問題時，ChatGPT以英美角度為中心，而對例如說越南的「反對國家干預個人和經濟生活」與中國的「限制政府權力」等視而不見。同樣，回覆中也沒有日本、韓國、法國和德國語料庫中的主流政治觀點。^[6]

性別偏差

性別偏差是指這些模型產生的結果傾向於對一種性別產生不公平的偏見。這種偏差通常源於訓練這些模型的數據。例如，大型語言模型通常根據傳統的性別規範來分配角色和特徵；它可能會將護士或秘書主要與女性聯繫起來，將工程師或首席執行官與男性聯繫起來。^[4]^[10]

政治偏差

政治偏差是指算法系統地傾向於某些政治觀點、意識形態或結果，也可能表現出政治偏見。由於訓練數據包含廣泛的政治觀點和覆蓋範圍，因此模型可能會生成傾向於特定政治意識形態或觀點的響應，具體取決於數據中這些觀點的普遍程度。^[11]

文化偏差

文化偏見是指大語言模型對特定的文化實踐、信仰或傳統持有偏見，由於受到訓練數據中文化信息的不均衡、誤導性或歧視性影響。例如，若模型的訓練數據中某種文化的觀點被過度代表，模型就繼承這種偏差形成一定的偏見。^[12]

地域偏差

地域偏差是指大語言模型根據地理位置或國籍對人們的行為、習慣或特徵做出偏見性的假設。這種偏差可能導致對特定地區的知識、成就、問題、潛力等方面的誤解、低估或過度放大。^[13]

年齡偏差

年齡偏差是指大語言模型在處理或生成與年齡相關的話題時，根據年齡做出刻板印象化的假設，例如認為年長者不懂技術或年輕人缺乏責任感。^[14]

職業偏差

職業偏差是指大語言模型對特定職業持有刻板印象，將某些職業視為比其他職業更有價值或重要，或對特定職業的人群做出性格或能力上的假設。^[15]

大型語言模型列表

GPT（OpenAI）
GPT-3（OpenAI）
GPT-4（OpenAI）
LaMDA（谷歌）
PaLM（谷歌）（英語：PaLM）
Gemini（谷歌）
Claude（Anthropic）
LLaMA（Meta）
Titan（亞馬遜）
Mistral（Mistral AI）
BLOOM（Hugging Face）
文心一言（百度）
通義千問（阿里雲）
混元（騰訊）
盤古（華為）
星火（科大訊飛）
商量 SenseChat（商湯科技）
百川（百川智能）
豆包（抖音）
GLM（清華智譜）

參見

外部連接

Open LLM Leaderboard（開放LLM排行榜旨在跟蹤、排名和評估開放LLM和聊天機器人）（頁面存檔備份，存於網際網路檔案館）
最全大語言模型--偏見測評測評匯集 https://blog.sciencenet.cn/blog-3429562-1426223.html

參考資料

^ Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2023-06-08]. （原始內容存檔於2023-06-18）.
^ ^2.0 ^2.1 ^2.2 Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2023-06-08]. S2CID 248377870. doi:10.1162/daed_a_01905. （原始內容存檔於2023-03-09）.
^ Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium 6. 2021 [2023-06-08]. （原始內容存檔 (PDF)於2023-12-21）.
^ ^4.0 ^4.1 Kotek, Hadas; Dockum, Rikker; Sun, David. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference. CI '23 (New York, NY, USA: Association for Computing Machinery). 2023-11-05. ISBN 979-8-4007-0113-9. doi:10.1145/3582269.3615599.
^ Davidson, Thomas; Bhattacharya, Debasmita; Weber, Ingmar. Roberts, Sarah T.; Tetreault, Joel; Prabhakaran, Vinodkumar; Waseem, Zeerak , 編. Racial Bias in Hate Speech and Abusive Language Detection Datasets. Proceedings of the Third Workshop on Abusive Language Online (Florence, Italy: Association for Computational Linguistics). 2019-08. doi:10.18653/v1/W19-3504.
^ ^6.0 ^6.1 ^6.2 Queenie Luo; Michael J. Puett; Michael D. Smith. A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube. arXiv. （原始內容存檔於2024-04-16）.
^ What is instruction tuning?. IBM. [2024-12-09].
^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan. Training language models to follow instructions with human feedback. 2022. arXiv:2203.02155  [cs.CL].
^ Lei Huang; Weijiang Yu; Weitao Ma. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv. （原始內容存檔於2024-11-28）.
^ Yucong Duan; Fuliang Tang; Zhendong Guo; Yingtian Mei; Yuxing Wang; Kunguang Wu; Zeyu Yang; Shuaishuai Huang; Shiming Gong. Global Large Language Model EQ and IQ Bias Evaluation -Released by DIKWP -AC Research Group. ResearchGate. 2023. doi:10.13140/RG.2.2.12894.61762 –透過ResearchGate （英語）.
^ Zhou, Karen; Tan, Chenhao. Bouamor, Houda; Pino, Juan; Bali, Kalika , 編. Entity-Based Evaluation of Political Bias in Automatic Summarization. Findings of the Association for Computational Linguistics: EMNLP 2023 (Singapore: Association for Computational Linguistics). 2023-12 [2023-12-26]. doi:10.18653/v1/2023.findings-emnlp.696. （原始內容存檔於2024-04-24）.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Cultural Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26652.67200 –透過ResearchGate.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Regional Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.10019.63529 –透過ResearchGate.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Age Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26397.12006 –透過ResearchGate.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Occupational Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.23041.67689 –透過ResearchGate.

[1] Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2023-06-08]. （原始內容存檔於2023-06-18）.

[Manning-2022-2] 2.0 ^2.1 ^2.2 Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2023-06-08]. S2CID 248377870. doi:10.1162/daed_a_01905. （原始內容存檔於2023-03-09）.

[extracting-3] Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium 6. 2021 [2023-06-08]. （原始內容存檔 (PDF)於2023-12-21）.

[:1-4] 4.0 ^4.1 Kotek, Hadas; Dockum, Rikker; Sun, David. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference. CI '23 (New York, NY, USA: Association for Computing Machinery). 2023-11-05. ISBN 979-8-4007-0113-9. doi:10.1145/3582269.3615599.

[5] Davidson, Thomas; Bhattacharya, Debasmita; Weber, Ingmar. Roberts, Sarah T.; Tetreault, Joel; Prabhakaran, Vinodkumar; Waseem, Zeerak , 編. Racial Bias in Hate Speech and Abusive Language Detection Datasets. Proceedings of the Third Workshop on Abusive Language Online (Florence, Italy: Association for Computational Linguistics). 2019-08. doi:10.18653/v1/W19-3504.

[:0-6] 6.0 ^6.1 ^6.2 Queenie Luo; Michael J. Puett; Michael D. Smith. A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube. arXiv. （原始內容存檔於2024-04-16）.

[7] What is instruction tuning?. IBM. [2024-12-09].

[instructGPT-paper-8] Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan. Training language models to follow instructions with human feedback. 2022. arXiv:2203.02155  [cs.CL].

[9] Lei Huang; Weijiang Yu; Weitao Ma. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv. （原始內容存檔於2024-11-28）.

[10] Yucong Duan; Fuliang Tang; Zhendong Guo; Yingtian Mei; Yuxing Wang; Kunguang Wu; Zeyu Yang; Shuaishuai Huang; Shiming Gong. Global Large Language Model EQ and IQ Bias Evaluation -Released by DIKWP -AC Research Group. ResearchGate. 2023. doi:10.13140/RG.2.2.12894.61762 –透過ResearchGate （英語）.

[11] Zhou, Karen; Tan, Chenhao. Bouamor, Houda; Pino, Juan; Bali, Kalika , 編. Entity-Based Evaluation of Political Bias in Automatic Summarization. Findings of the Association for Computational Linguistics: EMNLP 2023 (Singapore: Association for Computational Linguistics). 2023-12 [2023-12-26]. doi:10.18653/v1/2023.findings-emnlp.696. （原始內容存檔於2024-04-24）.

[12] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Cultural Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26652.67200 –透過ResearchGate.

[13] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Regional Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.10019.63529 –透過ResearchGate.

[14] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Age Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26397.12006 –透過ResearchGate.

[15] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Occupational Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.23041.67689 –透過ResearchGate.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

閱論編機器學習同數據挖掘主題
基本概念	學習 · 圖靈測試 · 運算學習論
數學模型	迴歸模型 · 人工神經網絡（深度學習） · 生成對抗網絡 · Transformer模型 · 大語言模型 · 決策樹 · 貝氏網路 · 支持向量機 · 關聯規則學習
學習範式	機器學習 · 深度學習 · 遷移學習 · 微調 (深度學習) · 監督學習 · 半監督學習 · 無監督學習 · 強化學習 · Q學習 · 遺傳演算法
主要應用	統計分類 · 表徵學習 · 降維 · 聚類分析 · 異常檢測
相關領域	計算科學 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 統計學 · 數據科學 · 計算機科學 · 信息與計算科學 · 神經科學 · 認知科學

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智慧（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分布（英語：Pachinko allocation）隱含狄利克雷分布潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機器人文字冒險遊戲問答系統

閱論編深度學習軟件（英語：Comparison of deep learning software）
開源軟件	Apache Singa（英語：Apache Singa） Blocks（英語：Blocks） Caffe Deeplearning4j Dlib（英語：Dlib） Microsoft Cognitive Toolkit MXNet OpenNN ONNX Runtime PyTorch scikit-learn LangChain Gradio RETURNN（英語：RETURNN） TensorFlow Keras Theano Torch（英語：Torch (machine learning)）
專有	蘋果公司 Core ML IBM 沃森 Neural Designer（英語：Neural Designer） Wolfram Mathematica MATLAB Deep Learning Toolbox
分類比較