自然语言生成

自然語言生成（NLG）是自然語言處理的一部分，從知識庫或邏輯形式（英语：Logic Form (Linguistics)）等等機器表述系統去生成自然語言。這種形式表述當作心理表述的模型時，心理語言學家會選用語言產出（英语：language production）這個術語。

自然語言生成系統可以說是一種將資料轉換成自然語言表述的翻譯器。不過產生最終語言的方法不同於編譯程式，因為自然語言多樣的表達。NLG出現已久，但是商業NLG技術直到最近才變得普及。

自然語言生成可以視為自然語言理解的反向：自然語言理解系統須要釐清輸入句的意涵，從而產生機器表述語言；自然語言生成系統須要決定如何把概念轉化成語言。

一個簡單的例子是套用信函的生成系統。這種系統通常沒有運用文法的知識，但是可以生成信函給消費者，例如告訴消費者信用卡的額度已達。換言之，簡單的系統運用版型，跟Word文件的郵件合併程式沒什麼差別，但是更複雜的NLG系統會靈活地產生文本。

正如自然語言處理的其它領域，自然語言生成可以使用明確的語言模型（例如文法）或者運用根據真人所寫的文本分析而成的統計模型^[1]。

示例

「蘇格蘭花粉預報系統」^[2]就是一個基於版型的簡單自然語言生成系統。該系統利用蘇格蘭幾個區域花粉預報的六個輸入數目，生成簡短的花粉等級文本作為輸出。

例如使用2005年7月1日的歷史資料，該軟體的輸出：

星期五花粉等級已從昨天的中級到今天的高級，全國大部分地區的數值在6到7。不過北部是中級，數值為4。

對比實際的預報（氣象員手擬）如下：

蘇格蘭大部分地區花粉量還是很高，為6級，東南部更是7級。只有北方島嶼及蘇格蘭東北角情況舒緩，花粉量中等。

步驟

生成文本的過程可以簡單到取用已準備好的章句，再用連結的文字組合起來。在簡單的領域如占星機器或個人化商業信件，成果可能令人滿意。不過複雜的自然語言生成系統必須經過規劃以及合併資訊的步驟，從而生成看似自然並且避免重複的文本。自然語言生成典型的步驟，例如戴爾與瑞特^[3]所提出的如下：

決定內容（英语：Content determination）：決定在文本裡置入哪些資訊。用上一節花粉預報軟體為例，是否要明確提到東南部花粉級數為7。

架構文件（英语：Document structuring）：所傳達資訊的整體組織。例如決定先描述高花粉量地區，再提及低花粉量地區。

聚集語句（英语：Aggregation (linguistics)）：合併類似的句子，讓文本更可讀、更自然。例如合併下兩個句子「星期五花粉等級已從昨天的中級到今天的高級」和「全國大部分地區的花粉等級在6到7」成為「星期五花粉等級已從昨天的中級到今天的高級，全國大部分地區的數值在6到7。」

選擇字詞（英语：Lexical choice）：選用表達概念的文字。例如決定要用「中等」還是「中級」。

指涉語生成（英语：Referring expression generation）：產生能辨認物體或地區的指涉語（英语：referring expression (RE)）。例如用「北方島嶼和蘇格蘭東北角」指涉蘇格蘭的某個地區。這個任務也包括決定代名詞以及其它的照應語（英语：Anaphora (linguistics)）。

實現文本（英语：realization (linguistics)）：根據句法學、構詞學、正寫法的規則產生實際的文本。

應用

大眾媒體向來以報導會說笑話的NLG系統為重點（參見「計算幽默（英语：computational humor）」），不過從商業的角度，最成功的NLG應用是從資料庫或資料集產生文字摘要的「資料轉文本」系統，這些系統通常除了文字生成外，也進行資料分析，特別是幾個已經建成的從氣象資料產生氣象報告文的系統。此類系統最早是加拿大的FoG^[4]，於1990年代開始製作英、法語的氣象報告，其成功引領了其它研究和商業系統。近年的一個研究顯示，使用者有時候偏好電腦產生的氣象報告，因為使用的術語比較一致^[5]。另一個研究顯示統計的技巧可以用來生成高品質的氣象報告^[6]。

1990年代自然語言生成開始用於財金和商業摘要。例如AC尼爾森研發的SPOTLIGHT系統，分析大量零售資料然後自動產生可讀的英文^[7]。

更近的NLG也用於摘要電子醫療記錄，已有商業應用問世^[8]，研究人員已顯示NLG摘要的醫療資料可以有效輔助醫療專業人員做決定^[9]。

內容生成系統可以輔助真人作者，讓寫作過程更有效率。例如利用搜索引擎應用界面，基於網路探勘（英语：web mining）建立的內容生成工具^[10]，模擬作者根據各種搜尋結果形成內容，有如剪貼的寫作場景。相關度的驗證，對於過濾不相關的搜尋結果至為重要，方法基於匹配問題與可能答案的語法樹^[11]。另一種方法利用真人寫的文本建立高層次結構的版型，然後自動寫成維基百科新的條目^[12]。

評量

自然語言生成的研究人員需要測試他們的系統、模組、演算法，一如其它的科學領域。這叫做「評量」。評量NLG系統的基本技巧有三種：

「任務型（外部）評量」：把生成的文本給一個人，評估其幫助此人完成任務的效用。例如評量醫療資料摘要系統，可以評估醫生使用摘要後，是否能做出更佳的決定。
「人為評價」：把文本給人，讓他們自行評估其品質與效用。
「測量指標」：根據同樣的輸入資料，比較生成的文本與真人寫成的文本，使用例如BLEU（英语：BLEU）之類的自動測量指標。

「任務型評量」雖然較接近NLG系統助人的終極目標，但是費時耗財，而且可能實行困難（尤其涉及醫生之類的專家對象），因此（一如自然語言處理的其它領域）「任務型評量」是例外而非主流。

參考文獻

^ Perera R, Nand P. Recent Advances in Natural Language Generation: A Survey and Classification of the Empirical Literature. Computing and Informatics. 2017, 36 (1): 1–32 [2017-12-04]. （原始内容存档于2021-02-25）.
^ R Turner, S Sripada, E Reiter, I Davy (2006). Generating Spatio-Temporal Descriptions in Pollen Forecasts. （页面存档备份，存于互联网档案馆） Proceedings of EACL06
^ Dale, Robert; Reiter, Ehud. Building natural language generation systems. Cambridge, U.K.: Cambridge University Press. 2000. ISBN 0-521-02451-X.
^ Goldberg E, Driedger N, Kittredge R. Using Natural-Language Processing to Produce Weather Forecasts. IEEE Expert. 1994, 9 (2): 45–53. doi:10.1109/64.294135.
^ Reiter E, Sripada S, Hunter J, Yu J, Davy I. Choosing Words in Computer-Generated Weather Forecasts. Artificial Intelligence. 2005, 167: 137–69. doi:10.1016/j.artint.2005.06.006.
^ Belz A. Automatic Generation of Weather Forecast Texts Using Comprehensive Probabilistic Generation-Space Models. Natural Language Engineering. 2008, 14: 431–55. doi:10.1017/s1351324907004664.
^ Anand, Tej; Kahn, Gary. Making Sense of Gigabytes: A System for Knowledge-Based Market Analysis (PDF). Klahr, Philip; Scott, A. F. (编). Innovative applications of artificial intelligence 4: proceedings of the IAAI-92 Conference. Menlo Park, Calif: AAAI Press. 1992: 57–70 [2017-12-10]. ISBN 0-262-69155-8. （原始内容 (PDF)存档于2016-08-01）.
^ Harris MD. Building a Large-Scale Commercial NLG System for an EMR (PDF). Proceedings of the Fifth International Natural Language Generation Conference: 157–60. 2008 [2017-12-10]. （原始内容 (PDF)存档于2019-11-05）.
^ Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C. Automatic Generation of Textual Summaries from Neonatal Intensive Care Data. Artificial Intelligence. 2009, 173 (7–8): 789–816. doi:10.1016/j.artint.2008.12.002.
^ Galitsky, Boris. A Web Mining Tool for Assistance with Creative Writing. Advances in Information Retrieval. Lecture Notes in Computer Science. 2013, 7814: 828–831 [2017-12-10]. doi:10.1007/978-3-642-36973-5_95. （原始内容存档于2019-12-02）.
^ Galitsky B, de la Rosa JL, Dobrocsi G. Inferring the semantic properties of sentences by mining syntactic parse trees. Data & Knowledge Engineering. 2012, 81–82: 21–45. doi:10.1016/j.datak.2012.07.003.
^ Sauper, Christina & Barzilay, Regina. Automatically Generating Wikipedia Articles: A Structure-Aware Approach. Proceedings of ACL. 2009.

Yuko Sakai (2017). Sentence Generation: Syntax Tree Diagram in English, Spanish, Chinese, Japanese, Ainu. ISBN 978-1545429006

其它文獻

Dale, Robert; Reiter, Ehud. Building natural language generation systems. Cambridge, UK: Cambridge University Press. 2000. ISBN 0-521-02451-X.
Evans, Roger; Piwek, Paul; Cahill, Lynne. What is NLG?. New York, US. 2002. |conference=被忽略 (帮助)

參見

外部連結

SIGGEN part of ACL Anthology (NLG研究論文)
ACL NLG Portal （页面存档备份，存于互联网档案馆） (NLG資源列表)
Bateman and Zock「幾乎完整」的NLG系統列表（页面存档备份，存于互联网档案馆）
Ehud Reiter NLG 部落格（页面存档备份，存于互联网档案馆）
Introduction （页面存档备份，存于互联网档案馆） An open-ended review of the state of the art including many references (Last update: September 2002)
SimpleNLG （页面存档备份，存于互联网档案馆） — Open source Java library to assist in NLG

[1] Perera R, Nand P. Recent Advances in Natural Language Generation: A Survey and Classification of the Empirical Literature. Computing and Informatics. 2017, 36 (1): 1–32 [2017-12-04]. （原始内容存档于2021-02-25）.

[2] R Turner, S Sripada, E Reiter, I Davy (2006). Generating Spatio-Temporal Descriptions in Pollen Forecasts. （页面存档备份，存于互联网档案馆） Proceedings of EACL06

[3] Dale, Robert; Reiter, Ehud. Building natural language generation systems. Cambridge, U.K.: Cambridge University Press. 2000. ISBN 0-521-02451-X.

[4] Goldberg E, Driedger N, Kittredge R. Using Natural-Language Processing to Produce Weather Forecasts. IEEE Expert. 1994, 9 (2): 45–53. doi:10.1109/64.294135.

[5] Reiter E, Sripada S, Hunter J, Yu J, Davy I. Choosing Words in Computer-Generated Weather Forecasts. Artificial Intelligence. 2005, 167: 137–69. doi:10.1016/j.artint.2005.06.006.

[6] Belz A. Automatic Generation of Weather Forecast Texts Using Comprehensive Probabilistic Generation-Space Models. Natural Language Engineering. 2008, 14: 431–55. doi:10.1017/s1351324907004664.

[7] Anand, Tej; Kahn, Gary. Making Sense of Gigabytes: A System for Knowledge-Based Market Analysis (PDF). Klahr, Philip; Scott, A. F. (编). Innovative applications of artificial intelligence 4: proceedings of the IAAI-92 Conference. Menlo Park, Calif: AAAI Press. 1992: 57–70 [2017-12-10]. ISBN 0-262-69155-8. （原始内容 (PDF)存档于2016-08-01）.

[8] Harris MD. Building a Large-Scale Commercial NLG System for an EMR (PDF). Proceedings of the Fifth International Natural Language Generation Conference: 157–60. 2008 [2017-12-10]. （原始内容 (PDF)存档于2019-11-05）.

[portet-9] Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C. Automatic Generation of Textual Summaries from Neonatal Intensive Care Data. Artificial Intelligence. 2009, 173 (7–8): 789–816. doi:10.1016/j.artint.2008.12.002.

[10] Galitsky, Boris. A Web Mining Tool for Assistance with Creative Writing. Advances in Information Retrieval. Lecture Notes in Computer Science. 2013, 7814: 828–831 [2017-12-10]. doi:10.1007/978-3-642-36973-5_95. （原始内容存档于2019-12-02）.

[11] Galitsky B, de la Rosa JL, Dobrocsi G. Inferring the semantic properties of sentences by mining syntactic parse trees. Data & Knowledge Engineering. 2012, 81–82: 21–45. doi:10.1016/j.datak.2012.07.003.

[12] Sauper, Christina & Barzilay, Regina. Automatically Generating Wikipedia Articles: A Structure-Aware Approach. Proceedings of ACL. 2009.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統