TAIDE

TAIDE
開發者	中華民國國家科學及技術委員會
首次发布	2023年6月14日，19個月前
当前版本	2024年4月29日，8個月前
引擎	LLaMA、Llama 3
语言	繁體中文、台灣台語、客語等3种语言
类型	聊天機器人
网站	https://taide.tw

可信任人工智慧對話引擎（英語：Trustworthy AI Dialog Engine，简称TAIDE^[1]），是由中華民國國科會主導的生成式AI計畫，於2023年6月14日首次推出模型。^[2]

概要

TAIDE模型的訓練素材具有臺灣本土特色，涵蓋了政府與民間多元領域的資料。這些素材包括大量通用文本，如中央社、光華雜誌、公共電視、各部會公開資料、法規資料庫及國家文化記憶庫等，以及字辭典資料，如臺灣語料庫和各領域常用字辭典，還有來自民間出版社提供的文本。在算力方面，先期已建置9臺共72片最新的NVIDIA H100晶片運算資源，並整合國家高速網路與計算中心的超級電腦「臺灣杉二號」。^[3]此外，TAIDE團隊還與產學研夥伴合作，將TAIDE模型應用於農業知識檢索系統「神農TAIDE」及中小學生台語教學等七個領域，推動多元應用發展。^[4]

背景

自ChatGPT於2022年底問世後，中國百度宣布推出中文版聊天機器人文心一言，引發了台灣對開發自身繁體中文大語言模型的廣泛討論。萬幼筠指出，AI聊天機器人的一大特徵是其「文化侵略性質極強」，而李育杰則表示：「以台灣目前的民主化程度來看，抖音尚且無法被禁止，更何況是文心一言。如果台灣的年輕人如同使用抖音般廣泛使用文心一言，這將會帶來嚴重問題。」

為了減緩中國科技業日益增長的影響力並在台灣新興的人工智慧生態系統中穩固地位，中華民國政府計劃至2026年編列約新臺幣174億元（約5.56億美元）用於發展相關專業知識和技術。此外，中華民國政府還投入約新臺幣2億元（約740萬美元）開發TAIDE，這是一種語言模型，旨在協助企業、銀行、醫院及政府部門執行如撰寫電子郵件和會議摘要等工作任務，並期望藉此工具減少中國的政治影響。在這樣的危機感驅使下，李育杰迅速提出開發台灣LLM的研究計劃。國科會主委吳政忠於2023年1月底接獲該計劃後，立即從科技會報跨部會署科發基金中撥出超過兩億元的預算，目標是在2024年3月前完成繁體中文對話引擎TAIDE的開發，並建立人工智慧評測中心。李育杰表示：「我們或許無法立即與大型引擎抗衡，但擁有自己的對話引擎，至少能讓大家有選擇的空間。」^[5]^[6]

歷史

為了保護台灣的文化並加強自主技術的發展，台灣政府自2023年4月27日起推動「可信任生成式AI對話引擎」（Trustworthy AI Dialogue Engine, TAIDE），旨在促進台灣生成式AI的應用與產業發展，並提升其國際競爭力。^[3]^[4]

2023年12月，隸屬於數位發展部的台灣人工智慧評測中心正式成立並掛牌運作，TAIDE成為首個接受檢測的大型語言模型（LLM）。^[5]

2024年4月15日，國科會推動的可信任生成式AI發展先期計畫（簡稱TAIDE）團隊宣布釋出商用版TAIDE LX-7B模型及學研版TAIDE LX-13B模型。這兩款模型基於Meta的開源模型LLaMA 2，經由繁體中文及在地文本的蒐集與訓練開發而成。TAIDE LX-7B和LX-13B在文章撰寫、信件撰寫、摘要生成、英中翻譯及中英翻譯等方面表現卓越，並具備多輪對話能力及阻斷不恰當回應的功能。此次模型的推出旨在協助台灣政府推動生成式AI技術的發展，提供更多元與多樣化的服務，並支持各領域快速導入生成式AI技術。^[7]^[3]

2024年4月29日，TAIDE開發團隊發佈了以Meta Llama 3為基礎訓練的「升級版」Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，這是一款具台灣文化的大型繁體中文模型，並已完成基本測試。國科會主委吳政忠對於TAIDE團隊在僅4天內完成模型訓練並迅速推出可商用版本表示高度肯定。此舉旨在因應Meta最新釋出的Llama 3，以迅速回應外界的期待。^[8]^[3]

參考資料

^ ^1.0 ^1.1 國科會台版AI對話引擎初代模型主打可信賴4功能. 中央社. 2023-06-14 [2024-05-03]. （原始内容存档于2024-05-03）.
^ 發展AI對話引擎國科會擬推基礎模型供加值應用. 中央社. 2023-03-30 [2024-05-03]. （原始内容存档于2024-05-03）.
^ ^3.0 ^3.1 ^3.2 ^3.3 完善臺灣AI基礎建設—打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2024-06-21 [2024-08-28] （中文（臺灣））.
^ ^4.0 ^4.1 完善臺灣AI基礎建設打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2014-05-23 [2024-08-28] （中文（臺灣））.
^ ^5.0 ^5.1 洪家寧. 「防止中國AI文化侵略」台灣第一個繁體中文大語言模型TAIDE，能做什麼？. 天下雜誌（中文）.
^ 臺灣建立自己的人工智慧語言模型以對抗中國的影響. taide.tw. 2024-01-25 （中文）.
^ TAIDE-LX-7B模型正式發佈：探索更本土化的大型語言模型. https://taide.tw/. 2024-4-15 （中文）. 请检查|date=中的日期值 (帮助)
^ TAIDE團隊釋出Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，具臺灣文化的大型語言模型再升級. https://taide.tw/. 2024-4-29 （中文）. 请检查|date=中的日期值 (帮助)

參見

外部連結

[國-1] 1.0 ^1.1 國科會台版AI對話引擎初代模型主打可信賴4功能. 中央社. 2023-06-14 [2024-05-03]. （原始内容存档于2024-05-03）.

[2] 發展AI對話引擎國科會擬推基礎模型供加值應用. 中央社. 2023-03-30 [2024-05-03]. （原始内容存档于2024-05-03）.

[:0-3] 3.0 ^3.1 ^3.2 ^3.3 完善臺灣AI基礎建設—打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2024-06-21 [2024-08-28] （中文（臺灣））.

[:2-4] 4.0 ^4.1 完善臺灣AI基礎建設打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2014-05-23 [2024-08-28] （中文（臺灣））.

[:1-5] 5.0 ^5.1 洪家寧. 「防止中國AI文化侵略」台灣第一個繁體中文大語言模型TAIDE，能做什麼？. 天下雜誌（中文）.

[6] 臺灣建立自己的人工智慧語言模型以對抗中國的影響. taide.tw. 2024-01-25 （中文）.

[7] TAIDE-LX-7B模型正式發佈：探索更本土化的大型語言模型. https://taide.tw/. 2024-4-15 （中文）. 请检查|date=中的日期值 (帮助)

[8] TAIDE團隊釋出Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，具臺灣文化的大型語言模型再升級. https://taide.tw/. 2024-4-29 （中文）. 请检查|date=中的日期值 (帮助)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

查论编机器学习同数据挖掘主題
基本概念	学习 · 图灵测试 · 運算學習論
數學模型	迴歸模型 · 人工神经网络（深度学习） · 生成对抗网络 · Transformer模型 · 大语言模型 · 決策樹 · 貝氏網路 · 支持向量机 · 关联规则学习
學習範式	机器学习 · 深度学习 · 迁移学习 · 微调 (深度学习) · 监督学习 · 半监督学习 · 無監督學習 · 强化学习 · Q学习 · 遺傳演算法
主要應用	统计分类 · 表征学习 · 降维 · 聚类分析 · 异常检测
相關領域	计算科學 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 统计学 · 數據科學 · 计算机科学 · 信息与计算科学 · 神经科学 · 认知科学

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統