ChatGPT等生成式AI蔚為風潮,尤其中國百度發展「文心一言」聊天機器人,可能符合對岸論述,因此打造可信任的臺版AI模型格外重要。國科會主委吳政忠14日表示,國家推動的AI模型必須讓人信任,會極力減少造成偏見,臺灣是民主自由國家的好夥伴,此次已投入經費約新臺幣2億元,預計下半年將釋出更大模型。
國科會14日舉辦「TAIDE計畫第一階段成果說明記者會」,展示可信任人工智慧對話引擎(TAIDE)7B模型,將以臺灣文化為基底,融入在地語言、價值觀、風俗習慣等元素,初步能執行自動摘要、翻譯文本、寫信及寫文章等四項應用。
隨著英文、簡體中文版聊天機器人陸續問世,國科會主委吳政忠指出,由於AI有堅實的軟硬體需求,臺灣可以結合半導體製造優勢,與全球競逐、打國際盃,TAIDE主要以正體中文為主,計畫經費約新臺幣2億元至3億元。
吳政忠說,下一階段,預計年底可展示具備「阻絕產生不適當回應」能力的13B大模型,並釋出給合作夥伴開發。他說,TAIDE也希望提供一個可以讓政府、業者,繼續發展其專屬的內部應用系統或加值服務,百花齊放。
TAIDE計畫學界顧問、陽明交大應數系教授李育杰指出,臺版生成式對話引擎的7B初代模型,意即參數量為70億,在LLaMA(Meta推出的語言模型)原型基礎上,由國內學界專家進一步發展及訓練調校。
李育杰認為,利用網路爬蟲技術找出的現代用語並不合適,優質語料庫及資料授權使用也是一大問題,國家隊希望後續能產出多項SOP成為典範;儘管目前ChatGPT為175B,所使用的資料、複雜程度更高,但一般13B就已夠用,參數量過大反而有負擔。
「生成式AI的挑戰聚焦在人才培育、AI算力、資料品質」,李育杰提醒,未來對話引擎如應用在金融、司法單位就要更小心,政府單位與業者不能完全倚賴AI模型的直接產出,一定要有專業人士進行把關。另預計今年10月過後,國網中心增設H100 GPU會有更好算力,屆時將為經費使用高峰。
TAIDE計畫分為四個階段,第一階段是包含自動摘要、翻譯文本、寫信及寫文章等四大功能,為中模型;第二階段則要處理認識臺灣、臺灣考試、事實查核等任務,為大模型;第三階段要阻絕不是當回應,例如要能保護個資、符合臺灣現行法規論述;第四階段要能展示多輪問答,讓前三階段應用更完善。