亞洲大學精準健康研究中心組長參與繁體中文 AI 開源實踐計畫成果展

  • 2024-10-28
  • 蔡志仁
53740320956_629deeed29_o亞洲大學精準健康研究中心蔡志仁組長參與的「繁體中文 AI 開源實踐計畫」圓滿結束,並於2024年8月3日在台科大的研揚大樓六樓舉行了成果報告。該計畫由 g0v 零時政府揪松團主辦,旨在推動繁體中文 AI 開源技術的發展,並強調台灣本土特色。蔡志仁組長及其團隊在計畫中負責全台醫療院所網頁的衛教資訊整理、改寫成問答形式和數據清洗,為期半年的專案已於9月底結案。  
   
 計畫背景與目標  
   
「繁體中文 AI 開源實踐計畫」是一項旨在推動繁體中文 AI 技術發展的創新專案。該計畫的主要目標是建立一個強調台灣本土特色的大語言模型(LLM),並將其訓練資料公開於 HuggingFace 平台。這不僅有助於提升台灣在 AI 領域的國際競爭力,還能促進本地化 AI 技術的應用與發展。  
   
 亞洲大學精準健康研究中心的貢獻  
   
在這項計畫中,亞洲大學精準健康研究中心負責全台醫療院所(共30233個資料來源)網頁的衛教資訊整理、改寫成問答形式和數據清洗。這些資料將被用來訓練大語言模型,並公開於 HuggingFace 平台。短期目標是清洗資料50,000 筆,並公開於 HuggingFace 的資料集頁面(https://huggingface.co/datasets/aigrant/medical_health)。長期目標則是成為台灣區繁體中文健康與醫療相關資料集的集散中心,並以開放資料的形式呈現。  
   
 計畫成果展示  
   
計畫成果展示於10月舉行,主辦單位建置了計畫成果網頁,並展示了團隊的成果發表影片(https://www.youtube.com/watch?v=-SrpSeygsBE)及 HuggingFace 連結(https://huggingface.co/aigrant)。這些資料庫可以被用來訓練強調台灣本土特色的大語言模型,並且對 AI 開源感興趣的夥伴可以通過這些連結了解更多詳情。  
   
 技術細節與應用  
   
在技術層面,該計畫提供了大語言模型'Meta-Llama-3.1-70B-bnb-4bit' 的微調指南(https://huggingface.co/unsloth/Meta-Llama-3.1-70B-Instruct-bnb-4bit),並使用了 RTX A6000 進行訓練。這些技術細節不僅展示了計畫的技術深度,還為未來的研究和應用提供了寶貴的參考。  
   
 未來展望  
   
該計畫的長期目標是成為台灣區繁體中文健康與醫療相關資料集的集散中心。這將有助於推動台灣在 AI 技術領域的發展,並促進本地化 AI 技術的應用。主辦單位已在2024年9月29日於臺北矽谷國際會議中心舉行的黑客松活動中推廣「繁體中文 AI 開源實踐計畫」的成果,並規劃未來進行開源成果宣傳、採訪等活動。  
   
 結語  
   
「繁體中文 AI 開源實踐計畫」的成功,不僅展示了台灣在 AI 技術領域的實力,還為未來的研究和應用提供了寶貴的資料和經驗。亞洲大學精準健康研究中心蔡志仁組長及其團隊的貢獻,為計畫的成功奠定了堅實的基礎。未來,隨著更多開源成果的推出,台灣在 AI 技術領域的影響力將不斷提升,並為全球 AI 技術的發展做出更大的貢獻。  
   
這次計畫的成功,無疑是台灣 AI 技術發展的一大步,期待未來有更多類似的計畫,推動台灣在國際 AI 技術領域的地位。