亚洲大学精准健康研究中心蔡志仁组长参与的「繁体中文 AI 开源实践计画」圆满结束,并于2024年8月3日在台科大的研扬大楼六楼举行了成果报告。该计画由 g0v 零时政府揪松团主办,旨在推动繁体中文 AI 开源技术的发展,并强调台湾本土特色。蔡志仁组长及其团队在计画中负责全台医疗院所网页的卫教资讯整理、改写成问答形式和数据清洗,为期半年的专案已于9月底结案。
计画背景与目标
「繁体中文 AI 开源实践计画」是一项旨在推动繁体中文 AI 技术发展的创新专案。该计画的主要目标是建立一个强调台湾本土特色的大语言模型(LLM),并将其训练资料公开于 HuggingFace 平台。这不仅有助于提升台湾在 AI 领域的国际竞争力,还能促进本地化 AI 技术的应用与发展。
亚洲大学精准健康研究中心的贡献
在这项计画中,亚洲大学精准健康研究中心负责全台医疗院所(共30233个资料来源)网页的卫教资讯整理、改写成问答形式和数据清洗。这些资料将被用来训练大语言模型,并公开于 HuggingFace 平台。短期目标是清洗资料50,000 笔,并公开于 HuggingFace 的资料集页面(https://huggingface.co/datasets/aigrant/medical_health)。长期目标则是成为台湾区繁体中文健康与医疗相关资料集的集散中心,并以开放资料的形式呈现。
计画成果展示
计画成果展示于10月举行,主办单位建置了计画成果网页,并展示了团队的成果发表影片(https://www.youtube.com/watch?v=-SrpSeygsBE)及 HuggingFace 连结(https://huggingface.co/aigrant)。这些数据库可以被用来训练强调台湾本土特色的大语言模型,并且对 AI 开源感兴趣的夥伴可以通过这些连结了解更多详情。
技术细节与应用
在技术层面,该计画提供了大语言模型'Meta-Llama-3.1-70B-bnb-4bit' 的微调指南(https://huggingface.co/unsloth/Meta-Llama-3.1-70B-Instruct-bnb-4bit),并使用了 RTX A6000 进行训练。这些技术细节不仅展示了计画的技术深度,还为未来的研究和应用提供了宝贵的参考。
未来展望
该计画的长期目标是成为台湾区繁体中文健康与医疗相关资料集的集散中心。这将有助于推动台湾在 AI 技术领域的发展,并促进本地化 AI 技术的应用。主办单位已在2024年9月29日于台北硅谷国际会议中心举行的黑客松活动中推广「繁体中文 AI 开源实践计画」的成果,并规划未来进行开源成果宣传、采访等活动。
结语
「繁体中文 AI 开源实践计画」的成功,不仅展示了台湾在 AI 技术领域的实力,还为未来的研究和应用提供了宝贵的资料和经验。亚洲大学精准健康研究中心蔡志仁组长及其团队的贡献,为计画的成功奠定了坚实的基础。未来,随着更多开源成果的推出,台湾在 AI 技术领域的影响力将不断提升,并为全球 AI 技术的发展做出更大的贡献。
这次计画的成功,无疑是台湾 AI 技术发展的一大步,期待未来有更多类似的计画,推动台湾在国际 AI 技术领域的地位。