语言,是文化的载体,承载着群体文明与文化交流的意义。AI在保护少数民族语言方面具备了独特的优势,赋予传统民族语言数字化传承新方式。
在最近如火如荼进行的“天翼云息壤杯”高校AI大赛中,一支由内蒙古大学博士生组成的参赛团队,聚焦少数民族语言智能信息化,围绕蒙古语大模型的微调与优化进行探索。参赛团队成员来自蒙古自治区多语种人工智能技术重点实验室,希望借助赛事平台赋能,推动蒙古文智能信息处理技术研究。
“天翼云息壤杯”高校AI大赛不仅助力参赛团队进一步攻克智能技术,让蒙文文化在新时代重新焕发出新的活力,为民族文化传承贡献力量;同时也进一步深化产学研合作,将大模型潜力转化为实际生产力,打造国产化特色AI产业生态。
AI+蒙古文 为文化保护提供新思路
蒙古语是我国600多万蒙古族同胞的母语,蒙古语语言智能处理研究不仅有助于传承和保护蒙古族文化遗产,更对促进汉蒙民族间文化交流具有重要意义。
随着人工智能技术与文化领域深入融合,AI大模型等新技术也给蒙文传承与保护提供了新思路。实验室研究团队很早便关注到,大语言模型在民族语言翻译、语音识别、古籍识别等应用场景的技术价值。但相对于英语、汉语等语料丰富的主流语种,蒙古文可用语料资源有限,模型的表现力不足,仍有很大的优化提升空间。为此,实验室团队聚焦于拓展和构建高质量蒙古文语料库,推动蒙古文大模型训推研发。
作为全国范围内极具权威性和专业性的赛事,“天翼云息壤杯”高校AI大赛恰巧为团队提供了一个激发技术创新和检验技术实践的优质平台,且赛题方向与团队的研究领域高度契合。团队希望借助这一高水平的赛事平台,进一步优化蒙古文语料、补齐模型知识,推动蒙古文大模型更好地服务于实际需求。
内蒙古大学参赛选手表示:“大赛为我们搭建了技术创新平台,通过比赛可以检验模型在特定领域任务中的适应性与性能,同时探索更多具有跨语言特性的创新算法;我们希望通过赛事契机,进一步促进大模型能力与特定领域的实际需求紧密结合,为语言文化的保护与传承、多语言智能技术的发展提供更多支持。”
赛事赋能技术创新 夯实数字文化力量
为了进一步提升蒙古文大语言模型的性能、提升模型预测的准确率,内蒙古大学参赛团队选择了“OpenMind 微调算法开发”这一赛题,基于大赛平台提供的OpenMind工具链对蒙古文达模型进行预训练和微调,从而建立起更好的数据配比和高质量的语料数据;同时,团队还引入了特定领域的数据和针对性训练任务,对模型开展逻辑推理工作,逐步强化传统蒙古文大模型对因果关系和语义关联的理解,让大模型变得“更聪明”。
比赛期间,天翼云为参赛团队提供了强大算力资源保障,满足大模型训练所需的高并发算力需求;同时,天翼云还开放了自主研发的“息壤”一体化智算服务平台,为参赛队伍提供强大的算网调度能力、高效的异构计算能力、一站式的训推服务能力支持,大大降低了训练模型的时间成本及训练难度。
经过技术优化,内蒙古大学参赛团队的模型在闭源评测集上的准确率大幅提升,对复杂逻辑推理问题的适应能力显著增强。这一结果也进一步验证,模型微调技术可有效弥补模型语料不足的问题、提升低资源语种模型的性能,同时也为语言、文化保护以及多语言处理等领域,提供了全新技术思路。
以赛赋智、以赛促新,“天翼云息壤杯”高校AI大赛不仅为内蒙古大学科研团队搭建了研发助力平台,为少数民族文化的保护与传承开辟新路径;而且用开放的技术资源深度赋能,驱动数字文化生产力的建设与升级,促进民族文化资源的活化利用与传承创新。
面向无限增长的人工智能技术需求,天翼云将继续发挥国云力量,开放资源与生态,搭建产学研交流与合作桥梁,推动少数民族文化等特色产业与科技深度融合,打造国产化、特色化AI产业新生态,加速AI创新和成果转化,为我国人工智能产业引领发展注入新动能。
(免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。)
评论