日前,在中国世界级非遗悦读系列丛书发布会上,南京农业大学信息管理学院王东波教授团队联合南京大学“术语与翻译跨学科研究”基地,首次推出非遗领域大语言模型,为非物质文化遗产的保护与传播开辟了新路径。
记者了解到,非物质文化遗产传承大多以口头传播为主,由于其内容丰富而形式多样,在传承过程中极易随着时间流逝而丢失。非遗领域大语言模型的推出可以有效推动非物质文化遗产的数字化保护,助力传统故事、技艺、习俗等内容的数字化、知识化、系统化,从而建立非遗的长效保护体系,确保非物质文化遗产的可持续发展。
“在非物质文化遗产领域,数据的独特性与复杂性成了领域化大模型构建的关键挑战。”王东波介绍,为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段深入中国非物质文化遗产网,从机构、政策、资源、咨询、学术五大板块获取并整理了海量数据,涵盖了政策通知、新闻专题、学术建设及项目介绍等多维度信息。此外,团队还充分利用了学术文献数据库中的大量非遗相关期刊论文摘要,最终通过对网页内容的分类解析和期刊论文摘要的整理,构建了一个内容丰富、体量庞大的非遗领域预训练数据集。
值得一提的是,依托南京农业大学高性能算力平台,研究团队在现有高性能大语言模型的基础上训练了非遗领域基座大模型,并进一步构建了非遗对话大模型。
王东波介绍,非遗对话大模型可以实现非物质文化遗产自动化传播与知识普及,并通过其强大的跨语言能力,助力非物质文化遗产走向国际。非遗对话大模型还能够为非遗传承人提供更加便捷的技术支持,使非遗传承人能够更好地利用新技术实现非物质文化遗产的创造性转化。