乐府:预训练语言模型在诗词对联生成中的应用.pdf

乐府:预训练语言模型在诗词对联生成中的应用.pdf

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
乐府 ——预训练语言模型在诗词对联生成中的应用 华为诺亚方舟实验室 Content • GPT在乐府作诗、作对联的应用 • PMLM在乐府写宋词中的尝试 • PMLM是我们发表于ACL2020 的工作 基于GPT 的乐府作诗、作对联 背景简介 • 中文传统诗歌对联生成: • 在格律、平仄、押韵方面具有严格的要求 • 常规的诗歌对联生成模型加入规则对格式进行限制 • GPT : • GPT (包括GPT-2、GPT-3 )是由OpenAI 推出的大规模预训练语言模型, 其具备强大的文本生成能力 乐府作诗机训练流程 • 第一步:在大规模中文语料上预训练中文GPT模型 • 第二步:使用小规模的古诗词语料,在GPT模型上进行微调 训练语料统计 第一步:预训练中文GPT 模型 1 2 +1 • 训练语料:30GB 中文文本 • 单向Transformer • 模型大小: 1 … • Layer=12 • Hidden size= 768 • Intermediate size =3076 • Attention head = 12 … • 总参数量:1.1亿 … … 1 … GPT模型结构 第二步:使用古诗词数据进行模型微调 五 言 绝 乡 。 EOS GPT 静夜思 床前明月光, 疑是地上霜。 字: BOS 五 言 故 乡 。 … 举头望明月, + + + + + + 低头思故乡。 坐标: 0 1 2 … 37 38 39 标识符1 标识符2 五言绝句(格式)静夜思(主题)床前明月光,疑…月,低头思故乡。 格式 主题 诗歌主体 诗歌生成流程 • 假设输入: 主题:空谷幽兰 格式:五言绝句 • 生成流程: 输入 空谷幽兰生,清香袭人冷。谁是听琴人,携手涧边静。 标题:空谷幽兰 输出

文档评论(0)

wendangchuan + 关注
实名认证
内容提供者

高级工程师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年09月22日上传了高级工程师

1亿VIP精品文档

相关文档