- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
乐府
——预训练语言模型在诗词对联生成中的应用
华为诺亚方舟实验室
Content
• GPT在乐府作诗、作对联的应用
• PMLM在乐府写宋词中的尝试
• PMLM是我们发表于ACL2020 的工作
基于GPT 的乐府作诗、作对联
背景简介
• 中文传统诗歌对联生成:
• 在格律、平仄、押韵方面具有严格的要求
• 常规的诗歌对联生成模型加入规则对格式进行限制
• GPT :
• GPT (包括GPT-2、GPT-3 )是由OpenAI 推出的大规模预训练语言模型,
其具备强大的文本生成能力
乐府作诗机训练流程
• 第一步:在大规模中文语料上预训练中文GPT模型
• 第二步:使用小规模的古诗词语料,在GPT模型上进行微调
训练语料统计
第一步:预训练中文GPT 模型
1 2 +1
• 训练语料:30GB 中文文本
• 单向Transformer
• 模型大小: 1
…
• Layer=12
• Hidden size= 768
• Intermediate size =3076
• Attention head = 12 …
• 总参数量:1.1亿 …
…
1 …
GPT模型结构
第二步:使用古诗词数据进行模型微调
五 言 绝 乡 。 EOS
GPT
静夜思
床前明月光,
疑是地上霜。 字: BOS 五 言 故 乡 。
…
举头望明月, + + + + + +
低头思故乡。 坐标: 0 1 2 … 37 38 39
标识符1 标识符2
五言绝句(格式)静夜思(主题)床前明月光,疑…月,低头思故乡。
格式 主题 诗歌主体
诗歌生成流程
• 假设输入:
主题:空谷幽兰
格式:五言绝句
• 生成流程:
输入 空谷幽兰生,清香袭人冷。谁是听琴人,携手涧边静。
标题:空谷幽兰 输出
文档评论(0)