论重复囚徒困境博弈中的逻辑选择及其应用.docVIP

下载本文档

9
0
约1.12万字
约 14页
2018-05-16 发布于江西
举报
版权申诉

论重复囚徒困境博弈中的逻辑选择及其应用.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

论重复囚徒困境博弈中的逻辑选择及其应用.doc

论重复囚徒困境博弈中的逻辑选择及其应用年F卷川期)2a川R/42臼wh唱#039;1dNO.12,2014 毕节学院学报Vo1.8总锚坷]OURNAL OF BUIE VNIVERSITY 飞General No.173 论重复囚徒困境博弈中的逻辑选择及其应用贺寿南口(1.衡阳师范学院人文社科系，湖南衡阳，421002; 2.北京大学法学院，北京100871)摘要:在重复囚徒困境博弈中，同样结构的博弈被反复地进行，参与者的最佳策略选择主要依赖于对手可能采取的策略和他们对抵赖和坦白如何作出选择。有限次重复博鼻在决策行动时一般使用逆向归纳法，即从重复博弈的最后一个回合开始往前推理从而决定每一步的选择。在无限次重复博弈中，对于任何一个参与者的欺骗和违约行为，其他参与者总会有机会给予报复1关键词:重复博弈;囚徒困境;逻辑选择中圈分类号:B81文献标识码:A文章编号:1673-7059-(2014 )12-0019-07 重复博弈指同样结构的博弈重复若干次，其中的每次博弈称为;阶段博弈它是一种特殊的动态博弈。根据博弈重复的次数是否有限，重复博弈可分为有限次重复博弈与无限次重复博弈。由于任一参与人在重复博弈中都能观测到其他参与人过去的行动历史，因此所有参与人每个阶段的选择策略都依赖于其他参与人过去的行为。下面我们以;囚徒困境;(Prisoner’s Dilemma)为例对重复博弈进行探讨，说明在重复博弈条件下合作产生的可能性，并分析其在实践中的应用。囚徒困境最早是由美国数学家艾伯特·培克(Alherttucker)于1950年提出来的。其内容如下:两个嫌疑犯共同盗窃作案后被警察逮捕，分别被关在不同的屋子里审讯。警察告诉他们:如果两个人都坦白，那么每人判刑4年;如果两个人都抵赖，每人各判刑1年(因为证据不足);如果其中一人坦白，另一人抵赖的话，坦白的人当场释放，抵赖的人判刑6年。m警察的这种做法实际上也符合我国法律规定的;坦白从宽，抗拒从严，疑罪从无;的原则。这里每个囚徒都有两种战略:坦白或抵赖，但其中任何，一人在选择策略时都不可能知道另一人的选择是什么。阁表中的数字表示对应的战略组合下两个囚徒的支付。其中矩阵中第·个数字代表决策结果后囚徒甲的得益，第二个数字代表决策结果后囚徒乙的得益。下面我们分别讨论两囚徒在有限次与无限次重复博弈中如何选择?坦白抵赖立\乏\坦白(-4,-4) (0, -6) 抵赖(-6, 0) (-1, -1) 一、有限次重复囚徒困境博弈中的逻辑选择有限次重复博弈指阶段数是有限的，在决策行动时一般使用逆向归纳法，即从重复博弈的最后收稿日期2014-11-08基金项目:湖南省教育厅科学研究重点项目;博弈逻辑视角下‘司法公正梦#039;的实现路径研究;研究成果之一，项目编号:14A022;湖南省情与决策咨询研究课题;加快推进湖南教育公平的博弈路径研究;研究成果之噜，项目编号:20 14ZZ077; 2012年湖南省普通高等学校教学改革研究项目;创新师范院校思想政治理论课实践教学研究;研究成果之一，主项文件号:湘教通[2012]401号。2014年湖南省优秀中青年恩政课教师择优资助项目;博弈逻辑视野中提升高校思想政治理论课教学实效性研究;研究成果之-。仰者简介:贺寿商(1970→，男湖南双峰人，衡阳师范学院副教授，北京大学青年骨干教师访问学者，逻辑学博士，法学博士后，研究方向:法律逻辑学和思想政治教育。 19 一个回合开始往前推理从而决定每一步的选择。我们假定a.每个参与者(即;囚徒;)都知道;博弈的规则;和;博弈结果;的支付矩阵b.每个参与者具有两种类型:理性的和非理性的飞并且博弈双方均不知道对方是不是理性的c不存在干涉个人决策的任何因素，即参与者可完全按照自己意愿自由地选择策略。在此博弈中可能存在的情况有三种:双方都是非理性的;双方都是理性的:一方为非理性的，另一方为理性的。(一)参与双方均为非理性人根据本论文对;非理性人;的定义，非理性人非常注重;讲义气重信誉，有强烈的合作意愿，而不顾及自身的利益;所以，当参与双方都是非理性人时，他们都会一直合作，都会选择;抵赖;。因此该博弈均衡是(抵赖，抵赖)。{二)参与双方均为理性人假定用T表示该博弈重复的阶段数，我们可根据逆向归纳法来分析。先分析t=T阶段两博弈方的选择，由于此时所有阶段博弈的结果已成为既定事实，而在此阶段之后又不再有任何的后续阶段，因此实现自身在本阶段中的最大利益是两个参与人在该阶段博弈中决策的惟一原则，所以，无论此前所有阶段博弈的结果如何，理性的双方参与人都只会选择使自己得益最大化的行动。由于隔绝监禁，信息不明，二人并不知道对方的选择。每个理性的囚徒都作这样的推理:如果对方坦白，我抵赖的结果是判刑6年，坦白的结果是判刑4年;坦白的结