报告题目:The emergence
of cooperation in AI game systems
报 告 人:张继强 博士(北京航空航天大学)
报告时间:2018年5月31日(星期四),上午11:00
报告地点:bat365在线平台官方网站六层学术报告厅(致知楼3623)
报告摘要:
在复杂系统中通过自组织实现集群行为的涌现一直是众多领域研究者关注的焦点。社会系统和生态系统中以个体间博弈的微观作用方式自组织形成的宏观现象广泛存在,合作的涌现、资源的配置等等。强化学习(Reinforce Learning)是个体基于所观测到的环境进行决策,进而有效地实现其目的算法。这使得该方法与传统的博弈过程具备较好的契合点。在本工作中,我们将Q-learning算法与22博弈相结合提出了新的博弈演化动力学模型。通过模拟结果,我们发现博弈参数在囚徒困境博弈下(PD)和雪堆博弈下(SD)对学习参数下表现出不同的响应特性。经过模拟结果,我们发现SD系统中合作比例呈现周期性演化的特征,而PD中无此特点。通过对动力学过程的分析,我们猜测产生这一特征的原因是两种平衡点之间的竞争所引发的,并设计了部分实验对猜测进行了佐证。此外,通过部分技巧,我们对系统的动力学过程进行了一定的数学分析。这些分析有助于我们有效地对个体进行分类,并最终定性理解参数对周期特征的影响。最后,我们在SD中发现了个体分类之后的部分统计学性质只取决于收益矩阵的对称性。与传统博弈模型中的相互模仿学习机制不同,Reinforce Learning倾向于探索式的内省学习机制。这种学习机制在生态系统和社会系统是广泛存在的,我们的研究思路和方法有助于为相似的机制博弈过程建立有效的模型和分析思路。同时,我们研究结果可能有助于一定程度上阐释真实系统中尤其是生态系统中合作比例的周期性演化。
报告人简介:
张继强,2009年06月毕业于兰州大学放射化学专业。2010年09月进入兰州大学物理科学与技术学院理论物理专业计算物理与复杂系统研究所从事复杂系统和复杂网络的相关研究工作,其主要研究方向为复杂系统中的资源配置和博弈动力学。2016年毕业后进入北京计算科学研究中心汤雷翰教授课题组进行生物数据挖掘以及代谢网络方面的博士后研究工作。2017年进入北京航空航天大学大数据与脑机智能高精尖创新中心从事机器学习、知识图谱和AI博弈动力学等相关研究工作。其文章主要发表于Scientific Reports, Physical Review E等国际期刊上。
欢迎广大师生参加!
bat365在线平台官方网站
2018年5月29日