《Nature》最新研究大脑中存在分布式强化学习机制

编译 | 雷锋网 AI 科技评论

从疫情发生至今,胡晗和他的同事已连续作战一个多月。“武汉出入境边防检查站共140多人,关键时刻全员在岗,没人掉链子”。

根据中国国家卫健委颁布的《新型冠状病毒实验室检测技术指南》,采集标本的种类里有上呼吸道标本(咽拭子、鼻拭子、鼻咽抽取物),下呼吸道标本(深咳痰液、呼吸道抽取物、支气管灌洗液、肺泡灌洗液、肺组织活检标本),血液标本,血清标本,后来又增加了粪便、肛拭子。而在实际操作中,采取最多的是咽拭子、鼻拭子之类的上呼吸道标本。

落笔前,胡晗称想了很久,“现代人的生活里,写信是极其少见的。有事打个电话,发个微信足矣。特别是像我这样的‘95后’,给爸妈写信,难免有点矫情。”

“通常来说,核酸测试是很强大的,不管假阴性还是假阳性的几率都很低。”伦敦国王学院纳森利·麦克德玛特教授指出。

如果说胡晗此刻在国门值守是为让漂泊在外的人顺利回家,而在武汉60多公里之外的鄂州,母亲叶冬云每天则需十几个小时坚守在发热门诊,为的是治愈更多的“家”。

北美放射学会权威杂志《放射学》(Radiology)的一份研究显示,在167名新型冠状病毒感染患者中,有5人的肺部CT显示有病变,但病毒核酸测试结果依然为阴性。直至后来,这几人才在核酸测试中呈现出阳性结果。

雷锋网原创文章,。详情见转载须知。

由于分布式时间差分在人工神经网络中的功能如此强大,一个科学问题随之出现:分布式时间差分能被应用到大脑中吗?这就是驱动研究者开始这篇《Nature》论文工作的最初动机。在这篇论文中,DeepMind与哈佛Uchida Lab 合作,分析了他们对小鼠多巴胺细胞的记录。这些记录记下了小鼠在一项任务中表现出的学习能力,在任务中,它们获得了意料之外的大量的奖励(如图4 的彩图所示):

▲2月6日,中国武汉,实验室技术员正在检测样本。图据法新社

为了开发出这一检测技术,研究人员必须首先选取病毒的基因。这些基因一方面是病毒检测的参照物,一方面也帮助扩增检测样本中的病毒。为此,科学家选取的是他们认为不太会变异的基因区域。但如果在这个环节就出现判断偏差,同病人样本中的病毒基因不匹配,那已经感染病毒的患者也会得到阴性结果。

20世纪90年代中期,有一批科学家同时对神经科学和人工智能都非常精通。他们注意到:有一些多巴胺神经元的反馈意味着奖励预测的错误,例如与训练时的预期相比,当动物得到过多或过少的奖励时,这些多巴胺就会放电发出信号。这些科学家于是提出了大脑使用的TD算法,即考虑多巴胺的反馈,并用于驱动学习。此后这种多巴胺奖励预测误差理论( reward prediction error theory of dopamine)在数千个实验中得到验证,并成为了神经科学中最成功的定量理论之一。

核酸检测本身有问题吗?

图5:多巴胺细胞作为一个群体,对学到的奖励分布的形状进行编码:可以给予放电率对奖励分布编码,灰色的阴影区域是任务中遇到的真实的奖励分布。每条浅蓝色的轨迹都显示了执行解码过程的示例。深蓝色表示的是浅蓝色轨迹平均超出灰色区域的部分。

“家是什么?平日里体现的可能是柴米油盐、一些琐碎的事。但到了危难关头,很多人宁可放弃自己先救家人,这种出于人性本能的反应,任何时候都难以复制。”叶冬云说,中国人的“家”,或许只有此刻才能还原本来面目:不求富足、不求山珍海味,只求一个“健康平安”。(完)

时隔6年,24岁的武汉边检警官胡晗在抗“疫”期间,鼓起勇气给父母写了一封家书。

样本采集部位、病毒基因选取

“一本护照承载的‘内容’太多,稍有不慎就会被坏人‘钻了空子’。”胡晗很清楚,无论何时,作为边检警官根本职责是不能丢的。

巴浦洛夫在他最著名的实验中,训练狗在铃声响起后会产生期待食物的反应,这些狗在食物到达之前听到声音就开始流唾液,这表明它们已经学会了预测奖励。在最初的实验中,巴甫洛夫通过测量它们产生的唾液量来估计它们的期望。不过最近几十年中,科学家们开始破译大脑如何学习这些期望的内部运作方式。

只是,因疫情缘故,亦让一个年轻警官重新定位自己的角色。“特殊时刻,需要给旅客传递出人性的善意。站里的领导经常叮嘱我们,疫情期间隔离的是病毒,但不能隔离爱。”

突出农贸市场、超市、餐饮等重点场所以及网站,开展联合检查,加强隐患排查,严厉打击野生动物违法违规交易,涉嫌犯罪的,及时移送司法机关。

因此,研究首要的问题便是,是否能够在神经数据中找到这些真实多样的奖励预测。在此前的工作中,研究者了解到多巴胺细胞会改变它们的放电率,来暗示出现了预测误差,也就是说,当动物获得了比它们的预期更多或更少的奖励,就是发生了预测误差。

雷锋网编者按:人工智能与神经科学/脑科学之间存在剪不断理还乱的关系。从人工智能诞生之初,其研究就深受神经科学的影响,包括人工神经网络、强化学习等诸多算法;最近较火的类脑计算,更是提出“brain-inspire”的想法。然而,我们常听,人工智能研究受神经科学/脑科学启发;那么,神经科学/脑科学的研究能否受人工智能研究的启发呢?DeepMind最近发表在《Nature》上的文章正是这样的的典范,在分布式强化学习的启发下,他们研究了小鼠多巴胺细胞的生理机制,发现大脑中同样在使用「分布式强化学习」。这样的研究,一方面促进了神经科学的发展,另一方面也验证了AI研究走在正确的道路上。学习和动机是由内、外部奖励所驱动的。我们的许多日常行为都以预测或预测给定的行动是否会带来积极的(即有益的)结果为指导。

首先,这一发现验证了分布式强化学习,让我们更加坚信:AI 研究正走在正确的轨迹上,因为分布式强化学习算法已经应用于我们认为最智能的实体:大脑。 其次,它为神经科学提出了新问题,并为理解心理健康和动机提供了新的视角。

最简单的分布强化学习算法与标准TD密切想关,这种算法也称为分布式TD。两者的区别是:标准TD算法学习单个预测或者预测的期望值;而分布式TD则学习的是一组不同的预测,这组预测中的每一个都采用标准TD方法学习。但关键的因素是,每个预测器都会对其奖励预测误差应用不同的转换。

“除了常规的查验程序,每个人都要练就一双‘火眼金睛’。比如要防范查处非法入出境活动,侦办妨害国(边)境管理犯罪案件。”胡晗说,平日里,还要防止某些不法分子“闯关”出境,“电影里的剧情,在这里是真实发生过的。”

看到国家用包机接回武汉市民,特别是看到那种渴望回家的眼神,胡晗在查验护照、盖上入境日期的同时,会时不时同旅客说上一句:“欢迎回家”。

与神经科学家的研究同时,计算机科学家们也在人工系统中不断地开发强化学习的算法,这些算法使AI系统不需要外部指导(而是由奖励预测指导)即可学习复杂的策略。

在图4c中,作者展示了细胞之间的显著差异,一些细胞预测的奖励非常大,而另一些细胞预测的奖励却非常小。这些差异超出了预期从记录中原有的随机变异性,所看到的差异程度。在分布式时间差分中,奖励预测中的这些差异源自于正向或负向的奖励预测误差的选择性放大。放大正向的奖励预测误差,会造成学习的奖励预测更乐观;而放大负向的奖励预测误差,则会带来悲观的奖励预测。

如图5 所示,研究者发现仅使用多巴胺细胞的放电率,完全有可能重构一个奖励分布(蓝色轨迹),这与小鼠参与任务中的实际奖励分布(灰色区域)非常接近。 这一重构依赖于将多巴胺细胞的放电率解译为分布时间差分模型分布的奖励预测误差并进行推理以确定模型已经了解的分布。

▲2月5日,泰国曼谷,朱拉隆功大学医学院科学中心的工作人员,正在对新冠肺炎疑似患者进行核算检测。图据法新社

有专家指出,新型冠状病毒感染是一个肺深处的感染,因此下呼吸道标本是最好的,病毒多、最易检测出来。不过,当病人咳嗽的时候,一些病毒确实是可以被带到呼吸道的相对上部,可供样本采集和检测。

▲武汉大学中南医院医学检验科正在进行新型冠状病毒核酸检测。图据新华社

如果它们不同,则算法会计算出它们之间的差异,并使用此“时间差分”将旧的预测调整为新的预测。不断调整,使期望与现实相匹配,从而使整个预测链逐渐变得更加准确。大约在20世纪80年代末和90年代初,神经科学家研究了多巴胺神经元的行为,并发现此神经元的放电和奖励有某种关系,而且这种关系依赖于感觉输入,并且如果研究目标(例如动物)在一项任务中变得更加有经验,则这种关系也会发生改变。

“口罩和护目镜下露出的每一个笑容,对他们可能都是种鼓励。”胡晗说,他身后的武汉,不会一直“病着”,需要所有武汉人齐心协力,共同治愈这个“家”。

时间差分算法(TD)的出现为解决奖励预测问题找到额突破口,TD使用一种数学技巧,通过一个非常简单的学习过程代替对未来的复杂推理,还能得到相同的结果。简单的说,TD算法并不计算所能得到的未来的总回报,而是仅仅预测即时奖励以及下一步骤所能获得的奖励。 然后,当下一刻出现新信息时,将新的预测与预期的进行比较。

▲2月10日,中国武汉,火神山医院内,医生在为新冠肺炎患者进行肺部CT扫描。图据新华社

图 2:a:“悲观的”细胞将放大负向奖励或忽略正向奖励,乐观的细胞将放大正向奖励或忽略负向奖励;b:奖励累积分布图;c:奖励的完整分布图

为什么核算检测会出现“假阴性”?

最后一种可能性就是,用RT-PCR核酸检测来检测新型冠状病毒,也许根本就是一种“有缺陷”的科学方法。

据BBC报道,新冠病毒的核算检测往往是先从患者身上提取样本,随后在实验室中对样本中的核酸进行提取,然后反复扩增复制核酸样本,直至微量病毒数目可以通过仪器检测得到。这样的RT-PCR核酸检测是一种广泛使用的检测技术,通常来说可靠性很高。HIV和流感病毒也都使用这种技术进行检测。

这个春节,胡晗没发一个朋友圈,连平日里喜欢刷微博的习惯都“戒了”。“微博里说什么的都有,有些令人感动,有些让人心寒,索性干脆不看。”

图3比较了在相同基准下经过相同条件训练和评估的多个标准RL和分布式RL算法。分布式强化学习agent以蓝色显示,可以看出取得了显著的提升。其中的三种算法(QR-DQN,IQN和FQF)是我们一直在讨论的分布式TD算法的变体。为什么分布强化学习算法如此有效?虽然这仍然还是一个活跃的研究课题,但其中一点则在于了解奖励的分布情况会为神经网络提供更强的信号,从而以一种对环境变化或策略变化更具鲁棒性的方式来塑造其表示形式。

雷锋网(公众号:雷锋网)注:图 1 :概率表示未来可能得到的奖励,如上图所示,红色表示正向结果,绿色表示负向结果。

而当细胞获得了与它的预测恰好相等的奖励,预测误差就为 0 ,从而其放电率也不会发生任何变化。研究者为每个多巴胺细胞决定好不会改变它的基线放电率的奖励大小,对此研究者称之为细胞的“反转点”。他们希望能够了解到,细胞与细胞之间的“反转点”是否不同。

还有一种可能性,这些患者在前几次做检测的时候已经感染了新型冠状病毒,但因为处于感染极早期阶段,体内病毒数量还不多,不足以被检测出来。尽管RT-PCR核酸检测将样本的基因材料进行了大量复制扩增,但检测人员也需要样本中确实有病毒核酸可供复制。

多巴胺中的分布式代码

其中一种可能性是,检测本身是准确的,只是这些患者在做前几次检测的时候还没有感染。冬季正是咳嗽、感冒和流感的高发季节,患者可能将这些症状误认为是新型冠状病毒感染。

“特别是一开始床位紧张的时候,有的老人属于重症,子女会让老人躺在自己身上,哭着请医院先救父亲,可他们本身也是感染者。有的是孩子症状较重,父母像疯了一样恳请医生先救孩子……”

如果一个人的大脑有选择性地“倾听”乐观或悲观的多巴胺神经元,会发生什么?这会引起冲动或是抑郁的情绪?大脑的优势在于其强大的表示能力——所以,分布式学习到底是怎么形成的这种强大的表示能力的呢?当动物学习了奖励分布,又是如何在其下游使用这种表示?多巴胺细胞之间的各种正向表示,与大脑中已知的其他多样性形式又有何关系呢?这些都有待进一步去探索。我们希望能有更多的研究人员去提出并回答类似这样的问题,从而来推动神经科学的进步,并反过来让 AI 研究受益,形成一个良性的闭环!

那么,核酸检测这种测试方法本身存在问题吗?出现多次阴性结果后确诊的案例到底是怎么回事,有哪些可能性解释?

预测链:时间差分学习

“看到这样的场景,再坚强的人也会忍不住落泪。”她说。

插图展示了三个对正向和负向的奖励预测误差有不同的相对缩放比例的示例细胞。研究者评估了多巴胺神经元的活动是与「标准的时间差分」还是与「分布式时间差分」更加一致。如上所描述的,分布式时间差分依赖于一组不同的奖励预测。

“当一个热爱的城市‘生病’了,你发什么信息都显得苍白无力。”胡晗形容,他最怕看到外面对“武汉”的评价,即使是正面的、积极的信息,都会触碰自己敏感的神经。

麦克德玛特教授指出:“现阶段要搞清楚到底是怎么回事是不太现实的,但这至少提醒了我们,当病人继续出现症状的时候,你必须反复进行检测。”

他说,“其实大家都清楚,每天要接触那么多旅客、查验上百本护照,没风险是不可能的。”

分布强化学习是其中的代表,它能让强化学习发挥出更加优异的效果。在许多情况下(尤其是在现实世界中),特定动作所产生的未来奖励具有随机性。如上图所示,图中的“小人”并不知道是跨过缺口,还是掉进去,所以预测奖励的概率分布图形出现了两个凸起:一个代表跌落;一个代表成功跨过。传统的TD算法采用的方式是预测未来奖励的平均值,这显然无法获得奖励分布的两个峰值(凸起),这时候分布强化学习则可以预测到所有的可能性。

所以研究者接下来测量了不同多巴胺细胞表现的不同正向和负向预测的相对放大程度。在细胞间,研究者发现了可靠然而却无法用噪声来解释的多样性。并且最关键的是,研究者发现,放大了正向奖励预测误差的相同的细胞,也有更高的反转点(图4c,右下角图),也就是说,它们显然将反转点调整到了更高奖励量的预期。最后,分布式时间差分理论预测出,细胞之间不同的“反转点”、不同的不对称性应该一起对学到的奖励分布编码。所以最后一个问题就是,是否能够基于多巴胺细胞的放电率对奖励分布解码。

通知要求各地林草、农业农村和市场监管部门依照《中华人民共和国野生动物保护法》规定和职责分工,突出饲养、繁育、运输、出售、购买等环节,加强检验检疫力度。对未经检疫合格的野生动物,一律严禁进入市场。

总结来说,研究者发现大脑中的每个多巴胺神经元都被调到了不同的积极或消极程度。要是它们是一个唱诗班,它们唱的并不是一个音符,而是在唱和声,它们都像低音或女高音歌手一样,有着各自始终如一的声带。在人工强化学习系统中,这种多样的调整,创造了更加丰富的训练信号,极大地加速了神经网络中的学习速度,研究者推断大脑也会出于这种考量而去采用这种多样的调整方式。 大脑中现存的分布式强化学习,对AI 和神经科学都有着非常有意思的影响。

胡晗说,上一次写信是刚考上大学。离家到外地求学,信里表达的是一个学生对新生活的感悟。此刻写信,内心充满对亲人的担忧和牵挂。“母亲一直在医院坚守着,很久没休息了。这个病传染力这么强,怕她扛不住。”

事实上,目前还有一些关于样本采集部位是否准确的讨论。

“新冠肺炎的早期症状跟其他的呼吸道病毒感染症状非常类似。”麦克德玛特教授指出:“有些病患一开始做检测的时候可能根本就没有被感染。然而,随着时间进程,他们后来被感染了,最终检测结果呈阳性,确诊。这是一种可能性。”

计算机科学家的脚步并未停留于此,自2013年以来,越来越多的研究人员开始关注深度强化学习,这种在强化学习中用深度神经网络来学习表示的算法,能够极为有效的解决复杂问题。 

强化学习是人工智能与神经科学结合形成的最为「古老」且强大的思想,早在80年代末就已经出现。当时的计算机科学研究人员试图设计一种算法,把奖励和惩罚作为反馈信号融入到机器的学习过程,目的是让机器能够自动执行复杂的行为。奖励行为可以强化机器的行为,但是要解决一个特定的问题,即必须了解当前机器的行为如何带来未来的回报;为了预测某项行为带来的未来的总回报,通常有必要对未来采取许多措施。

在新加坡和泰国等国,类似的“假阴性结果”也引起了人们的注意。同时,美国疾病控制与预防中心(CDC)国家免疫与呼吸疾病中心主任南希·梅森尼尔也指出,一些检测的结果并不能成为“总结性”结论。

“这些天只有到了凌晨我妈才能接电话,她总说一切都好,穿着防护服很安全,一点也不累。但鄂州只有一家三甲医院,当地形势也很严峻,她在发热门诊能不累吗?”胡晗说,“写信,可以把平时不好意思说的话装进去。”

他想着,自己唯一能做的就是坚守好国门“边境线”,让每一个出入境旅客可以“感受到武汉还有健康的机体,没有被疫情打倒,以后会更好。”

电话那头,胡晗的说话气息不断切换着:“每次看到这样的消息,心会像被针扎了一下,很惋惜。这个社会应多关心一点医务人员,平日里默默无闻,可到了关键时刻每个人都义无反顾往一线跑,他们也有家人啊!”

图4:在该任务中,小鼠被给予随机确定、容积可变的水奖励,容积从0.1ul到20ul不等(奖励大小由掷骰子决定):(A)经典TD 模型下模拟的多巴胺细胞对7种不同奖励大小的反应;(B)分布式TD 模型下,每一行点对应着一个多巴胺细胞,每一种颜色对应着不同的奖励大小,颜色曲线表示数据的样条插值。一个细胞的“反转点”(细胞的奖励预测误差、放电率在0值处相交)就是特定细胞将奖励“调”到的预期奖励,例如,由于奖励大小达到了细胞的期望,所以它的放电率与它的基线率相比不多也不少;(C)实际多巴胺细胞对其中不同奖励大小的反应,与分布式TD模型的预测非常接近。

在普通人眼中,机场工作的边检民警通常就是查验护照、盖章等这些机械化重复性劳动。但鲜有人知道,他们身上承担着的责任有多大。

那么,到底会是哪里出了问题呢?

胡晗至今记得,那封信发给父母两天后,母亲才用微信回复了几句话:“看得出是真情实意。感动、欣慰、思念、心安!”“在家你是儿子,在外你可是人民警察。你守好国门,不要让一个坏人进来或出去,我守护生命,不会让一个患者轻易离开!”

▲武汉一家医院,医务工作者拿着一份患者取样。图据法新社

如上图a所示,当奖励预测误差为正时,一些预测器有选择地“放大”或“加码”奖励预测误差(RPE)。与奖励分配的较高部分相对比,这种方法能够让预测器学习到一个更乐观的奖励预测。同样如上图所示,其他预测因子放大了它们的负奖励预测误差,因此学习更悲观的预测。综上所述,包含悲观和乐观奖励的预测器能够绘制完整的奖励分布图。 除了简单之外,分布式强化学习的另一个好处是,与深度神经网络结合使用时,它会非常强大。在过去5年中,基于原始的深度强化学习DQN agent的算法取得了很大进展,并且经常在Atari 2600游戏的Atari-57基准测试集上进行评估。

除了这份研究,国内多家权威媒体均报道过核酸检测数次阴性但最终又确诊的案例。中日友好医院就曾透露,近日收治的一位确诊患者,在入院前三次鼻咽拭子新冠病毒核酸检测均为阴性,直到入院后插管上呼吸机,通过肺泡灌洗检测才发现新冠病毒核酸阳性。

人为因素也会影响结果

这些天来,这位母亲见过不少属于聚集性感染的患者,一家人有老有少。“哪一个人不幸离世,都会将整个家庭撕裂。”

作为医护人员的家属,胡晗注意到几天前武昌医院院长刘智明不幸去世的消息,令他再次为母亲的安全揪心。

DeepMind近期发表在Nature上的一项新的工作是,受计算机科学最新的研究(对强化学习算法的重大改进)启发,他们为大脑中奖励学习的一些以前无法解释的特征提供了一个深刻而简约的解释,并由此开辟了研究大脑多巴胺系统的新途径。可谓是人工智能研究反哺神经科学/脑科学的典范。

此外,用作检测的样本采集方法及运输也可能出现问题,“采集的时候只是随便晃了一下,还是精准地采集到了病毒,也是会影响结果的。”麦克德玛特教授指出,新冠病毒是单链RNA病毒,容易死亡和降解。在采到标本后运送到实验室检测的过程中,要是没有低温保存,路程耗时又很长,那么,病毒若是死亡并核酸降解,就不易检出阳性。

谈及这件事,胡晗说,“母亲平时是个很坚强的人,不太会说肉麻的话。可能这次疫情太重了,每天看到那么多病人,有感而发。”