国家卫健委进一步做好冷链食品追溯管理工作

国家卫健委进一步做好冷链食品追溯管理工作

2021年2月19日

关于进一步做好冷链食品追溯管理工作的通知

各省、自治区、直辖市及新疆生产建设兵团应对新型冠状病毒肺炎疫情联防联控机制(领导小组、指挥部):

深度强化学习的研究已经取得了一些很有成效且有趣的成果,但是时候继续前进了。谁能找到方法来构建一个可以在无监督情况下从环境中学习的泛化的人工智能系统,谁就会对 AI 领域做出巨大的贡献并推动这个领域继续向前发展。

据我所知,这些思想还没有成功地应用于机器学习环境中。我认为这其中有很多技术问题:如何在计算机中模拟稳态状态,如何存储模型的内部表征,智能体的感官和环境之间的低分辨率以及低保真环境等等。

如果有什么意外的事情发生,有什么东西偏离了它的模型,那么该模型会重新调整它的预期,直到得到它所预期的结果,这也可能会导致更多的移动。如果最终不能得到预期的结果,那么真正的「意外」就会出现,这些神经元就被标记为「需要更新模型」,在这种情况下,重新学习和重新优化可能会实时发生,也可能是在机体处于睡眠状态时发生。

通常在婴儿掌握了大量的知识之后,即当她(他)可以走路、抓握物体、自己上厕所、进行基本的交流等等之后,接下来就是更为正式的训练,比如家长会送孩子去学校,孩子在学校中会经历一个结构性更强的学习过程:学校通过家庭作业、评分以及测验训练孩子从课程中学习知识。

雷锋网原创文章,。详情见转载须知。

疫情联防联控机制综合组

可即便如此,多少年过去以后,老马再回想起这件事儿,也没说过山西男篮的一句不是。他说:“如果没能去山西,我对篮球不会重新燃起热情。”用老北京话来说,这就叫“局气”。

3. 实现企业数据对接。按照属地管理原则,各省(区、市)市场监管部门应当会同有关部门制定发布省级平台接口标准规范,指导督促重点冷链食品供应链各个企业与省级平台对接追溯关键信息。

建立和完善由国家级平台、省级平台和企业级平台组成的冷链食品追溯管理系统,以畜禽肉、水产品等为重点,实现重点冷链食品从海关进口查验到贮存分销、生产加工、批发零售、餐饮服务全链条信息化追溯,完善人物同查、人物共防措施,建立问题产品的快速精准反应机制,严格管控疫情风险,维护公众身体健康。

(一)快速精准追溯。鼓励企业采用信息化手段自动识别产品信息,实时反映重点冷链食品关键信息,实现正向可追踪,逆向可溯源,发生问题时产品可处置、原因可查清、风险可管控。

7. 强化信息管理。各地要重点核查重点冷链食品生产经营企业进出库台账记录、索证索票情况,指导相关生产经营者准确填写、记录数据信息,及时报告发现的问题。各地海关要与市场监管部门对接重点冷链食品进口相关信息,实现信息共享和校验,具体实现方式由海关总署和市场监管总局研究确定。

电影最后的一个片段中,六爷等来了跟小飞的决斗时刻,他扛着刀走在冰面上,他的身后是曾经跟他一起“茬架”的哥几个,这些人有市井的走卒贩夫,也有开豪车的老板,在六爷有难的时候,他们都站在了他的身后。大概,这就是六爷嘴里的“仁义”吧,

奔流不息的万里长江,是中华民族的母亲河,也是中华民族永续发展的重要支撑。“共抓大保护,不搞大开发”“探索出一条生态优先、绿色发展新路子”“让中华民族母亲河永葆生机活力”……党的十八大以来,以习近平同志为核心的党中央总揽全局、科学谋划,部署实施长江经济带发展战略,新发展理念焕发新的生机和活力。从《长江经济带发展规划纲要》及10个专项规划印发实施,不断完善规划政策体系;到破解“化工围江”、整治非法码头、治理污染、修复湿地,把修复长江生态环境摆在压倒性位置;再到近年来长江经济带沿线省市经济增速总体高于全国平均水平,人民生活水平明显提高……实践充分表明,长江经济带正化身为祖国大地上崭新的“绿飘带”“黄金带”,也正加快迈向高质量发展新阶段。

马布里社交媒体截图。

马布里是虔诚的教徒,他出远门时会带着一本《圣经》,里面夹着他的“中国绿卡”。在他还没退役时,有记者提问:“如果NBA的球队给你提供合同,你会回去吗?”他的回答铿锵有力:“决不回去,只要北京要我,我要在这儿终老,在这儿退役。”

强化学习通常被划分为除监督机器学习和无监督机器学习以外的第三类,但在我看来,它其实就是监督学习。

大江流日夜,慷慨歌未央。推进长江岸线环境综合治理、实施长江水域禁捕退捕是关系国家发展全局的重大战略,事关中华民族长远利益。守护“一江清水”,既是一场攻坚战,更是一场持久战。我们坚信,只要树牢绿水青山就是金山银山的理念,放弃赚快钱、大开发的老路,坚持走生态优先、绿色发展的新路,万里奔腾的母亲河上必将不断唱响雄浑壮美的新时代“长江之歌”。

都说“人在江湖飘,哪能不挨刀”,在CBA挨过“第一刀”的马布里南下加盟佛山队,可历史总是惊人的相似,一年以后,他又与佛山“分手”。仔细想来,马布里的前半生充满悲情,出生贫寒,但有着极高的篮球天赋;在NBA打球时,一度和科比、艾弗森等人被誉为“96黄金一代”,但在当时作风传统的NBA,马布里的骄傲,强硬,不肯妥协的个性是与环境不相容的。短暂的高光时刻过后,他的生活又一下子坠入深渊。

“这叫规矩,懂吗?”

其次也是更重要的是,他们错误地引导着人工智能研究者们花更多的时间在深度强化学习上。许多研究人员和黑客从这些研究深度学习的公司那里看到了一波又一波为深度强化学习「叫好」的 PR 新闻,当他们原本可以将精力集中在更大、更根本的问题上时,他们却花费了无数的时间去破解那些相同的问题。

“有些事儿,你赶上了,就得认”

效力纽约尼克斯时,他的父亲在看台上突发疾病离世,球队没有及时告知,虽然最后马布里和球队赢了比赛,但是他也没能见上父亲最后一面。这使他和尼克斯之间产生了不可调和的矛盾。他曾在互联网上直播自己颓废的生活,对着镜头大喊大哭,吞下凡士林,甚至想过用自杀来结束痛苦。

年轻时的马布里,才华横溢但又桀骜不驯,他19岁就进入了NBA打球,但孤傲的性格让他四处碰壁,直到来到中国,曾经的“纽约弃儿”终于完成了华丽蜕变。

我们之所以知道这一点,是因为我们做了许多实验,经验告诉我们,如果我们改变和限制新生有机体的环境,它们会学到不同的东西,行为也会有所不同。

打开马布里的社交媒体,置顶的是一条武汉火神山医院施工的现场图,“加油中国,加油武汉”的内容跃入眼帘。除了庆祝生日的内容外,最近的状态更新,是一组9张中国军人驰援疫区的图片——“这就是我爱中国的原因,总有人会为他人奉献自己,天空之下都是1家人。在此表达我最高的敬意!”

从更传统的机器学习方法向深度学习转变的主要好处是,不再需要手动的工程设计。理论上,你可以给模型提供一堆数据,运行优化算法,它不需要你手动编写特征提取代码也能进行学习。因此,深度学习已经被应用到部分强化学习中,主要体现在智能体以像素的形式接收感知数据的部分,但是仍然需要研究者花大部分时间来手动设计程序。

在太阳效力时,他会给工资不高的队友送一辆汽车;场上打球时,他一直都是最不惜力的那一个。他有情有义有血性,有时候会显得格格不入,但是有自己的一套“规矩”,也有自己的一种坚持。

从开始执教的那一天起,马布里的目光就已经瞄准了最高荣誉。事实上,没有几个人会相信眼下的北控具备冲冠的实力,就像当初没人相信首钢称雄一样。但是马布里依旧要用冠军的标准去要求队员,因为在他心里,那是通往成功的唯一路径。

随着 2019 年的结束,我想回顾一下人工智能所取得的进展。在这一年,AI 社区尤其将深度强化学习大肆宣扬为下一个朝着通用人工智能(AGI)前进的革命性的一步。

国务院应对新型冠状病毒肺炎

对于每一个实验,你设计的奖励必须要让计算机在完全不知道自己实际正在做什么的情况下,可以自己衡量自己的运行过程。因此,你设计的奖励程序可以在机械臂碰到裤子时就开始给它奖励,之后再针对是否正确抓住了裤子以及移动了裤子,来给它更多奖励得分。

翻看马布里的微博,很多他感兴趣的东西,和我们身边普通人别无二致。一转眼,马布里已经来到中国10年,被亲切唤作“老马”的他不仅拿到了中国绿卡,更成了不少人眼中的“北京爷们”。

如果计算机要从周围的环境中学习,那必须在一个 100% 无监督的环境里进行。

所幸 DeepMind 和 OpenAI 的确有花时间解决其他问题,但正如我所说,深度强化学习似乎仍然是他们的主要关注点。

时光飞逝,从马布里1996年开始打球到现在,已经过去了24年,他变了吗?似乎并没有。在NBA,他是“独狼”,曾在比赛中把姚明晃倒;在CBA,他挑衅杜锋:“像个男人一样和我握手。”从美国到中国,从NBA到CBA,马布里在规矩不同的篮球江湖里游荡,纵然曾经被称为球队的“毒瘤”,但老马也有着自己的原则和底线。

成绩合格人员应于1月13日8时至1月17日24时登录司法部网站或者司法部政务服务平台完成网上申请程序,并在规定时间到受理机关指定场所现场提交申请材料。对于疫情中高风险地区,应根据当地司法行政机关具体要求提交申请材料。

我确信我们会有一些进步,也许会在 Starcraft 中赢得更多的分数,但是如果没有一个根本性的架构转变,来实现智能体在无监督的情况下从环境中进行学习,那么这些所谓的进步对于我们实现通用人工智能这一伟大梦想,也就没有太多的意义。

他的具体观点,我们下面来看:

本文作者朱仲光便是其中的一位。他指出,深度强化学习会给研究者们尤其是各位不明真相的大众带来「离通用人工智能越来越近」的错觉,而更为严重的是,深度强化学习会耗费掉研究者们本可以用来研究其他更重要的问题和更有前景的方向的时间和精力。

我自己的假设是,针对学习体的奖励函数实际上是由维持稳态和将「意外」最小化的动力所驱动的。

深度强化学习系统有许多问题,我并不打算详细讨论这些问题的细节,因为有很多博客文章已经讨论过这些问题。感兴趣的读者可参考下文:

司法部提示,根据有关规定,对于2019年客观题考试成绩达到合格分数线的人员,2020年未参加主观题考试(不含延期举行考试的考区应试人员)或主观题考试未达到全国统一合格分数线或者放宽合格分数线的,其客观题考试成绩不再有效。

我相信现在每个人都明白,如果有足够多的时间、金钱和计算机来机械地训练每一个可能的动作,深度强化学习系统几乎可以在任何游戏中获胜。我认为他们大部分的策略仅仅是用一些「小把戏」来不断制造公关效应,以展示最新的深度强化学习系统如何在下一个最佳游戏中大获全胜,这样他们就可以继续从那些不太「懂行」的人那里获得投资,比如微软最近给 OpenAI 的  投了10 亿美元,谷歌则继续作为 DeepMind 的「存钱罐」给其投入资金。

在执教北控之后,马布里也展现出了自己的“江湖义气”,他叫来了好哥们儿为自己助力,他邀请了当初在北京队合作过的体能教练,还叫来了在佛山时的好友担任中方助教,唤回了曾经的队友莫里斯,也让孙悦重返赛场……

这在我看来,深度学习并没有发挥什么作用!我甚至没有具体讨论其他深度强化学习问题,比如如果你需要稍微调整一下目标,那么你就要准备好重新训练整个系统,以及环境中的细微变化通常也会导致整个系统彻底失败,等等。通往通用人工智能的路还很长……

我并非意在采用一个煽动性的标题来写这篇文章,但我也无法以一种更恰当的方式来向人们说明「当前的深度强化学习架构从根本上而言就是错的」这一问题。

这似乎是绝对正确的,而且确实「很像」是真的,所有生物都是从出生开始学习如何从其环境中生存和行动。

那如何基于机械臂在实际折叠裤子中的表现给予奖励?叠三次可以得分吗?没有将裤子叠皱又得多少分?

当前的深度强化学习系统似乎原本可以很好地适用于这种形式化的训练,在这种训练中,当智能体对环境有了基本的了解之后,系统可以清晰地、最大程度自动化地给所期待达成的目标指定分数。比方说如果孩子不能背诵 ABC 这三个字母,记为不及格,但如果他们能背诵整个字母表则记为及格。

然而,也有很多反对的声音认为深度强化学习现在的一系列成果,其实更像是一种虚假的「繁荣」。

“人呢,有好的时候,也有背的时候”

只要奖励函数的问题没有被解决,再多新的学习算法,如BP 算法、DQN、PPO、DDPG、TRPO 都无法真正解决深度强化学习的问题。

最终,你花了太多时间试图去引导智能体遵循正确的路径,以至于它基本上处在完全的监督之下。

事实证明,马布里确实把北京当作了自己的第二故乡,他在场上不仅是球员,更像是半个教练,他不仅帮助北京男篮完成了“四年三冠”的霸业,还倾尽全力帮助方硕、翟晓川和朱彦西等年轻球员成长,甚至提出过带方硕去美国特训的请求。彼时的马布里获得了球迷的认可,被亲切地称为“马政委”、“老马”。毫无疑问,在CBA的江湖里,马布里是成功的。

有媒体报道,马布里在与北京队签约之后,抱着儿子在床上打滚,还兴奋地给母亲打电话,老太太在电话那头说:“孩子,我为你骄傲。”他说:“我喜欢北京这样的大城市,在这里打球,就像回家一样。”

如果你站在一个抽象的角度来看待深度强化学习,你就会知道它被描述为一个随着时间的推移从其环境中学习的智能体。

一、2019 年都过去了,并没有离现实世界更进一步

当生物在四处游荡时,它会建构自己的感知运动交互作用模型以及与周围世界交互作用的环境,该模型开始把各种事件汇聚到一起:天黑的时候应该比较冷;当我打嗝,我应该听到打嗝的声音;当我向左移动,我应该看到视野在 X 轴上变化;当一只动物走在我前面,它应该继续向前移动;当我的手指在杯子上扫过,我应该感受到光滑的表面;当我通过声带发出声音,我应该能在我的耳朵里听到相应的声音等等。

目前的深度强化学习系统似乎可以很好地契合已经有基础训练的系统。迁移学习中的智能体已经对其环境和自身有了基本的了解。我们不妨观察一个人类婴儿的学习历程:从出生开始,她(他)首先开始学习观察形状和颜色,移动手指,触摸物体,控制自己的身体,辨别声音,学习有关重力、物理、坠落、蠕动、弹跳的知识,学习物体恒常性等。每一个人或有机体都会在不同程度上经历这些学习过程。

当前的强化学习实现步骤是这样的:你开始训练模型,然后你看着它失败然后「死掉」,接着你花费大量的时间一次又一次调整奖励函数,直到你「有可能」得到一个理想的结果,但仅仅是「有可能」。

优化过程会在智能体的内部环境模型和实际环境之间进行,并持续优化以使意外最小化。神经科学和哲学已经在很长一段时间里对这些思想展开过讨论,比如 Andy Clark 提出的预测处理的思想以及 Karl Friston 提出的自由能量原理(Free Energy Principle)。

2. 优化完善省级平台。省级平台定位为追溯信息管理和公共服务,帮助重点冷链食品生产经营者实现信息化追溯和数据对接。由各省(区、市)市场监管部门负责建设或在原有追溯信息化系统基础上进行优化改造,并按照统一数据对接规程(见附件)接入国家级平台。北京、天津、辽宁、上海、江苏、浙江、福建、山东、广东、重庆等有条件的省份应当于2020年12月中旬完成建设改造和试运行,12月底前实现与国家平台对接。

4. 全面摸清底数。各地要对重点冷链食品进口商、生产经营企业、第三方冷库、食用农产品批发市场入场销售者、商场超市、生鲜电商和餐饮企业等进行排摸,全面掌握底数和实际情况。

在帮助北京队拿到第三个总冠军之后,马布里已经38岁了,他在球场上不再虎虎生威,新伤旧伤都一起发作,折磨着他的身体。终于,北京队不再有他的位置,他在40岁的年纪离开了这支与他相互成就的球队,不过,他仍然选择了北京的另一支球队——北京北控篮球俱乐部,在这里,他的球员生涯画下了句号,并且开启了自己的执教之路。

中国有句老话叫“否极泰来”,意思是一个人倒霉到了极点,好运就会接踵而至。六爷在找发小借钱的时候说过这么一句:“人呢,有好的时候,也有背的时候。”马布里在CBA混迹两个赛季之后,终于摆脱了霉运,开始触底反弹。他来到了北京——这座古老与现代相互交织的城市。

比如教一支机械臂叠衣服,假如说你有一堆裤子,那么你如何编写奖励函数来让机械臂正确地叠这些裤子呢?当向另外一个人解释这一点时,听起来很简单,只是「把裤子叠成整齐的一堆」,但是计算机并不知道这些规则的含义。

近年来,研究者们针对深度强化学习开展了大量研究工作,现在也逐渐取得了一定进展。

赛场之外,马布里的形象也很“亲民”,他吃火锅,看足球,下象棋,说相声,还在跨年晚会上用中文高唱《月亮代表我的心》,除了不会“京片子”,老马宛如一个地道的北京爷们儿。

马布里演唱《月亮代表我的心》

我很困惑,为什么他们继续花那么多时间来开发有明确的定义规则和得分的系统、能在游戏中获胜的深度强化学习系统?

三、当公关大于实质进步,会带来哪些危害?

6. 加强培训指导。各地要加强对重点冷链食品生产经营者的培训指导,引导重点冷链食品生产经营企业进行自我承诺,落实专人联络。

长江滋养中华文明,见证民族复兴。看长江,也是看中国;把脉长江经济带发展,也是铺设民族复兴之路。统计数据显示,长江涵养着占国土面积1/5的沿江生态,贡献了2/5以上的全国经济总量,带给了沿岸4亿人民灌溉之利、舟楫之便、鱼米之裕。自2016年1月在重庆召开推动长江经济带发展座谈会以来,从云贵高原、巴山蜀水到江南水乡,沿线11省市贯彻落实长江经济带发展战略,强化环保治理、优化产业结构、统筹协调联动,万里长江“绿意”奔涌,“绿色画廊”美景重现。数据是最有力证明,2019年沿江11省市GDP占比全国超46%,多省增速突出,这说明了长江大保护,不会影响经济发展速度,绿水青山就是金山银山。现如今,滔滔江水日夜奔流,不断释放着中国发展的巨大能量,正为建设社会主义现代化强国、实现“两个一百年”奋斗目标和中华民族伟大复兴的中国梦提供强有力的支撑。

8. 实现追踪溯源。各地市场监管部门接到重点冷链食品新冠病毒检测阳性通报后,应当立即利用省级平台对同批次食品的流向进行溯源倒查和精准定位,并利用国家平台上报食品关键信息,迅速组织力量按相关规定开展排查核实。对于流向外省(区、市)的同批次食品,根据追溯清查情况,原则上由省级市场监管部门及时提请当地联防联控机制向涉疫食品流出地及流入地省级联防联控机制通报涉疫食品及相关生产经营者情况,包括涉疫食品名称、批号、数量、销售日期、销售者及联系方式等。

应试人员对考试成绩有异议的,可自考试成绩公布之日起15日内,向报名地司法行政机关提出分数核查的书面申请。

(三)确保信息安全。按照“必要性”、“需要时”和“最小限度”原则访问和获取企业追溯信息数据,科学设置访问权限,保护企业商业秘密,进行必要的脱敏处理。

稳态是生物维持生存所需的稳定条件的过程。任何有机体都要生存,都必须保持其身体与外界环境分离。生物饥饿的时候要进食,疲倦的时候要睡觉,口渴的时候要喝水,受伤的时候要休息,被猎杀的时候要逃离,炎热的时候要让自己凉快一点等等。有机体在环境中行动时,这些与生俱来的原始信号指导着它们该做什么和该关注什么。如果它们不能胜任这些事情,则会导致有机体内失去平衡,最终导致过早死亡。

这个过程中有哪一步你没有给系统提供训练数据?事实上你把整个过程复杂化了,你仅仅是把答案以间接的方式提供给智能体,而这恰恰让一切变得更加困难。

二、到底解决哪些问题,才有意义?

据我所知,2019 年都过去了,仍然没有出现任何能够使用深度强化学习技术的生产系统。

很多人都误认为深度强化学习是实现通用人工智能的下一个创举,甚至谷歌也「过分热情」地花了 5 亿多美元收购 DeepMind,希望把人工智能提升到一个新的水平。与此同时,AI 社区似乎也把深度强化学习当成了圣杯,因为它是在某种程度上与我们所处的世界最接近的机器学习形式,尽管实际上还相差甚远。

1. 建设国家指挥平台。由市场监管总局开发建设,定位为指挥预警。通过“异构识别”机制,依据各地现有工作基础,在不统一制定标准、不统一编码赋码、不改变各地系统的情况下,实现追溯信息省际互认互通。力争在2020年11月底建成上线。

DeepMind 最近,也就是在被谷歌收购 5 年后的一个成功案例是,他们训练了一个深度强化学习的智能体来下围棋、国际象棋、将棋和玩 Atari 游戏。是的,更多的电子游戏!!!

本想带着山西男篮冲击总冠军,不料仅仅一个赛季之后,山西男篮管理层出现变动,马布里遭到弃用,但就像《老炮儿》里六爷说的:“有些事儿,你赶上了,就得认!”这大概就只能叫做“时运不济”,那几天,马布里的心情低落到极点,他给自己相熟的一位记者打电话,喋喋不休诉说着自己的遭遇,直到耗尽了对方的两块手机电池。

围绕深度强化学习的想法和期望是,理论上,我们能轻而易举地训练一个能做任何事情的智能体,比如开车、叠衣服、玩电子游戏、打扫房间、玩魔方等等,并且所有智能体的学习过程都不需要人工干涉。其中一些实验已经取得一些成功,你可以教一个深度强化学习的智能体玩一些电子游戏和棋类游戏,但是一旦涉及现实世界,进入生产系统,这些实验都会以失败告终。

在深度强化学习中,我认为大部分时间都花在了设计奖励函数来让智能体完成想让它做的事情。用更传统的机器学习术语来说,奖励函数就是目标函数,指的是算法利用奖励函数来了解系统是否朝着正确的方向运行,模型得到的奖励越多,它就「越好」。

如果这些问题中有一部分得到改善或解决,例如找到更抽象的方式来表征神经网络内部的信息,我也不会太惊讶,但如果不能解决我所认为的核心问题,即有关手动设置奖励的问题,那所谓的「改善」或「解决」也就意义不大了。

在你试图训练机器人折叠裤子的过程中,你可能需要不断调整奖励函数,因为它可能会意外地撕破裤子、弄掉一些零部件、不把裤子翻出来就直接折叠,或者以看起来毫无意义的奇怪方式折叠裤子。这样的话,奖励的设计变成了一个试验性的过程,即通过反复的尝试和试错来确定什么是有效的奖励。有无数的报告记录了深度强化学习模型做出的各种意想不到的动作。

为做好“外防输入、内防反弹”常态化疫情防控工作,突出加强关键环节、重点领域防控措施,严防新冠肺炎疫情输入风险,按照国务院联防联控机制部署,市场监管总局会同海关总署制定了进一步做好冷链食品追溯管理工作措施。现就有关事项通知如下:

理论上,你的确可以让一个人监督着整个训练过程,这个人可以为系统采取的每一个动作指定一个分数,但这种方式是不能泛化的。

5. 明确主体责任。重点冷链食品生产经营者应当按照《食品安全法》以及《食品药品监管总局关于发布食品生产经营企业建立食品安全追溯体系若干规定的公告》(2017年第39号)、《市场监管总局关于加强冷藏冷冻食品质量安全管理的公告》(2020年第10号)等要求,严格执行进货查验、出厂销售记录等制度,建立食品安全追溯体系。生产经营企业应当及时、准确记录每批次重点冷链食品的检验检疫信息、核酸检测结果、业经消毒的证明、货物来源去向和数量、位置等关键数据。

请于11月30日前将各省(区、市)市场监管部门业务联系人和技术联系人名单报送市场监管总局。

(一)加快追溯平台建设。

深度强化学习与诸如监督分类的传统机器学习方法有很大的不同,传统的机器学习是一个静态模型,它获取原始数据和答案并最终建立一个模型用于生产。在传统的深度强化学习框架中,系统犯错的部分就是信号的来源。这些人工智能体必须直接从它们自身和环境中学习,而不是从我们提供给它们的某种人工奖励函数中学习。

山西男篮是马布里来中国后的第一站,当时,马布里的加盟在还篮球圈儿还引起了不小的轰动,因为他是第一个来中国打球的NBA全明星球员。不过,当时的老马正在遭遇人生中的低谷,很多人都不看好他,有的外媒扬言:“马布里会污染中国的篮球”,一些国内媒体还揣测马布里来中国是为了卖他的球鞋。

但我们所了解到的是,有机体和人类所做的大多数事情,都无法建模成通过让智能体持续优化从而尽可能获得更多奖励的电子游戏。不要被「深度强化学习不需要人为干涉就能够在游戏中获胜」的新闻所愚弄!设计奖励这一操作仍然存在,并且在 40 年前,当电子游戏制造商雇佣整支队伍来制作这些游戏时,就已存在这种操作。

那么,为什么关于深度强化学习的炒作如此之多?

(二)严格信息发布。各省级市场监管部门要加强信息审核,确保数据真实准确。未经省级市场监管部门许可不得擅自发布冷链食品追溯相关信息。针对突发情况及人民群众关注度较高的新闻事件和舆情热点,会同相关部门通过公告、召开新闻发布会等形式及时回应。

当前深度强化学习技术正在本末倒置,我们正试图训练计算机从零开始完成一些复杂的任务,这种训练有时可能会有效,但由于这些模型是针对特定的任务而不是泛化能力而训练的,它们对自己的环境没有泛化的了解,最终导致系统过于脆弱,效果也不是很好。

保护好长江生物多样性,事关国家生态安全与长远发展。据不完全统计,长江流域有水生生物4300多种,其中鱼类400余种,特有鱼类180余种。今年8月20日,习近平总书记在安徽合肥主持召开扎实推进长三角一体化发展座谈会时就强调,长江禁渔是“为全局计、为子孙谋”的重要决策。不过,我们必须清醒地认识到,十年禁渔,涉及地域广、持续时间长,特别是牵涉近30万渔民的生计问题,各地区各部门要坚持以人民为中心,全力织密织牢退捕渔民生计保障网,让广大渔民愿意上岸、上得了岸,上岸后能够稳得住、能致富,从而推动捕鱼人变为护鱼人。同时,公安、市场监管等部门要严格执法监督,坚决斩断非法捕捞黑色产业链、利益链。唯有常抓不懈、久久为功,才能让“鱼虾自舞,但一舸芦花,数声霜笛,鸥鹭自来去”的长江永葆生机,为美丽中国建设提供样本和范例。

(三)强化信息通报和应急处置。

四、要实现通用人工智能,真正要做的是什么?

当 DeepMind 推出一个单一的不进行任何人为干涉就可以学会玩 Atari 电子游戏的深度强化学习智能体时,人们认为这种智能体可以泛化到其他领域的各种问题,甚至是通用人工智能。

通用人工智能,顾名思义,就是指能够像人类一样以一种通用的方式学习万事万物的计算机算法。

这些深度强化学习系统需要基于数万到数百万次的迭代来试验动作的每一个变化,以找出实现最终目标的正确序列,个人很难监控计算机采取的所有步骤。研究者也正在积极探索,试图将这个范围缩小至有限次数的学习,但对我来说,这只是试图改进一些从根本上而言没有意义的东西。

电影里,六爷为了救儿子晓波,在跟一帮“新生代”的混混约架前,教训他们:“这叫规矩,懂吗?”出来混,自然要讲究规矩,不一样的江湖也有不一样的规矩。在NBA所遭遇的一切狠狠的给马布里上了一课,那个时候,他终于明白:美国的篮球江湖已经不再适合他。

成为“马指导”的马布里也信奉“吃得苦中苦,方为人上”的道理,训练时,他对球员的要求十分严格,有的球员会抱怨时间长,强度大,马布里回答:“当初我们就是用这样的训练赢下了冠军。”没有任何一句多余的废话,老马的答案让所有队员闭了嘴。

不由得想起冯小刚主演的电影《老炮儿》。毕竟,有爷们的地方,就有江湖,那里有数不清的恩恩怨怨,道不尽的人情冷暖。今天是马布里43岁的生日,按照老北京的说法,老马就可称得上是不折不扣的“老炮儿”一枚。

《老炮儿》最后,六爷倒在了冰面上,这预示着一个时代的结束,同时也意味着新时代的开始。“紫禁勇士”在等来马布里后,也向过去挥手告别。虽然43岁的老马已经不是球场上的主角了,但如同他曾经说过的:“这绝不是结束”。这个北京爷们儿依然在篮球江湖里成长,“独狼”正在带着他的“群狼”谱写着另一段佳话。(完)

首先,他们发布的所有公关言论,比如「我们的文本生成模型(GPT-2)太危险了,不能发布」,使得普通大众认为我们离通用人工智能更近了,然而 AI 行业中的每个人都明白并没有更近。

我们不需要更多可以玩多种电子游戏的深度强化学习模型,我们需要实现的模型是这样的:它可以在完全无监督的环境中学习智能体和环境之间的泛化表征。这种新的架构可以被称为「深度强化学习 3.0」、「积极推理」、「预测处理」或其他完全不同的东西,但是请不要再在这个「死胡同」上浪费时间了。

如果人工智能和通用人工智能要向前发展,我认为是时候停止让深度强化学习系统玩电子游戏,转而集中精力解决更棘手的问题了。

我们最终实现的不过是一些「小把戏」,这些智能体也不过是可以玩各种各样的电子游戏、棋类游戏的小 AI 玩具。

(四)加强组织领导。各省(区、市)联防联控机制要落实疫情防控属地责任,强化进口冷链食品输入风险防控措施,建立相关部门协作机制。按照国务院联防联控机制有关文件要求,加大投入保障和工作力度,组织精干力量集中攻坚、专班推进追溯平台建设。有关工作情况将纳入食品安全工作评议考核。

“老哥们几个都来了”

(二)广泛推广应用。

我的本意并不是抨击他们,我真的很高兴他们仍然在为实现通用人工智能贡献力量。但问题是,他们制造了很多错误的认知,并最终导致大量的人力物力浪费在「死胡同」上。

现在DeepMind 和 OpenAI 这样顶尖的机器学习研究机构,仍然在深度强化学习研究上投入主要的时间和资源。他们不断地用发布公关新闻轰炸互联网,展示他们正在取得的巨大进步:深度强化学习系统可以下围棋,玩 StarCraft、Dota 2,玩魔方等等。