51CTO首页
AI.x社区
博客
学堂
精品班
直播训练营
企业培训
鸿蒙开发者社区
WOT技术大会
AIGC创新中国行
IT证书
公众号矩阵
移动端

新冠这只“黑天鹅”,AI该如何“驯服”?

人工智能
人们通常把极端异常的事件成为“黑天鹅事件”,新冠这只“黑天鹅”,不仅在爆发时让人措手不及,人们为了遏制疫情而采取的措施,正在世界全方位的系统中产生巨大的连锁反应,包括卫生健康、商业、金融、交通和旅行等等。

本文转载自公众号“读芯术”(ID:AI_Discovery)

2020年注定是不平凡的一年。开年伊始的新冠疫情打乱了所有人、行业、甚至国家的节奏。

人们通常把极端异常的事件成为“黑天鹅事件”,新冠这只“黑天鹅”,不仅在爆发时让人措手不及,人们为了遏制疫情而采取的措施,正在世界全方位的系统中产生巨大的连锁反应,包括卫生健康、商业、金融、交通和旅行等等。

[[323419]]

黑天鹅事件也给机器学习模型带来了不小的挑战。ML模型基于先前观测到的数据,从而可以预测到未来的场景。然而,这些模型如今遇到的事件,和它们接受过的训练却大相径庭。

以信贷和金融领域为首的许多企业组织中,运行着百余个甚至上千个实时生产模型,这些模型对数据做出了错误的决策,进而会影响接下来的业务成效。未来几天、几个月可能出现问题的模型包括信贷、房屋定价、资产定价、需求预测、转换/流失模型、零售公司的供求关系、广告定价等等。

标准模型训练过程会在模型中给出尽可能多的数据,帮助其适应通用跨事件的数据结构,预测在训练数据中未见过的场景是困难的。而真正的黑天鹅事件正是这样,没法在其他事件中学习结构,靠人们去填补数据和模型的空白。那该怎么办?

本文将试图给出答案。事实上,已经有一些出色的实践,通过对生产模型进行强有力的监视、分析和故障排除来掌握离群值事件。

当前的环境有多极端?

极端到了极点了。

从天气、失业率、交通模式、用户支出等输入特性数据进入生产模型时,你会发现这些数据与模型的训练数据相差甚远。

首先看看刚刚发布的失业率数据。申请失业人数高达328万,比第二峰值高出4-5倍,是西格玛事件的25倍不止。

美国就业与培训管理局1995年至今图表

任何使用失业数据作为输入并依此做出决策的模型,都使用了超出预期值20个希格玛的特征。而这是每10万年才会发生一次的事件!这只是系列极端事件中的一个,并且被应用于日常商业决策的模型中而已。

模型不可能完美处理所有预期外的输入。因此,重要的是考虑整个系统处理这些输入的弹性程度,以及出现问题时排除故障的能力。

团队最重要的事情是拥有可观测的模型;不会观测,就学不会适应。这意味着要对模型决策进行检测和分析。

模型可观测性要求:

  • 能检测到异常值的事件,并自动展示
  • 能把离群值事件和用于排除模型故障反应的分析相联系

很明显,失业数据将彻底散乱分布。

再来看看汽车交通的数据:

素材来源:TomTom International

上图为纽约3月18日至3月24日的交通量,交通量已经跌至每日交通量的20%,去往任何地方的交通量都跌为先前的1-10%。

降幅远超预期中的日值,而这只是模型预期值的一小部分。

素材来源:TomTom International

迈阿密的交通量并没有像纽约下降的那么多。看起来迈阿密的居民并没有像纽约那样积极采取隔离措施。在这种情况下,进行城市特定预测的ML模型,在使用交通量作为输入时,会因为城市的不同而产生变化。

模型可观测性要求:

  • 能监控到输入数据的分布偏移
  • 模型输入强有力的剪切和过滤能力

从目前的表现看,面对冠状病毒带来的影响,AI并没有做好准备。天气预报不准确,银行也认为人工智能模型可能无法应对市场低迷。

在极端时期建立弹性机制

对于突逢巨变的企业来说,目前正应用于生产的AI/ML模型所依据的训练数据,与现如今的情况大不相同。

当模型以前没有经历过这些情况时,企业应该怎么做呢?当过去与现在脱节,我们该如何预测未来?

[[323420]]

图源:unsplash

新冠状病毒持续影响许多人类系统,利用AI/ML的企业将不得不在其生产环境中建立弹性机制。模型性能会不断波动,企业需要对生产模型进行实时监控,了解模型输入是如何变化的,以及模型在哪些方面仍有欠缺。

输入的东西必须反应在输出

一切要从输入数据用于生成预测的模型开始。

如果这个罕见事件和其他极端事件有相似之处,那么就有办法将预测结果组合,创建基准周期并进行分析。

如果罕见事件在输入数据结构后,与训练集中的任何其他数据组都没有关系,那仍然需要监测它是如何影响模型的。

在新冠病毒肺炎的案例中,这些场景并非单次的异常值,而是出现在世界各地不同城市,呈数以百万计的快速发展趋势,每个趋势都有不同的时间线和反应。展开情景的规模需要大量不同的分析和检查,跨越许多不同的预测子群。

以下是AI/ML模型在生产中应该具备的输入级观测:

  • 输入检查,以确定特性的值和分布是否与正常基准周期大相径庭
  • 检测模型最敏感的特性是否已经发生了巨大的变化
  • 检测用于确定特性与训练集之间的差距的统计数据
  • 检查单个事件或少量最近发生的事件,发现分布问题

图源:unsplash

模型反应怎么样?

了解输入发生的变化后,接下来要监视的就是模型如何对极端输入做出反应。

检查特定预测子类的模型性能,诸如能源、航空或旅游业等某些行业可能面临的重大风险,需要针对不同的预测组进行快速的在线检查。

利用以前产生最坏情况的情景和基本情况的情景,然后与结果进行比较。实时监控收到的每个新的真实事件,获得真实世界预测的反馈。如果由于时间滞后,无法得到真实世界的反馈,可以使用代理度量标准,这样可以通过预测和测量来决定模型的性能。

极端环境下ML模型生产的优秀实践

在Arize人工智能,我们每天都在思考ML的可观察性和弹性,目的就是在这个不确定的时期把我们的一些经验传授给更多的团队。

ML生产模型的最佳实践离生产软件的最佳实践并不遥远,只需构建可观测工具,以了解当模型或软件激活时会发生什么,在其影响客户之前捕捉到会发生的问题。

从在许多公司部署的AI/ML模型背景来看,我们正在分享这些极端环境下生产ML模型的一些优秀实践。

1. 跟踪和识别异常事件

这包括跟踪输入数据和异常事件的模型性能。在为未来的极端环境收集训练数据时,给这些事件加注释,筛选异常事件是大有帮助。考虑是否将异常事件包括在数据中,以便将来进行模型训练也很重要。这个模型将积极应对未来的极端情况,但它也可能认为极端情况是新的常态。

2. 决定模型后备计划

在过去,当模型没有什么可以学习的时候,它在做什么?

了解模型在过去极端环境中的表现,有利于理解模型现在是如何执行的。如果模型表现不佳,你能根据最后的n分钟或n天设置一些简单的预测,并将模型表现与这个简单模型进行比较吗?

3. 寻找相似的事件

能够观察过去类似的事件为当前的情况建立相似的模型吗?例如,如果模型采用了失业数据作为输入,或许可以利用类似的经济衰退时的失业数据,比如2008年的经济衰退。

4. 建立多样化的模型组合,比较模型的性能

对外部世界做出反应的实时模型,如今可能比批量预测表现得更好。拥有多样化的模型组合,使团队能够将模型性能及路由流量,与能够更好应对极端环境的模型进行比较。

5. 模型性能无法改善时,了解模型预测的不确定性。

有时候可能并没有好的模型,这种情况下,如何知道你的模型有多不确定吗?此时,可以利用贝叶斯方法返回模型的预测及其置信水平。

监测是最重要的。驯服“黑天鹅”,或许不是天方夜谭。

 

责任编辑:赵宁宁 来源: 读芯术
相关推荐
当面对“黑天鹅”事件,企业如何利用数据破局
2020年是不平凡的一年,是外部环境剧烈变化的一年,也是企业快速变革的一年。如今,各行各业都致力于把信息化建设落实到企业的方方面面,使数字化转型成为推动企业业务增长的不二法宝。

2020-11-26 14:00:15

大数据 数据分析 数字化转型
黑天鹅”事件频发,“变化”成为最深刻词汇
2020年3月11日,VMware全球线上发布会为您揭开数十年来重要的vSphere版本以及专为当今多云环境打造的新产品组合VMwareTanzu的神秘面纱!

2020-03-11 16:08:50

戴尔
黑天鹅”羽下:AI在信息战场上的光影双面
疫情发生至今,信息的更新时时牵动着公众神经。在疫情相关的舆情梳理中,人工智能开始扮演“沙里淘金”的角色,运用NLP(自然语言处理)技术“提纯”有效信息,关联信息线索,打造公共危机事件里的信息中枢。同时需要警觉的是,人工智能也会被有心之人利用,造成舆情风险。光影双生,相伴而行。

2020-03-06 10:03:31

AI舆情 自然语言处理
创业者,你是黑天鹅,还是铃木一朗?
YCombinator创办人PaulGraham几天前的一篇「BlackSwanFarming」在北美创投圈掀起了一波小小的论战。PG的这篇文章主要在说,根据YC自己的经验,他们7年来投资的近400家公司,目前为止所有人的总沽值已经达到100亿美金。这听起来很大,但其中光是Dropbox和Airbnb两家就贡献了75亿。

2012-09-19 14:44:14

创业 创业者 黑天鹅
预见黑天鹅:用多云战略规避业务中断之伤
云的稳定可靠不单单是云服务提供商一直致力提升的关键点,也是云化型客户自身业务发展的痛点。

2019-03-05 13:34:13

华为云
有关2021年网络黑天鹅事件的误解
“黑天鹅”事件是无法避免的,但我们却可以通过事前的防御以及事后的响应来将其带来的影响降至最低。

2022-06-03 07:36:19

黑天鹅事件 漏洞 网络攻击
腾讯马斌:产业数字化升级 云原生安全势在必行
“新基建”的浪潮之下,以数字化、网络化、智能化为本质特征的第四次工业革命正在兴起,而今年“新冠疫情”这一“黑天鹅”事件彻底地在全社会掀起的巨大“动荡”

2020-11-29 20:12:22

办公
2018互金巨头的三大关键词:分化、转型及潜在黑天鹅
巨头一向是行业的风向标,展望2018,互金行业的流量与眼球,多半还要靠巨头们来贡献。那么,新的一年,巨头们会给这个行业带来哪些新鲜话题呢强监管态势下,是否真有巨头如网友所愿哭晕在厕所呢我们的脑洞不妨开得大一点。

2018-01-09 20:53:13

突破困局,直击增长,网易智企谈企业营销常态之道
“新冠”疫情这一“黑天鹅”事件已显现出巨大威力。一方面,疫情对经济社会产生深远的影响,导致企业面临需求减少,收入骤降的困局,甚至出现生存危机。

2020-08-28 14:43:31

网易 企业 营销
华为云GaussDB:从颠覆自我到颠覆行业,重构数据库市场新格局
众所周知,疫情这只“黑天鹅”已成为检验企业数字化程度的试金石,这一点从研究机构最新的调研报告中就可“窥见一斑”。

2020-11-09 14:34:09

华为云 GaussDB 行业
联想个人智能大厦全新升级 多赛道并举领跑常态
2020年始料未及的疫情黑天鹅,逐渐改变了人们的习惯方式。

2020-10-29 20:07:08

联想 智能 多元化
AI 行业寒冬犹在:融资规模不足巅峰时期一半,上市潮将伴随倒闭潮
经历资本寒冬之后,疫情黑天鹅又接踵而至,推动着AI早些年积累的不理性泡沫继续破灭,资本疯狂的时期过去了。

2020-11-10 07:58:09

AI
降薪、待岗、裁员……互联网员工挣扎求生众生相
2020年伊始的“新冠病毒”带来了一次猝不及防的“黑天鹅事件”,社会经济多层面遭遇重创,首当其冲的还有互联网企业,资金链的危机之下,很多企员工也遭遇了“降薪”、“裁员”、“停薪留职”等诸多冲击。

2020-03-18 09:50:42

互联网 数据 技术
程序员满意度调查:自我提升意识加强,近30%的人酷爱健身!
&8195;&8195;近年来,随着云计算、大数据、5G、人工智能等新兴技术的深入应用,我国的互联网行业发展如火如荼。尤其是在疫情这只黑天鹅来到的2020年,在线教育、远程办公、直播购物等新形式让互联网行业面临新的发展机遇。

2020-11-13 15:34:55

程序员 互联网 IT
基建”时代,物联网产业“加速度”
2020年初,新冠肺炎“黑天鹅”不期而至。疫情之下,经济不可避免深受影响,于是从2月中下旬开始,中央与地方政府密集发声、发布投资计划,力促“新基建”发展,旨在短期内“稳投资”、中长期为社会经济深入发展提供“新赋能”。

2020-03-25 14:56:45

物联网 新基建 肺炎
如何使用AI检测和对抗病毒
人工智能和大数据技术已经成为中国应对新冠病毒的主要方式,特别是在检测和对抗新冠病毒方面,中国已经采用了一系列AI的解决方案。下面,我们从不同的场景出发,看一下人们是如何使用AI检测和对抗新冠病毒的。

2020-03-26 17:11:36

AI 疫情 新冠病毒
云数据的三大安全威胁
这里列出的三大威胁,就是很多IT管理人员所忽视的:僵尸账号;恶意用户;黑天鹅。

2012-12-19 09:26:00

网购季来临!经过优化的数字化体验将成为零售商销售额的关键
步入11月,包括中国在内的全球多国将迎来网购旺季。与许多行业一样,今年的网购季也会因新冠疫情这个“黑天鹅”事件而与众不同。根据Salesforce的预测,由于疫情,今年的节日季网络零售销售额将占到全球零售销售额的30%。

2020-11-09 18:06:03

恶意攻击
2021年网络安全态势如何
2020年是不同寻常的一年。这一年,新基建成为中国经济热词、疫情黑天鹅事件突袭,好坏之间,企业数字化转型得以全面提速。

2020-12-23 10:44:21

网络安全 新基建 漏洞

两个鬼故事郭起名前进花园牡丹苑无敌武侠系统文字辈男孩起名洋气猪孩子起小名大全店铺起名测试方法繁字起名好听又聚财的公司起名鬼妈妈在线观看起一个英文名字成功从小事做起的名言男生孩子五行缺金起名男孩朱姓起名夫妻成长日记在线如来必须败李姓男孩缺火起名大全灌篮高手国语版全集subway加盟心驰神往的意思wuyuetingting五金公司注册起名宋涵宇茶注册商标起名周易起名网免费取名大全集起名字有诗意的男孩超市如何起名糖果马车公司起名薇起名黄色的猫咪起名字起名属猴少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

两个鬼故事 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化