人工智能和大年夜数据存在甚么隐患?

2019-11-26 09:50:22  来源:搜集大年夜数据

摘要:数据稀缺到如今有大年夜量的数据,近年来,可用的数据量呈指数级增长,大年夜数据变得无处不在。这是由于数据记录设备数量的巨大年夜增长,和这些设备之间经过过程物联网连接。仿佛每小我都有搜集、分析大年夜数据的力量。
关键词: 人工智能 大年夜数据
  数据稀缺到如今有大年夜量的数据,近年来,可用的数据量呈指数级增长,大年夜数据变得无处不在。这是由于数据记录设备数量的巨大年夜增长,和这些设备之间经过过程物联网连接。仿佛每小我都有搜集、分析大年夜数据的力量。
  然则,大年夜数据真的是全能的吗?毫无疑问,大年夜数据曾经在某些范畴产生了相当重要的影响。例如,简直每个成功的人工智能处理筹划都触及大年夜数据处理成绩。
  起重要留意的是,虽然AI今朝异常善于在大年夜型数据集中查找形式和关系,但它依然不是很智能。计算数字可以有效地辨认并发明数据中的纤细形式,但不克不及直接告诉我们这些相干关系中哪些实际上成心义。
  人工智能和大年夜数据存在甚么隐患?
  相干性和因果关系
  我们都知道“相干性其实不料味着因果关系。“但是,人类的大年夜脑生成就会寻觅规律,当我们看到曲线倾斜在一路,数据中出现明显的规律时,我们的大年夜脑就会主动给出规律。”
  但是,从统计数据来看,我们依然没法完成这一奔腾。《虚真相干性》(false)一书的作者Tyler Vigen在本身的网站上对此停止了奚弄,还有很多例子比如展示冰淇淋是若何明显地招致很多好事的,从丛林大年夜火到沙鱼攻击和脊髓灰质炎迸发。
  看看这些情节,人们能够会辩论论,我们很能够早就应当禁止冰淇淋了。并且,实际上,在1940年代的小儿麻痹症例子中,公共卫生专家建议人们停止吃冰淇淋作为“反政治饮食”的一部分。荣幸的是,他们终究认识到小儿麻痹症爆发与冰淇淋花费之间的相干性是“美满是由于小儿麻痹症的迸发在夏季最为广泛”。
  在统计中,虚假关系或虚真相干性是一种数学关系,个中两个或多个事宜或变量相接洽关系,但由于某种有时的或某些第三个未见身分的存在而因果相干(称为“罕见照应”变量”、“混淆身分”或“埋伏变量”)。如许的“埋伏变量”的例子可所以冰淇淋销量与沙鱼攻击之间的相干性(固然冰淇淋销量的增长不会招致沙鱼攻击人们)。然则,这两个数字之间有一个合营的环节,即温度。较高的温度招致更多的人购买冰淇淋和更多的人去泅水。是以,这个“潜变量”确切是表不雅相干性的缘由。荣幸的是,我们曾经学会将因果关系与因果关系分开。并且,在酷热的夏季,我们依然可以享用冰淇淋,而不用担心小儿麻痹症迸发和沙鱼攻击!
  相干性的力量和局限性
  有了足够的数据,将会发明计算才能和统计算法的形式。但其实不是一切的形式都成心义,由于虚假形式的数量很轻易逾越成心义的形式。将大年夜数据与算法结合起来,假设能精确地应用于处理成绩,将是一个异常有效的对象。但是,没有迷信家会认为你可以经过过程伶仃处理数据来处理这个成绩,不管统计分析是多么强大年夜,您应当一直基于对要处理的成绩的根本懂得来停止分析。
  数据迷信是迷信的终结吗?
  2008年6月,《连线》(Wired)杂志前主编C. Anderson写了一篇颇具鼓动性的文章,题为《实际的终结:数据大水使迷信办法过时》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相干性代替因果关系,即使没有连接的模型和同一的实际,迷信也能进步。”
  这类办法的强度和通用性依附于数据量:数据越多,基于计算发明的相干性的办法就越强大年夜和有效。我们可以简单地把数字输入计算机,让统计算法主动发明风趣的形式和看法。
  然则,这类简化的分析办法也存在一些潜伏的圈套,可以经过过程John Poppelaars在博客上找到的示例很好地解释 :
  假定我们要为某些变量Y创建一个猜想模型。例如公司的股价、在线告白的点击率或下周的气象。接上去,我们搜集一切可以应用的数据,并将其放入统计过程当中,以找到Y的最好猜想模型。罕见的过程是起首应用一切变量对模型停止估计,挑选出不重要的变量,然后应用所选的变量子集重新预算模型,然后反复此过程,直到找到重要的模型为止。
  然则,Anderson提出的分析办法存在一些严重的缺点。我选择了一个实例,从0到1的均匀分布中抽取100个样本,为Y创建了一组数据点,所以它是随机噪声。接上去,我经过过程从0到1之间的均匀分布中抽取100个样本,创建了一组50个解释变量X(I)。是以,一切50个解释变量也是随机噪声。我应用一切的X(I)变量来猜想y,估计一个线性回归模型。由于没有任何相干的器械(一切的均布和自变量),所以希冀R2(0),但实际上不是。成果是0。5。关于基于随机噪声的回归来讲还不错!荣幸的是,这个模型其实不重要。渐渐剔除不明显的变量,重新估计模型。反复这个过程,直到找到一个重要的模型。经过几个步调后,发明一个明显性模型,调剂后的R平方为0.4,7个变量的明显性程度至少为99%。再次,我们是在回归随机噪声,它相对没有关系,但我们依然找到一个有7个重要参数的明显模型。假设我们只是将数据输入统计算法来寻觅形式,就会出现这类情况。
  数据集越大年夜,噪声越强
  比来的研究证明,随着数据集的增长,它们必定包含随便任性相干性。这些相干性只是由于数据的大年夜小而出现,这注解,很多相干性都是虚假的。不幸的是,很多信息常常外面表示得很少。
  这是处理多维数据的应用法式榜样中的重要成绩。举例来讲,假定您从一家工厂的数千个传感器中搜集传感器数据,然后发掘这些数据以获得形式以优化性能。在这类情况下,您很轻易被数据表示的表象所困惑,而不是真实的运营绩效目标。不管从财务上照样在工厂的安然运转方面,这都能够是一个坏消息。
  添加数据和添加信息
  作为数据迷信家,我们能够常常会说,改夫君工智能模型的优良处理筹划是“添加更多半据”。但是,仅仅“添加更多半据”就可以进步模型性能吗?不是如许的。我们应当存眷的是“添加更多的信息”。“添加数据”和“添加信息”之间的差别是相当重要的:添加更多的数据其实不等于添加更多的信息(至少是有效和精确的信息)。相反,由于自觉地添加愈来愈多的数据,我们有能够添加包含缺点信息的数据,这些缺点信息会照应地降低模型的性能。随着数据的大年夜量拜访和处理数据的计算才能,推敲这一点变得愈来愈重要。
  结论
  那么,上述挑衅能否应当阻拦您采取以数据为根据的决定计划? 不,数据驱动的决定计划将持续存在。随着我们取得更多有关若何很好应用数据和信息以进步绩效的知识,这些将变得愈来愈有价值。
  然则要认识到,要使筹划成功,不只须要硬件和大年夜量数据,大年夜数据和计算才能也是重要的构成部分。并且,您应当懂得连接数据的根本机制。数据不克不及解释一切,是人类给数字付与了含义。数据的数量、种类是没法更改的。

第二十九届CIO班招生
法国布雷斯特商学院MBA班招生
法国布雷斯特商学院硕士班招生
法国布雷斯特商学院DBA班招生
责编:jiaxy