当前位置:首页 > 科技新闻

大数据这词不火了 是不是因为没当年说的那么好

内容摘要: 网易科技讯 10月19日动静,国外Slate刊文指出,“大数据(Big Data)”一词曾经变得没有以往那么红火了,为什么会如许呢?“大数据”的问题并不正在...

 


 

网易科技讯 10月19日动静,国外Slate刊文指出,“大数据(Big Data)”一词曾经变得没有以往那么红火了,为什么会如许呢?“大数据”的问题并不正在于数据或者大数据本身很蹩脚,而是正在于盲目沉沦数据,不加地利用,那会激发灾难。数据也不必然完全反映你想要领会的工作的现实。

以下是文章次要内容:

5年前——2012年2月——《纽约时报》刊文人类的一个新的到来:“大数据时代”。该文章告诉我们,社会将起头发生一场,正在这场革射中,海量数据的收集取阐发将会改变人们糊口的几乎每一个方面。数据阐发不再局限于电子数据表和回归阐发:超等计较的到来,伴跟着可持续记实数据并将数据传送到云端的联网传感器的不竭普及,意味着迈克尔·刘易斯(Michael Lewis)2003年的棒球册本《Moneyball》所描述的那种先辈数据阐发无望被使用于各行各业,从贸易到学术,再到医疗和两性关系。不只如斯,高端的数据阐发软件还有帮于判定完全意想不到的相关性,好比贷款方用尽额度和他债权违约的可能性之间的关系。这势必将会催生会改变我们思虑几乎一切事物的新鲜看法。

《纽约时报》并不是第一个得出这一结论的企业机构:它的文章援用了麦肯锡征询公司2011年的一份严沉,其概念也获得了2012年达沃斯世界经济论坛题为“大数据,大影响”的的支撑。但这种宣言仿佛就是标记大数据时代的里程碑。正在之后的一个月里,巴拉克·奥巴马(Barack Obama)的白宫成了一个2亿美元的国度大数据项目,疯狂随即袭来:学术机构、非盈利组织、和企业都争相去探究“大数据”事实是什么,他们能够若何好好它。

现明,这种疯狂没有持续很长时间。5年后,数据正在我们的日常糊口中饰演主要良多的脚色,但大数据一词曾经不再风行——以至让人感觉有些厌恶。我们被许诺的那场事实发生了什么呢?数据、阐发手艺和算法现正在又正在往什么标的目的成长呢?这些问题值得回头去思虑。

科技征询公司Gartner正在它2015年相当出名的“手艺成熟度曲线”中不再利用“大数据”一次,之后该词再也没有回归。该公司道,这并不是由于企业放弃挖掘巨量数据集获得洞见的概念。而是由于那种做法曾经变得广为风行,以致于它不再合适“新兴手艺”的定义。大数据帮帮驱动我们的动态动静、Netflix视频保举、从动化股票买卖、从动校正功能、健康设备等不可胜数的东西背后的算法。但我们现正在不大利用大数据一词了——我们只是将它称做数据。我们起头将数据集可以或许包含无数的察看,先辈软件可以或许检测傍边的趋向当做理所当然的工作。

大数据激发的严沉错误

虽然该词仍有被利用,但它更多地带有一种欠好的意味,好比凯茜·奥尼尔(Cathy O’Neil)2016年的著做《数学杀伤性兵器》(Weapons of Math Destruction)或者弗兰克·帕斯夸里(Frank Pasquale)2015年的《黑箱社会》(The Black Box Society)。慌忙施行和使用大数据,即进行所谓的“数据驱动型决策”,带来了严沉的错误。

有的错误相当惹人瞩目:塔吉特(Target)曾向一位没跟任何人说过本人怀孕的少女的家庭派送婴儿用品优惠券;Pinterest曾恭喜一位独身女性即将成婚;谷歌照片(Google Photos)也曾激发轩然大波,该公司被大举的AI将黑人误认为是大猩猩,缘由是它的锻炼数据不敷多元化。(值得指出的是,至多正在该事务中,“大数据”还不敷大。)

其它的错误更为微妙,大概也愈加。傍边包罗奥尼尔正在她的主要著做中记实的那些欠亨明的数据驱动式轨制性模子:被法庭用来判决罪犯的、带有种族成见的累犯模子,或者那些基于可疑的考试分数数据解雇备受爱戴的教师的模子。大数据犯错的新案例可谓屡见不鲜——好比Facebook算法较着帮帮俄罗斯通过针对性的假旧事影响美国总统的。

盲目沉沦数据取误用

“大数据”的问题并不正在于数据本身很蹩脚,也不正在于大数据本身很蹩脚:隆重使用的话,大型数据集仍是可以或许其它子发觉不了的主要趋向。正如茱莉娅·罗斯·韦斯特(Julia Rose West)正在比来给Slate撰写的文章里所说的,盲目沉沦数据,不加地利用,往往导致灾难的发生。

从素质来看,大数据不容易解读。当你收集数十亿个数据点的时候——一个网坐上的点击或者光标数据;大型公共空间十字转门的动弹次数;对世界各地每个小时的风速察看;推文——任何给定的数据点的来历会变得。这反过来意味着,看似高级此外趋向可能只是数据问题或者方式形成的产品。但也许更严沉的问题是,你所具有的数据凡是只是你实正想要晓得的工具的一个目标。大数据不克不及处理阿谁问题——它反而放大了阿谁问题。

例如,平易近意查询拜访被普遍用做权衡人们正在选举中的投票意向的目标。然而,从汤姆·布拉德利(Tom Bradley)1982年正在州长竞选中败北,到英国脱欧,再到特朗普的被选,数十年来出乎预料的选举几回再三提示我们,平易近意考试和人们现实的投票意向之间并不老是完全分歧。Facebook以往次要通过用户有没有点赞来估量他们对特定的帖子能否有乐趣。但跟着颠末算法优化的动态消息起头大量呈现题目钓饵、点赞钓饵和婴儿照片——导致用户对劲度较着下降——该公司的高层逐步认识到,“点赞”这事并不必然意味着用户实的喜好特定的内容。

目标和你现实上要估量的工具之间的不同越大,过于倚沉它就越。以来自奥尼尔的著做的前述例子为例:学区利用数学模子来让教师的表示评估取学生的考试分数挂钩。学生考试分数取不正在教师范畴内的无数主要要素相关。大数据的此中一个劣势正在于,即即是正在很是嘈杂的数据集里,你也能够发觉成心义的联系关系性,此次要得益于数据量大以及理论上可以或许稠浊变量的强大软件算法。例如,奥尼尔描述的阿谁模子,来自多个学区和系统的学生的浩繁生齿布局方面的相关性,来生成考试分数的“预期”数据集,再拿它们取学生的现实成就进行比力。(因为这个缘由,奥尼尔认为它是“大数据”例子,虽然阿谁数据集并不敷大,没达到该词的一些手艺定义的门槛。)

试想一下,如许的系统被使用正在统一所学校里面——拿每个年级的教师取其它年级的教师比力。要不是大数据的魔法,学生特定学年非常的考试分数会很是惹眼。任何评估那些考试的伶俐人,都不会认为它们可以或许很好地反映学生的能力,更不消他们的教员了。

而前特区教育局长李洋姬(Michelle Rhee)实行的系统比拟之下更欠亨明。由于数据集比力大,而不是小,它必必要由第三方的征询公司特地的数学模子来进行阐发解读。这可带来一种客不雅性,但它也解除掉了严密任何给定的消息输出,来看看该模子具体若何得出它的结论的可能性。

例如,奥尼尔阐发道,有的教师获得低评分,可能不是由于他们的学生表示蹩脚,而是由于那些学生之前一年表示得出奇地好——可能由于下面阿谁年级的教师谎称那些学生表示很好,以提拔他本人的讲授评分。但对于那种可能性,学校高层并没什么乐趣去深究那种模子的机制来予以证明。

插手更多目标

并不是说学生考试分数、平易近意查询拜访、内容排名算法或者累犯预测模子通盘都需要轻忽。除了停用数据和回归到奇闻轶事和曲觉判断以外,至多有两种可行的方式来处置数据集和你想要估量或者估计的现实世界之间不完全相关带来的问题。

此中一种方式是插手更多的目标数据。Facebook采用这种做法已有很长一段时间。正在领会到用户点赞不克不及完全反映他们正在动态动静傍边现实想要看到的工具当前,该公司给它的模子插手了更多的目标。它起头丈量其它的工具,好比用户看一篇帖子的时长,他们浏览其点击的文章的时间,他们是正在看内容之前仍是之后点赞。Facebook的工程师尽可能地去衡量和优化那些目标,但他们发觉用户大体上仍是对动态动静里呈现的内容不合错误劲。因而,该公司进一步添加丈量目标:它起头展开大范畴的用户查询拜访,添加新的反映脸色让用户能够传达愈加细微的感触感染,并起头AI来按页面和按出书者检测帖子的题目党言语。该社交收集晓得这些目标没有一个是完满的。可是,通过添加更多的目标,它理论上可以或许愈加接近于构成可给用户展现他们最想要看到的帖子的算法。

这种做法的一个弊规矩在于,它难度大,成本昂扬。另一个弊规矩在于,你的模子插手的变量越多,它的方式就会变得越错综复杂,越欠亨明,越难以理解。这是帕斯夸里正在《黑箱社会》里阐述的问题的一部门。算法再先辈,所的数据集再好,它也有可能会犯错——而它犯错的时候,诊断问题几无可能。“过度拟合”和盲目相信也会带来:你的模子越先辈,它看上去取你过往所有的察看越吻合,你对它越有决心,它最终让你狼奔豕突的就越大。(想想次贷危机、选举预测模子和Zynga吧。)

小数据

对于源自卑数据集成见的问题,另一个潜正在的应对方式是部门人所说的“小数据”。小数据是指,数据集脚够简单到能够间接由人来阐发息争读,不需要求帮于超等计较机或者Hadoop功课。跟“慢餐”一样,该词也是由于其相背面的风行而发生。

丹麦做家、营销参谋马丁·林德斯特罗姆(Martin Lindstrom)正在他2016年的著做《小数据:大趋向的细小线索》中谈到了那种做法。例如,丹麦出名玩具厂商乐高(Lego)根据大量声称千禧一代需要立即满脚,更容易被比力轻松的项目吸引的研究,转向供给更大的积木,还正在1990年代末和2000年代初打制从题公园和视频逛戏。这种转型没有见效。

那种由数据驱动的范式最初被它的营销者2004年进行的一项范畴小得多的人类学查询拜访倾覆。它的营销者逐一扣问小孩他们最珍爱什么物品,发觉他们最喜好也最忠于可让显示出其苦苦练就的能力的产物——好比一双因数百个小时的滑板而磨损的旧活动鞋。据林德斯特罗姆(他曾担任乐高的参谋,本人也很喜好玩乐高积木)说,乐高从头专注于供给它本来的小积木,由此实现回复。

正在良多方面,亚马逊是可充实申明大数据能力的典型例子。它关于其数以亿计的顾客的采办和商品浏览习惯的数据,帮帮它成为全世界最成功的零售商之一。不外,布拉德·斯通(Brad Stone)正在他的书《万货商铺》(Everything Store)中称,该公司的CEO杰夫·贝索斯(Jeff Bezos)有个很风趣(对于他的员工来说则很恐怖)的体例来均衡所有的那些客不雅数据阐发。他时不时会将顾客发来的赞扬邮件转发给他的高层团队,要求他们不只仅要处理赞扬的问题,还要完全查询拜访清晰它发生的缘由,并撰写一份注释。

这申明,贝索斯不只仅理解大数据提拔各个系统运转效率的能力,还晓得大数据也要可能会没有获得无效估量的特定问题的发生缘由和机制。正在按照你晓得该若何丈量的工作做出决策的时候,平安的做法是确保也无机制让你可以或许晓得你不晓得该若何估量的工作。“问题老是,你没有收集什么数据?”奥尼尔正在接管德律风采访时暗示,“什么数据是你看不到的?”

将来瞻望

跟着“大数据”不再被当做热词,我们有但愿逐步对数据的能力和构成愈加详尽入微的理解。回头来看,收集数据的传感器和阐发数据的超等计较机一会儿大量出现,激发一股淘金热,以及良多时候错失这一切的会压过你的审慎情感,都是能够理解的。取此同时,必然会有深图远虑的人起头惹起我们对这些的留意,大数据也不成避免地会带来反结果。

不外,大数据误用带来的,不会仅仅由于我们不再用的口气来说阿谁词而消逝。看看Gartner 2017年手艺成熟度曲线的颠峰,你会看到像机械和深度如许的词,以及代表这些计较手艺的现实使用的无人驾驶汽车、虚拟帮手等相关的词。这些是基于取大数据一样的根本的新“棚架层”,它们全都依赖于大数据。它们曾经走正在通向实正的冲破的道上——但能够必定的是,它们也会导致严沉的错误。(乐邦)

 

(以上内容来源如无标示深港网皆为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。如有侵权,请来信告知,本站不负任何法律责任。)

上一篇:用区块链做网络身份证,能让上网更方便更安全吗

下一篇:机构预测PC出货量明年回暖:2011年来的首次上涨