加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 交互 > 正文

谷歌流感趋势分析失败:大数据分析为何出错?

发布时间:2021-06-11 12:05:12 所属栏目:交互 来源:互联网
导读:随着大数据成为各种各样产品的商业噱头,越来越多的人开始了解大数据的魅力,对于大数据而言,巨量的数据来源是其分析准确性的根本保证。可是,数据量大到一定程度之后,想要保证数据的准确度就会变得异常艰难,相应的分析结果也就很难保障。 谷歌 之前,

随着大数据成为各种各样产品的商业噱头,越来越多的人开始了解大数据的魅力,对于大数据而言,巨量的数据来源是其分析准确性的根本保证。可是,数据量大到一定程度之后,想要保证数据的准确度就会变得异常艰难,相应的分析结果也就很难保障。

 

  谷歌

 

  之前,谷歌公司发现流感疫情的发展状态可以和某些关键词被搜索的频率很好的联系起来,因此建立了“谷歌流感趋势”(GFT)模型,GFT将大量关于流感的谷歌搜索数据进行统计汇总,经过分析之后与美国疾病防控中心的监测数据进行比对。这一次,大数据失败了,GFT分析预测出的结果和美国疾病防控中心的数据相差近两倍。

 

  尽管谷歌对其搜索引擎的算法不断的做出调整和改进,但依旧很难为GFT提供行之有效的帮助,事实上,算法的变化反倒是很可能为GFT的预测结果产生不利的影响。比如,用户搜索“头痛”等词汇时,谷歌的相关搜索算法可能会将此结果和流感联系起来,即使此用户本来并不是要搜索流感相关内容,从而为GFT提供了不准确的数据。

 

  找准数据是前提,数据并非越大越好

 

  谷歌流感趋势的失败作为一个经典的例子,为我们指出了大数据在应用中的一些问题,或许大数据目前还并不是万能的,又或许数据并不是越大越好。

 

  几乎在所有介绍大数据和云计算的文章中,都会提出足够多的数据是实现技术的前提,并且数据越多越全面,得出的分析结果也就越准确,在理想情况下这样说当然是没错的,可是在现有的技术不能保证数据来源准确度的情况下,大量的数据反而会加大分析的难度。

 

  大数据分析所应用的算法是非常复杂的,因为它要将成千万上亿的数据一一分析匹配,如果数据来源是像搜索引擎这种复杂度本身就很高的地方,那分析就会变得更困难,比如前文中提到的,很多搜索词只是看起来和流感有关,实则无关,像“头疼”这种。

 

  我们回顾一下大数据的成功应用,基本上都是在数据源比较单一的领域,比如流媒体的用户操作习惯,智能交通的车辆位置速度信息等,这些数据的采集方式与场合特殊,准确度较高,因此可以得到成功应用。而像搜索引擎采集的数据,虽然有着庞大的数据量,但无关数据所占比例也较高。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读