21. isc304-大数据分析的问题.pdfVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析的问题 大数据分析中存在的主要问题 ❖ 骄傲自大 • 认为大数据代表了一切,实际上是有限数据空间的有效性 • 结论有较大偏差,甚至出现大错误 ❖ 算法演进 • 数据的时间变化后模型可能发生变化 • 小众、小概率事件大数据无法分析 ❖ 数据质量 • 数据本身的质量问题 • 有意的造假行为(对抗算法研究) 问题与思考-案例-流感预测 ❖ “谷歌流感趋势”(GFT )未卜先知的故事 • 2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心 (CDC )报告的流感发病率 • 2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45 个与流感相关的关键词,GFT就能比CDC提前2周预报2007 ~2008 季流感的发病率 问题与思考-案例-流感预测-问题出现 ❖ 2014年《科学》发文报告了GFT近年的表现 • 2009年,GFT没能预测到非季节性流感A-H1N1 • 2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的 流感发病率,是CDC报告值的1.5倍多 • 2012 ~2013年,GFT流感发病率已经是CDC报告值的2倍多了 问题与思考-案例-流感预测-问题延续 ❖ 2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒 体对GFT的大幅报道导致人们的搜索行为发生了变化 ‘good fit ’ overfit 数据质量+算法演进 问题与思考-过度拟合 ❖ 何为过拟合 • 假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察,该校宣称, 在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷 • 一段时间后问题:警察在象牙塔校内总能迅速找到小偷,可一旦出了象 牙塔,就老犯错抓、漏抓的错误,抓小偷的表现,甚至比从来没有来象 牙塔学习的人还要差 • 这是因为,这所学校从不教授犯罪心理学,只针对于已有的个体样本进 行记忆性的判别训练,这意味着警察抓小偷并不理解小偷为什么是小偷, 也就类似于在数据分析中只关心相关关系而不关注因果关系 问题与思考-过度拟合 ❖ 从上面的故事可以看到,产生过度拟合有三个关键环节 • 第一,象牙塔学校认定本校知道所有普通人与所有小偷的特征,也就 等于知道了社会人群特征 • 第二,象牙塔学校训练警察,不关心小偷的形成原因,而关注细致掌 握已知小偷的特征 • 第三,象牙塔学校认为,不论时间如何变化,本校永远能保证掌握的 普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校 的训练而发生改变 大数据分析的问题-骄傲自大 ❖ 陷阱一:大数据骄傲自大 • 认为自己拥有的大数据蕴含着全部知识,将大数据完全取代科学抽样 基础上形成的传统数据(“小数据”),而不是作为小数据的补充 大数据分析的问题-骄傲自大-结论风险 ❖ 通过大数据下结论是有风险的 ❖ 大数据可能会导致大错误 大数据分析的问题-骄傲自大-持续提升 ❖ 大数据和小数据分析齐头并进 • 小数据在收集上有变量定义清晰、数据生成机制基本可控、检验评估 成本相对较低等优点,但目前小数据的开放性等方面,还有很大推进 空间 • 只有在对小数据进行充分学习研究之后,才能把握问题的实际情况, 而这类把握,是评估大数据质量、大数据可研究问题的关键 大数据分析的问题-算法演化 ❖ 陷阱二:算法演化 • 大数据分析中的算法规则在不断变化,而研究人员对此并不知情,不 同时间收集的数据容易不具备可比性,相同数字中的含义甚至会随时 间变化。 【健康数据】 • 健康问题,建国初期到目前已发生的明显的变化 大数据分析的问题-算法演化-误差累积 ❖ 大数据的智能应用会导致错误被加强 • 需要注意的就是“恶性循环”,这也是因为大量的数据都来自于网络。

文档评论(0)

文人教参 + 关注
实名认证
文档贡献者

老师教学,学生学习备考课程、成人语言培训课程及教材等为提升学生终身学习竞争力,塑造学生综合能力素质,赋能学生而努力

版权声明书
用户编号:6103150140000005

1亿VIP精品文档

相关文档