机器学习与R语言实战.html.pdfVIP

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多

译者序

数据的采集、聚集以及可视化仅仅是数据分析整体工程的一部分,要从海量数据中抽取出价值的信息是目前大数据应用领域一项新的并且挑战性的工作。作为大数据的技术基石,机器学习这一新

兴学科虽然已经被越来越多的人们所认识,但由于学科自身的交叉性,许多算法往往让人觉得复杂和难以理解。本书作者作为一名资深的数据科学家,借助当前机器学习和数据分析领域最常用的工具R语

言,分享了其在数据分析领域实践机器学习算法的诸多心得。

本书内容全面,深入浅出地介绍了采用R语言实现包括分类、回归、聚类、关联分析等常用的机器学习算法的知识,每一个算法都通过案例详细说明了构建模型、实现模型以及评价模型的过程。同时,

为了照顾初学者,本书也涵盖了R语言的基础知识,包括环境准备、数据转换、分析和结果可视化的方法。本书最后抛砖引玉,展示了使用RHadoop处理和分析海量数据的过程。

阅读完本书并亲自动手完成作者所算法案例后,您将对机器学习和R语言都更深入的了解,设计学习算法来发现隐藏在数据中价值的模式也不再是遥不可及的目标。

本书能够得以出版,要感谢机械工业出版社的缪杰、佘洁编辑,他在翻译过程中给予了我们很多建设性的指导意见。其次,还要感谢吴怡编辑,是她让我们与机械工业出版社结缘。

由于教学科研需要,译者很早就已经接触了机器学习这一领域,但由于学科发展速度日新月异,在翻译过程中我们仍然遇到了一些问题,尽管我们在此期间查阅了大量的文献及网络资源,并逐字逐句

地对译稿进行了反复推敲和琢磨,还是不可避免地存在错误和疏漏之处,还望各位读者不吝指正。

前言

如今,大数据在诸多领域已经成为一个时髦的热门词汇,越来越多的人开始接触并考虑引入这一技术以促进公司产品的销售获得更多利润。然而,数据的采集、聚集以及可视化仅仅是数据分析整体工

程的一部分,要从数据中抽取出价值的信息才是一项挑战性的新工作。

大多数研究人员习惯依据历史样本数据进行统计分析,这种处理方法的弊端在于从统计分析中能够获得的信息十分限。事实上,科学家们经常要解决从目标数据中发现被隐藏的模式以及探索未知关

系的问题。目前,机器学习已经逐渐成为除统计分析以外的一种新的分析方法,它使用学习算法,结合输入的样本数据,能够得到更加精确的预测模型。通过机器学习,商业操作及其发展趋势的分析不再

局限于人脑层面的思考,机器层面的分析使企业能够在大数据中发现潜在价值。

R语言是目前机器学习和数据分析领域最常用的工具,开源和免费的优势使得它成为最受数据科学家们欢迎的主流语言。R语言为用户提供了丰富的学习包和可视化函数,用户不需要掌握任何分析过程

背后数学模型的细节就能很简单地通过R语言在数据集上执行机器学习算法,快捷地完成数据分析任务。

本书采取了务实的方法介绍如何使用R语言来实践机器学习。全书共12章,每章包含若干小节,当读者循序渐进地学习完每一小节后,将能够使用数目繁多的机器学习包构建自己的预测模型。

本书首先引导读者学会搭建一个R语言环境并使用简单的R命令来观察数据。接下来读者将学习利用机器学习算法进行统计分析并评价生成模型,以及如何使R语言与Hadoop结合以构建大型数据分析平

台。本书所涉及的全部机器学习案例都附带了详细的说明。

我们相信,读完这本书你将发现机器学习从来没这样容易。

章节内容

第1章介绍了如何创建一个可用的R环境和基本的R命令,包括数据读取、数据操纵、简单的统计分析以及数据的可视化。

第2章介绍了如何使用R语言进行探索性数据分析,以Titanic数据为例,探讨了数据的转换、分析以及结果的可视化。我们建立了一个预测模型,来判断泰坦尼克号可能的幸存者。

第3章首先重点探讨了数据采样和概率分布的概念,然后演示了对数据进行统计描述和统计推断性统计的过程。

第4章探讨一个因变量(响应变量)和一组或多组独立的(预测量)解释变量之间的线性

文档评论(0)

科幻小说家鞋子其 + 关注
实名认证
服务提供商

喜欢文学创作和诗歌散文小说

1亿VIP精品文档

相关文档