想要学习大数据,应该看些什么书?

摘星的哥哥



第一阶段:大数据基础语言的学习
  • Java语言基础:Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合
  • HTML、CSS与JavaScript:PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生JavaScript交互功能开发、Ajax异步交互、jQuery应用
  • JavaWeb和数据库:数据库、JavaWeb开发核心、JavaWeb开发内幕

推荐书籍:

  • 《Effective Java》

本书为我们带来了共78条程序员必备的经验法则,针对你每天都会遇到的编程问题提出了有效、实用的解决方案。 书中的每一章都包含几个"条目",以简洁的形式呈现,自成独立的短文,它们提出了具体的建议,对于Java平台精妙之处的独到见解,以及优秀的代码范例。每个条目的综合描述和解释都阐明了应该怎么做,不应该怎么做,以及为什么。

第二阶段: Linux&Hadoop生态体系

Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架

推荐书籍:

  • 《Big Data》

在大数据的背景下,我很少看到关于数据建模,数据层,数据处理需求分析以及数据架构和存储实现问题。这本书却提供了令人耳目一新的全面解决方案。

  • 《Hadoop权威指南》

《Hadoop权威指南(中文版)》从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。

  • 《Hive编程指南》

《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。

第三阶段: 分布式计算
  • 分布式计算框架:Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一:基于Spark的推荐系统(某一线公司真实项目)、实战二:新浪网(http://www.sina.com.cn)
  • storm技术架构体系:Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、实战一:日志告警系统项目、实战二:猜你喜欢推荐系统实战

推荐书籍:

  • 《Spark 快速大数据分析》

《Spark 快速大数据分析》是一本为Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark 的用法,它对Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。

  • 《Spark机器学习:核心技术与实践》

本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。

第四阶段: 大数据项目实战

数据获取、数据处理、数据分析、数据展现、数据应用

第五阶段:大数据分析 —AI(人工智能)

主要是讲解Data Analyze数据分析基础、数据可视化、sklearn中三类朴素贝叶斯算法以及python机器学习等提升个人能力的内容!


IT技术管理那些事儿


大数据的基础学科有三个,分别是数学、统计学和计算机学,所以学习大数据首先要具备一定的数学基础,包括高等数学、线性代数、概率论和离散数学,然后是基础的统计学基础和计算机基础。

虽然大数据的岗位比较多,遍布数据的采集、整理、存储、安全、分析、呈现等方面,但是比较核心的大数据岗位包括大数据平台研发、大数据应用开发和大数据分析等,这些岗位虽然在知识结构上有一定的区别,但是基本的大数据知识是一定要具备的,下面做一个介绍。

第一:算法设计。大数据的核心是数据价值化,数据分析则是数据价值化的重要途径,而算法设计则是数据分析的核心,因此算法设计在大数据知识体系中具有重要的地位。算法设计的书籍比较多,推荐读一下《算法导论》,这是一本比较经典的算法设计类书籍。

第二:编程语言。算法设计之后就需要进行算法实现,算法实现就需要掌握编程语言,能够实现算法的编程语言有很多,包括R、Python、Java等都可以,推荐系统学习一下Python语言,采用Python完成算法实现在目前的大数据和机器学习领域是一个比较普遍的选择。

第三:大数据平台。大数据平台是大数据应用的基础,目前比较常见的大数据平台包括Hadoop和Spark。Hadoop平台已经被业界使用多年,已经形成了一个比较完善的生态体系,建议从Hadoop开始学起。

第四:机器学习。机器学习与大数据的关系越来越密切,目前在大数据分析领域经常采用机器学习的方式。通过大数据进入机器学习领域,再全面进入人工智能领域也是目前一个比较常见的学习路线。

大数据的学习需要一个系统的过程,另外最好在学习的过程中能结合实际案例进行,这样会有一个更好的效果。

作者简介:中国科学院大学计算机专业研究生导师,从事IT行业多年,研究方向包括动态软件体系结构、大数据、人工智能相关领域,有多年的一线研发经验。

欢迎关注作者,欢迎咨询计算机相关问题。


IT人刘俊明


1.《大数据分析:点“数”成金》大数据学习入门级书籍推荐

你现在正坐在一座金矿之上,这些金子或被深埋于备份、存档数据之中,或正藏在你眼前的数据集里,它们是提升公司效益、拓展新的商业关系、制订更直观决策的秘诀所在,足以使你的企业更上一层楼。你将明白如何利用、分析和驾驭数据来获得丰厚回报。作者Frank Ohlhorst“厚积”数十年的技术经验而“薄发”于此书,他将向读者介绍怎样将大数据分析应用于各行各业。在中,你将了解到如何对数据进行挖掘,怎样从数据中揭示趋势并转化为竞争策略及攫取价值的方法。这些更有意思也更有效的方法能够提升企业的智能化水平,将有助于企业解决实际问题,提升利润空间,提高生产率并发现更多的商业机会。

2、《大数据时代 》大数据学习入门级书籍推荐

《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托。迈尔。舍恩伯格被誉为“大数据商业应用一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。维克托。尔耶。舍恩伯格在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。《大数据时代》认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、IBM、苹果、facebook、twitter、VISA等大数据先锋们具价值的应用案例。

3、《云端时代杀手级应用:大数据分析》大数据学习入门级书籍推荐

《云端时代杀手级应用:大数据分析》分什么是大数据、大数据大商机、技术与前瞻3个部分。第一部分介绍大数据分析的概念,以及企业、政府部门可应用的范畴。什么是大数据分析?与个人与企业有什么关系?将对全球产业造成怎样的冲击?第二部分完整介绍大数据在各产业的应用实况,为企业及政府部门提供应用的方向。提供了全球各地的实际应用案例,涵盖零售、金融、政府部门、能源、制造、娱乐、医疗、电信等各个行业,充分展现大数据分析产生的效益。第三部分则简单介绍了大数据分析所需技术及未来发展趋势,为读者提供了应用与研究的方向。

4、《大数据》大数据学习入门级书籍推荐

本书通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例–奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、Facebook和推特等社交媒体、Web3.0与下一代互联网的未来图景等等,为您一一细解,数据创新给公民、政府、社会带来的种种挑战和变革。

5、《大数据互联网大规模数据挖掘与分布式处理》大数据学习入门级书籍推荐

《大数据:互联网大规模数据挖掘与分布式处理》源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:分布式文件系统以及Map-Reduce工具;相似性搜索;数据流处理以及针对易丢失数据等特殊情况的专用处理算法;搜索引擎技术,如谷歌的PageRank;频繁项集挖掘;大规模高维数据集的聚类算法;Web应用中的关键问题:广告管理和推荐系统。

6、 巴拉巴西《爆发》

《爆发:大数据时代预见未来的新思维》是一本越过《黑天鹅》的惊世之作。如果说塔勒布认为人类行为是随机的,都是小概率事件,是不可以预测的;那么全球复杂网络着名巴拉巴西则认为,人类行为93%是可以预测的。巴拉巴西的研究是在人类生活数字化的大数据时代基础上进行的,移动电话、网络以及电子邮件使人类行为变得更加容易量化,将我们的社会变成了一个巨大的数据库。他认为,人类正处在一个聚合点上,在这里数据、科学以及技术都联合起来共同对抗那个很大的谜题–我们的未来。在本书中,巴拉巴西揭开人类行为背后隐藏的模式“爆发”,提出人类日常行为模式不是随机的,而是具有“爆发性”的。爆发揭开了人类行为中令人惊讶的深层次的秩序,使得人类变得比预期中更容易预测得多。


区块链商机


想从零开始的人,就不要过于依赖大数据。理由,大数据会制约你的想象力,桎梏你的开发能力。大数据对从零开始的人来说,只可借鉴利用,绝不可重用。常规领域里的应用,那是另一说。哈哈。对吧?


肖颖50


大数据太广了,看你需求,你是想做的偏技术数据,还是想偏业务方向。可以细分很多领域,包括数据存储,数据处理,数据挖掘,数据可视化等。每一个都需要花费力气去学的。


数据酱人


看曹操,刘备。


分享到:


相關文章: