精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)

精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


翻译:季洋

校对:张玲

本文约6000字,建议阅读10分钟。

本文为你介绍了27本有关数据科学方面的精彩书籍。


引言


每个人都有自己的学习方法,而助我闯入数据科学领域的则是书籍。书籍将知识世界压缩成几百页,没有什么能像它一样打开你的思维,我从未在其他任何学习方法中发现这种魔力和魅力。

“如果你只是阅读人人都在阅读的书,你可能只能想到人人都在想的东西。”

—— 村上春树



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


靠自己来学习数据科学可能是一项非常艰巨的任务!现在有许多方法来学习 – 网络公开课、研讨会、学位、文凭和文章,诸如此类。但是,系统化安排它们,致力于形成一条结构化的学习路线,以成为一名数据科学家,是至关重要的。

一条结构化的学习路线:https://trainings.analyticsvidhya.com/courses/coursev1:AnalyticsVidhya+LPDS2019+LPDS2019_T1/info?utm_source=booksarticle&utm_medium=blog


成为一名数据科学家,是:https://trainings.analyticsvidhya.com/courses/coursev1:AnalyticsVidhya+LPDS2019+LPDS2019_T1/info?utm_source=booksarticle&utm_medium=blog


关于数据科学的书,已经有了成百上千本,你该如何选择开始之处呢?怎么选择适合学习某种技术或领域的书呢?尽管对于这个问题没有一刀切的答案,我已经竭尽所能,精减书单,得到一份只有27本的简短书单。

将这些书分成不同的领域,以易于你理解。

  • 统计学书籍
  • 概率学书籍
  • 机器学习书籍
  • 深度学习书籍
  • 自然语言处理(NLP)书籍
  • 计算机视觉书籍
  • 人工智能书籍
  • 工具/语言书籍
  • Python
  • R


福利:

在这篇文章底部,你将会发现一个极好的说明图表,涵盖上述提及的每一本书。你可以将它作为一个“待读”书单,当你读完一本书时,可从单子上将它们一一划去!你也可以下载这个图表的一个高分辨率版本,打印出来非常完美,因为它是PDF格式。

好了,让我们现在就进入正题。

这个图表的一个高分辨率版本:https://discuss.analyticsvidhya.com/t/download-hd-infographic-27-essential-data-science-books/75604


统计学书籍


《白话统计学》

https://www.amazon.in/Statistics-Plain-English-Third-1/dp/041587291X



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:蒂莫西·C·乌尔单(Timothy C. Urdan)

正是这本美好的书,开始了我在统计学世界的旅程。它完全是为初学者写的,总能吸引你回来以查找更多的内容,而且写作风格和解释内容恰到好处地呼应书名-白话统计学。你可以推荐这本书给任何一位非技术人员,他们应该能够掌握这些原理,因为它就是这么出色!

《思考统计: 程序员的概率学和统计学》

http://greenteapress.com/thinkstats/thinkstats.pdf



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:艾伦·B·唐尼(Allen B. Downey)

在大多数的数据科学书单中,你都可以发现这本书位列第一。这本书有大量的资源,点击上面链接,进入这本书的主页,你将看到数据文件、代码、解决方案等资料。对于已经了解Python基础知识的人来说,它是特别有用的,因为在这本书中,用来演示实例的正是python语言。


《统计学习导论》


精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:加雷思·詹姆斯(Gareth James), 达尼埃拉·威滕(Daniela Witten), 特雷弗·哈西蒂(Trevor Hastie)和 罗布·蒂布里亚尼(Robert Tibshirani)

这是一本经典之作,大多数我看过的机器学习课程都推荐或引用了这本书,当然是因为它写的好的缘故。它涵盖了基础的统计学和机器学习技术,最棒的是,每个观点都会用R语言的案例分析来说明。一旦你学会编程,就来回反复验证每个观点,还有什么方法比多次练习能更好地巩固一个观点呢?


概率学书籍


《概率学:给热情的初学者》

https://www.amazon.in/Probability-Enthusiastic-Beginner-David-Morin/dp/1523318678



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:大卫·莫林(David Morin)

这是一本针对初学者的完美书籍。这本书是为学院学生们而写的,所以,所有倾向于从零开始学习概率学的同学们都很会很欣赏这本书的写作方式。它涵盖了所有的基础内容-组合数学、概率学规则、贝叶斯定理、期望值、偏差、概率密度、常见概率分布、大数定律、中心极限定理、相关性和回归分析。


概率学导论


《概率学导论》

https://www.math.dartmouth.edu/~prob/prob/prob.pdf



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:J·劳里·斯内尔(J. Laurie Snell)和 查尔斯·米勒·格里斯(Charles Miller Grinstead)

这是另一本入门级的书籍,涵盖了基础的概率学概念。像上本书一样,这本书是针对大学毕业生而写的,因而进行了详尽的文字描述。你可能会奇怪为什么我一直重复这一点,这是因为我想强调:总有一个地方是可以让我们从零开始学习的,它是一本为那些从未探索进入这个领域的学生而写的书。


《概率论及其应用概论》


精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:威廉·费勒(William Feller)

正如这本书的描述所说的,它完全是一本关于概率论及其应用的入门指导书。如果你真的想深深地扎入概率学的世界,我推荐你读这本书,因为它是一本非常详细的教科书,但可能不符合一个初学者的口味。如果你学习概率学只是为了进入数据科学,你可以避开这本,只阅读上面提到的两本概率学书籍中的任意一本就好了。


机器学习书籍


《机器学习百页书》

http://www.themlbook.com/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:安德里·布尔科夫(Andriy Burkov)

阅读了大量试图从不同的角度和观点来教授机器学习的书籍,我努力想要找寻能够一本能够简明地归纳费解的原理和方程式的书。直到安德里·布尔科夫用100多页设法做到了这点,我喜欢上了这本书。它写得很出色,易于理解,而且还有彼德·诺维格(Peter Norvig)等思想领袖为其背书。还需要我说更多吗?初学者也许已经成名,因此,每个数据科学家都应该拥有这本书。


机器学习


《机器学习》

https://www.amazon.in/Machine-Learning-Tom-M-Mitchell/dp/1259096955



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:汤姆·米切尔(Tom Mitchell)

在所有机器学习书大肆宣传之前,汤姆·米切尔关于机器学习的书是理解各种技术和算法背后数学原理的首要选择。我会建议在拿起这本书之前先复习一下数学,但你并不需要有任何人工智能和统计学的背景来理解这些概念。它是我机器学习的第一本书! 它售价不高,因此它绝对值得加入你们的收藏。


统计学学习要素


《统计学学习要素》

https://web.stanford.edu/~hastie/Papers/ESLII.pdf


作者:特雷弗·哈西蒂(Trevor Hastie),罗布·蒂布里亚尼(Robert Tibshirani)和 耶罗梅·弗里德曼(Jerome Friedman)

现在我们回到哈西蒂和蒂布里亚尼的另一本经典!它是我们之前提到的《统计学习导论》自然续篇。尽管和那本书有一些重复,但这本书更进一步地分析了我们所说的机器学习算法。除了一般的机器学习技术,它还涵盖其他机器学习技术,诸如神经网络、矩阵分解法、谱聚类法这些内容。


深度学习书籍


《深度学习》

https://www.deeplearningbook.org/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:伊恩·古德费罗(Ian Goodfellow),义华·本焦(Yoshua Bengio)和阿伦·考维尔(Aaron Courville)

这本书的作者们都是巨星级的!《深度学习》这本书被广泛地认为是初学者最好的学习资源。它分为三个章节:应用数学和机器学习基础、现代深度学习实践框架和深度学习研究。迄今为止,它是深度学习社区引用最多的一本书。床边放一本,膜拜它并经常查阅它 –无论什么时候你开始深度学习旅程,这种情形将一直伴随着你。


《和Python一起深度学习》

https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)



作者:弗朗索瓦·乔莱(Francois Chollet)

通过编程和理论并行学习深度学习(或机器学习),真的很酷,这也是弗朗索瓦·乔莱在《和Python一起深度学习》书中所遵循的方法。常用的Keras库可以帮助你学习深度学习概念,而弗朗索瓦是Keras的创建者,所以,还会有谁比他更适合来教这个领域的知识呢?我也建议在推特上关注一下弗朗索瓦 – 那里有很多我们学习的东西。


《神经网络和深度学习》

http://neuralnetworksanddeeplearning.com/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:迈克尔·尼尔森(Michael Nielsen)

这是一本免费的在线书籍,以帮助学习为深度学习赋能的核心组件 – 神经网络。我很喜欢这本书的写作方式,它采用一种实践的方式来教授基本概念,还从初学者的视角来看待深度学习的研究课题。在这本书里,你学不到任何一种编程语言,因为它是一本解释神经网络背后基础概念的教科书,偏老式风格但很好。


自然语言处理(NLP)书籍


《用Python自然语言处理》

https://www.nltk.org/book/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:斯蒂文·伯德(Steven Bird),伊旺·克莱恩(Ewan Klein)和 爱德华·洛珀(Edward Loper)

这是另外一本坚持边做边学原则的书,你将学到一些在其他地方学不到的python概念知识,这样才能利用NLTK(Natural Language Toolkit自然语言工具)库在NLP(Natural Language Processing自然语言处理)的世界里畅游。尽管这本书不是你学习NLP唯一参考的资源(NLP太复杂了,不是一下能说清楚的),但它还是在这一课题上提供一个相当不错的介绍。


《统计学自然语言处理基础》

https://www.cs.vassar.edu/~cs366/docs/Manning_Schuetze_StatisticalNLP.pdf



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:克里斯多夫·曼宁(Christopher Manning)和 欣里奇·舒埃策(Hinrich Schutze)

这本书已经出版了20年,依然能够作为一本优秀的自然语言处理入门书。它对NLP下广泛的子课题对非常详尽的指引,如文本分类、词性标注、概率句法分析和其它内容。作者在数学和语言的基础上对这些课题做了非常严谨而且十分详细的分析,我们要谨记这一点。


《语音和语言处理》

https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:丹尼尔·尤拉夫斯基(Daniel Jurafsky)和 詹姆斯·H·马丁(James H. Martin)

这本书着重介绍的是,自然语言和语音的实际应用和科学评估。我将这本书列入书单是为了开阔我们在文本处理以外的眼界 – 也来看一看语音识别。为什么不呢?每天都有不计其数的语音识别应用出现,可见,它是一个日益繁荣的研究领域。尤拉夫斯基和马丁合著的这本书是自然语言处理领域和计算机语言学非常有深度的一本书。同样,这也是一本大师们自己写的书。


计算机视觉书籍


《计算机视觉:算法和应用》

http://szeliski.org/Book/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:理查德·谢利斯基(Richard Szeliski)

这本书中探讨了很多常见的计算机视觉技术,尤其是那些用来分析和解析图像的技术。虽然这本书大在约九年前出版,但理查德·谢利斯基举例说明所用的例子和方法学在当今还是很实用的。它是一本教科书,详细介绍了如何采用科学方法来解决计算机视觉领域中的基本挑战。点击上面书名,就可以免费获得这本书的PDF版本。


《用Python编程计算机视觉》

http://programmingcomputervision.com/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)



作者:扬·埃里克·索勒姆(Jan Erik Solem)

在你探究这本令人惊叹的书之前,点击书名,进入网站,下载数据包、代码以及从Github目录上复制下来的资源库。这本书是一本真正具有实践指导意义的计算机视觉导论书,而这些丰富的学习资源则有助于你有效地阅读它,正如作者所说的,“当你练习这些用Python编写的例子时,你将学会一些技术如物体识别、3D重建、立体成像、增强现实和其它的计算机视觉应用。”


《计算机视觉:建模,学习,和推理》

http://www.computervisionmodels.com/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:西蒙·J·D·普林斯博士(Dr. Simon J.D. Prince)

这本书从最基本的概率学基本概念开始介绍,然后非常快地以此切入正题。尽管书里介绍的有些框架出现更新版本,但这本书在当今的大环境中还是有价值的。它介绍了70多个算法,而且完美地补充了350多个示例说明。如果你喜欢幻灯片的学习方式,那么请点击书名链接,进入网站下载。


人工智能书籍


《人工智能:一种现代的方法》

http://aima.cs.berkeley.edu/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:斯图尔特·罗素(Stuart Russell)和 彼德·诺维格(Peter Norvig)

这是一本斯图尔特·罗素和彼德·诺维格写的书,是人工智能界首屈一指的好书,100多个国家、超过1300个高等学府在他们的课程中参考或引用了这本书。提到作者是谁,就不会惊讶于书的厚度 – 1100页,涵盖了人工智能的方方面面 – 语音识别、自动驾驶、机器翻译和计算机视觉等其他内容,这本书可以认为是人工智能界的圣经。


《人工智能》

https://www.amazon.in/Artificial-Intelligence-Humans-Fundamental-Algorithms-ebook/dp/B00HAT0APE



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:杰夫·西顿(Jeff Heaton)

人工智能的基本算法是什么?这本书打包了大量的技术知识,仅编成区区222页。这还只是人工智能技术系列书籍的第一卷(维度、距离度量、聚类、误差计算、爬山算法、内尔德·米德算法以及线性回归)。此外,还有一个伴生网站包含了这本书引用的范例和一个包含其代码的GitHub资源库。

伴生网站:https://www.heatonresearch.com/aifh/vol1/GitHub资源库:https://github.com/jeffheaton/aifh


《终极算法》


精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:佩德罗·多明戈斯(Pedro Domingos)

如果你想找一本人工智能方面的技术书,这本不是。但它是什么呢?它用极具说服性的文字阐述了机器学习是如何改变商业、政治、科学和战争的书,是一本讨论人工智能现在在哪里以及未来可能带领人类去哪里的书,论证深入而且发人深省。我们将有可能找到有能力通过数据推进所有知识的唯一一个算法(或“主算法”)吗?加入佩德罗·多明戈斯的探索来一起找出答案。


Python工具/语言书籍


《流畅的Python:清晰、简练以及高效编程》

https://www.amazon.in/Fluent-Python-Concise-Effective-Programming-ebook/dp/B0131L3PW4



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:卢西亚诺·拉马尔霍(Luciano Ramalho)

有很多资源可以用来学习Python,但是没有能够像这本优秀的教科书一样教你如何编程。就如你渴望从一本编程书上得到的一样,它是一本具有操作性的指导书,可以帮助你理解Python是如何工作的以及怎样写出精彩且高效的Python代码。卢西亚诺·拉马尔霍还网罗了一些流行的代码库,你会发现自己经常在数据科学项目中用到这些库。有足足794页的长度,这本书真是物有所值。


《Python编程:强大的面向对象编程》

https://www.amazon.in/Programming-Python-4e-Mark-Lutz/dp/0596158106



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:马克·卢茨(Mark Lutz)

如果你认为上本书已经教会你所有需要了解的Python知识,那么请再考虑考虑这部书。毕竟,Python是一个庞大的编程语言,还有很多其它内容没有覆盖。一旦你从上面那本卢西亚诺·拉马尔霍的书中掌握了基本原理,就可以来看看马克·卢茨的这本书。它在很多研究问题上都有深入详尽的教程:数据库、网络、文本处理和图形用户界面(GUIs)等等,书中有大量例子,是代码迷必须读的一本书。


《数据科学Python手册》


精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:萨米尔·马达文(Samir Madhavan)

目前为止,前面介绍的两本书都是从编程语言角度来学习Python,现在是时候从数据科学的角度来学习它了。哪些数据科学库正被普遍使用,并且怎么用?你如何能在Python中创建数据可视化并按图表挖掘数据?并且你如何能将高级的数据科学/机器学习技术编成代码从而建立数据模型?萨米尔·马达文在这本精心著作的书中回答了这些以及其他更多的问题。


R工具/语言书籍


《数据科学的R编程》

https://r4ds.had.co.nz/



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:加勒特·格罗勒蒙德(Garrett Grolemund)和 哈德利·韦翰(Hadley Wickham)

只要是稍稍听说过R编程的人都将会接触到哈德利·韦翰的成果,他在这个语言的成就是举世无双的 – 关于他我可以滔滔不绝,怎么极力推荐这本书都不为过。你将学会如何导入不同种类的数据进R和不同的数据结构以及如何转变、可视化与建模你的数据。因此,这是一本通过R编程学习数据科学的书,特别好。


《大家来学R》

https://www.amazon.in/R-Everyone-Advanced-Analytics-Graphics/dp/9332539243



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:贾里德·兰德(Jared P. Lander)

我在听说Python之前就已经学习R了,因此在我心中,它占据了一个特殊的位置,而贾里德·兰德的《大家来学R》在其中起了很大的作用。我从一个朋友那里得到了这本书,并且很快被它精彩的写作所吸引了。它声称是写给“大家”的,实至名归。如果你没有技术和统计学背景的话,这是一本很好的书。


《R学习书》

https://www.amazon.in/Cookbook-Recipes-Analysis-Statistics-Graphics/dp/9350233797?tag=googinhydr18418-21&tag=googinkenshoo-21&ascsubtag=_k_EAIaIQobChMIqZ3q0uvy3wIV2SMrCh0M3w3nEAYYASABEgJmJ_D_BwE_k_&gclid=EAIaIQobChMIqZ3q0uvy3wIV2SMrCh0M3w3nEAYYASABEgJmJ_D_BwE



精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


作者:保罗·泰托(Paul Teetor)

《R学习书》很好地完善了你的数据科学书单,它包含了200多个切实可行的小技巧来帮助你着手用R分析和操作数据,每个技巧都着眼于一个不同的问题。不管是学习新的编程技巧还是刷新你的观念,这本书适合每个人,因此,它对初学者、中级和高级专业人士有着同样的意义。

正像前文承诺的一样,这里有一个完整的信息图表,包含了文章中所提及的所有书籍:


精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)



原文标题:27 Amazing Data Science Books Every Data Scientist should Read原文链接:https://www.analyticsvidhya.com/blog/2019/01/27-amazing-data-science-books-every-data-scientist-should-read/


校对:林亦霖


译者简介

精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)


季洋,苏州某IT公司技术总监,从业20年,现在主要负责Java项目的方案和管理工作。对大数据、数据挖掘和分析项目跃跃欲试却苦于没有机会和数据。目前正在摸索和学习中,也报了一些线上课程,希望对数据建模的应用场景有进一步的了解。不能成为巨人,只希望可以站在巨人的肩膀上了解数据科学这个有趣的世界。

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。


分享到:


相關文章: