如何学习数据分析?

花落♡KicaZ莫相离


现在发达城市北上广,已经开始用大数据,运做基金了。而且门槛很高,必须金融和计算机的本科以上人员,研究生择优录取。

可见大数据,发展的力度。很多人不知道大数据怎么交易股票,这这里简单说下,现在好多券商软件支持,大数据自动化交易,也就是说,当你编写好自己的预期策略后,由程序根据你的策略实行,自动化交易。现在名声仅次于巴菲特的詹姆斯.西蒙斯,就是大数据量化交易的先驱,他名下的大奖章基金,就是根据大数据量化交易运行。

大数据量化交易,可以实现。一天成百上千次此交易,只要资金允许。这也是发达发达城市为什么着重研究的对象。还有大数据是未来的趋势。电脑在对市场热度的分析,要强于人工识别。但是论单个交易,人工肯定强于电脑,但是从现在的基金规模来看。电脑交易是主要趋势。不管多厉害的基金经理,精力都是有限的。

目前的大数据都是借助python为主要语言编写的,感兴趣的可以看看相关方面的学习。券商对自动化交易的资金,一般是5w门槛。所以,随着市场的发展。大数据量化交易,会慢慢普及。

以上就是本人对大数据的看法,喜欢的可以加个关注,点个赞。


散户和大户的区别


数据分析师是一个综合的岗位,除了熟悉业务,还需要掌握多项技能,例如Excel、SQL、统计学及SPSS,R/Python,海量数据的情况下需要在大数据平台下分析,所以还需要掌握Hadoop相关的技术,如Hive、HBase等。

由于涉及的技术较多,一下都学完不现实,所以,学习数据分析建议分成三个阶段进行:

1、商业数据分析

2、涉及算法的数据挖掘

3、大数据平台下的分析

阶段一:商业数据分析

对于大部分公司来说,数据量不是很庞大,数据分析通过Excel,SPSS等工具就可以搞定,此时需要掌握的技能有Excel、MySQL、统计学及SPSS。

学完这些技能后,可以去很多公司做一名商业数据分析师,支撑市场部、运营部等的数据分析工作。

1、Excel

Excel这部分需要学习的内容有3块:Excel公式、数据透视表及Excel数据图表。

说明:关于每一块需要掌握哪些技能,可以看我的另外一个回答:零基础如何入门数据分析?

关于Excel的书籍、教程有很多,找几本经典来学习一下,重要的是练习,看完教程后,一定要自己动手做一遍,才有可能掌握。

推荐书籍:

  • 《谁说菜鸟不会数据分析》系列

  • 《Excel图表之道:如何制作专业有效的商务图表》

  • 《别怕,Excel VBA其实很简单》


2、MySQL

作为数据分析师,需要跟数据打交道,所以懂点SQL也是必要的。

关于SQL的书籍、免费资料也有很多,这里推荐2本,重点仍然是多动手练习。

推荐书籍:

  • 入门书籍:《MySQL必知必会》,人邮出版社。

  • 进阶书籍:《SQL进阶教程》,[日]MICK。



3、统计学

统计学是必须的,不懂统计学根本算不上数据分析师,具体内容有:

1、统计学:统计学基础、参数估计、假设检验、方差分析、线性回归、时间序列。

2、多元统计分析:聚类分析、主成分分析及因子分析。

从上面可以看到,统计学学习可以分成两个阶段进行,统计学和多元统计分析,重点是多动手做题、思考。

推荐书籍:

  • 第一阶段,推荐书籍,贾俊平的《统计学》,人大出版社;

  • 第二阶段,推荐书籍,何晓群的《多元统计学分析》,人大出版社。

PS:数学零基础的童鞋,可以先看下《Head First 统计学》(又名《深入浅出统计学》)


4、SPSS

因为统计学很有些分析方法通过Excel就可以搞定;有些不行,必须通过其他工具才能搞定,例如多元线性回归、聚类分析、主成分分析及因子分析,都需要用到SPSS。

在掌握了统计学的基础上,在学习SPSS是很容易的,因为SPSS只是一个工具而已。

推荐书籍:

  • 《统计分析与SPSS的应用》,薛微,人大出版社。

  • 《PASW/SPSS Statistics中文版统计分析教程》,电子工业出版社。

附:数据分析必备SPSS主要知识点。

阶段二:涉及算法的数据挖掘

有些数据分析工作,需要通过统计算法及机器学习算法来进行,所以还需要掌握Python或者R。

掌握了R数据分析或者Python数据分析技能后,可以去一些公司做基于统计算法或者机器学习算法的数据分析及挖掘工作。

1、Python

Python数据分析主要包括Python语法基础、常用数据分析扩展包Numpy、Pandas、Matplotlib等、Python数据探索及预处理、Python机器学习等。

限于篇幅,具体需要掌握哪些技能这里就不详细列出了,可以去看我的另外一个回答:怎么学习python数据分析?

推荐书籍:

  • 《Python编程从入门到实践,[美]Eric Matthes》

  • 《利用Python进行数据分析,Wes McKinney,机械工业出版社》

  • 《Python机器学习基础教程》,[德]Andreas C. Müller [美]Sarah Guido



2、R

R数据分析包括R语言基础、R数据可视化、R数据预处理、R统计分析及R机器学习。

附:数据分析必备R语言知识点。

推荐书籍:

  • 《R语言初学者指南》,[英]Alian

    F.Zuur

    等,西安交通大学出版社
  • 《R语言实战(第2版)》,Robert

    I.Kabacoff

    ,人民邮电出版社


阶段三:大数据平台下的分析

在一些大公司,海量数据的情况下,数据都是运行在大数据平台上(Hadoop),还需要懂MapReduce、Hive、HBase数据仓库等技术。当然这些可以在工作学习、积累。

回答完毕!


大数据研习社


想要成为数据分析师,给大家分享一份初级的入门指南!

它包含Excel、数据可视化、数据分析思维、数据库、统计学、业务、以及Python。

这七part 的内容刚好涵盖了一位数据分析师需要掌握的基础体系,也是一位新人从零迈入数据大门的知识手册。

第一part:Excel

每一位数据分析师都脱离不开Excel。

它是日常工作中最常用的工具,如果不考虑性能和数据量,它可以应付绝大部分分析工作。虽然现在机器学习满地走,Excel依旧是无可争议的第一工具。

Excel的学习分为两个部分。

掌握各类功能强大的函数,函数是一种负责输入和输出的神秘盒子。把各类数据输入,经过计算和转换输出我们想要的结果。

在SQL,Python以及R中,函数依旧是主角。掌握Excel的函数有助于后续的学习,因为你几乎在编程中能找到名字一样或者相近的函数。

在「数据分析:常见的Excel函数全部涵盖在这里了」中,介绍了常用的Excel函数。

清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text

关联匹配类:lookup、vlookup、index、match、row、column、offset

逻辑运算类:if、and、or、is系列

计算统计类:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round

时间序列类:year、month、weekday、weeknum、day、date、now、today、datedif

搜索能力是掌握Excel的不二窍门,工作中的任何问题都是可以找到答案。

第二部分是Excel中的工具。

在「数据分析:Excel技巧大揭秘」教程,介绍了Excel最具性价比的几个技巧。包括数据透视表、格式转换、数组、条件格式、自定义下拉菜单等。正是这些工具,才让Excel在分析领域经久不衰。

在大数据量的处理上,微软提供了Power系列,它和Excel嵌套,能应付百万级别的数据处理,弥补了Excel的不足。

Excel需要反复练习,实战教程「数据分析:手把手教你Excel实战」,它通过网络上抓取的数据分析师薪资数据作为练习,总结各类函数的使用。

除了上述要点,下面是附加的知识点,铺平数据分析师以后的道路。

了解单元格格式,数据分析师会和各种数据类型打交道,包括各类timestamp,date,string,int,bigint,char,factor,float等。

了解数组,以及相关应用(excel的数组挺难用),Python和R也会涉及到 list,是核心概念之一。

了解函数,深入理解各种参数的作用。它会在学习Python中帮助到你。

了解中文编码,UTF8、GBK、ASCII,这是数据分析师的坑点之一。

第二part:数据可视化

数据分析界有一句经典名言,字不如表,表不如图。

数据可视化是分析的常用技巧之一,不少数据分析师的工作就是通过图表观察和监控数据。首先了解常用的图表:

Excel的图表可以100%绘制上面的图形,但这只是基础。

在「数据可视化:你想知道的经典图表全在这」中介绍了各类数据分析的经典图表,除了趋势图、直方图,还包括桑基图、空间图、热力图等额外的类型。

数据可视化不是图表的美化,而是呈现数据的逻辑之美,是揭示数据的内在关联。了解图表的维度和适用场景,比好看更重要。比如桑吉图就是我一直推崇的图表,它并不知名,但是它能清晰的揭露数据内在状态的变化和流向。案例是用户活跃状态的趋势。

Excel的图表操作很傻瓜化,其依旧能打造出一份功能强大的可视化报表。「数据可视化:教你打造升职加薪的报表」教给大家常用的Excel绘图技巧,包括配色选取,无用元素的剔除、辅助线的设立、复合图表等方法。

Excel图表的创造力是由人决定的,对数据的理解,观察和认知,以及对可视化的应用,这是一条很长的道路。

图表是单一的,当面板上绘制了多张图表,并且互相间有关联,我们常称之为Dashboard仪表盘。

上图就是用分析师薪资数据为数据源绘制的Dashboard,比单元格直观不少。我们常常把绘制这类Dashboard的工具叫做BI。

BI(商业智能)主要有两种用途。一种是利用BI制作自动化报表,数据类工作每天都会接触大量数据,并且需要整理汇总,这是一块很大的工作量。这部分工作完全可以交给BI自动化完成,从数据规整、建模到下载。

另外一种是使用其可视化功能进行分析,它提供比Excel更丰富的交互功能,操作简单,而且美观,如果大家每天作图需要两小时,BI能缩短大半。

在「数据可视化:手把手打造BI」教程中,以微软的PowerBI举例,教大家如何读取数据,规整和清洗数据,绘制图表以及建立Dashboard。最后的成果就是上文列举的分析师案例。

BI还有几个核心概念,包括OLAP,数据的联动,钻取,切片等,都是多维分析的技巧,也是分析的核心方法之一。

后续的进阶可视化,将和编程配合。因为编程能够提供更高效率和灵活的应用。而BI也是技术方向的工具,了解技术知识对应用大有帮助。

第三part:数据分析思维数据分析能力的高低,不以工具和技巧决定,而以分析思维决定。

在一场战争中,士兵装备再好的武装,进行再严苛的训练,若是冲锋的方向错了,那么迎接他们的唯有一败涂地。

分析思维决定一场「数据战争」中的冲锋方向。只有先养成正确的分析思维,才能使用好数据。

既然是思维,它就倾向于思考的方式,Excel函数学会了就是学会,分析则不同。大多数人的思维方式都依赖于生活和经验做出直觉性的判断,以「我觉得我认为」展开,好的数据分析首先要有结构化的思维。

麦肯锡是其中领域的佼佼者,创建了一系列分析框架和思维工具。最典型地莫过于金字塔思维。

这篇文章简述了该思维的应用,「快速掌握麦肯锡的分析思维」。你能学会结构化思考,MECE原则,假设先行,关键驱动等方法论。

除此以外,还有SMART、5W2H、SWOT、4P4C、六顶思考帽等,这些都是不同领域的框架。框架的经典在于,短时间内指导新人如何去思考,它未必是最好的,但一定是性价比最优的。数据分析思维,是分析思维的引申应用。再优秀的思考方式,都需要佐证和证明,数据就是派这个用处的,「不是我觉得,而是数据证明」。

现代管理学之父彼得·德鲁克说过一句很经典的话:如果你不能衡量它,那么你就不能有效增长它。如果把它应用在数据领域,就是:如果你不能用指标描述业务,那么你就无法有效增长它。每一位数据分析师都要有指标体系的概念,报表也好,BI也好,即使机器学习,也是围绕指标体系建立的。

下图就是一个典型的指标体系,描述了用户从关注产品、下载、乃至最后离开的整个环节。每一个环节,都有数据及指标以查询监控。

不同业务背景需要的指标体系不同,但有几个建立指标的通用准则。这篇文章深入介绍了「如何建立数据分析的思维框架」。你将区分什么是好指标、什么是坏指标、比率和比例、指标的结构、指标设立的维度等概念。

数据分析不是一个结果,而是一个过程。几乎所有的分析,最终目的都是增长业务。所以比分析思维更重要的是驱动思维落地,把它转化为成果。

数据分析思维是常年累月养成的习惯,一周时间很难训练出来,但这里有一个缩短时间的日常习惯。以生活中的问题出发做练习。

这家商场的人流量是多少?怎么预估?

上海地区的共享单车投放量是多少?怎么预估?

街边口的水果店,每天的销量和利润是多少?怎么预估?

这些开放性问题起源于咨询公司的训练方法,通过不断地练习,肯定能有效提高分析思维。另外就是刷各种CaseBook。

优秀的数据分析师会拷问别人的数据,而他本身的分析也经得起拷问。

第四part:数据库

Excel很容易遇到瓶颈,随着业务的发展,分析师接触的数据会越来越多。对大部分人的电脑,超过十万条数据,已经会影响性能。何况大数据时代就是不缺数据,这时候就需要学习数据库了。

即使非数据岗位,也有越来越多的产品和运营被要求使用SQL。

很多数据分析师戏称自己是跑SQL的,这间接说明SQL在数据分析中有多核心。从Excel到SQL绝对是处理效率的一大进步。

教程内容以MySQL为主,这是互联网行业的通用标准。其实语法差异不大的。

新手首先应该了解表的概念,表和Excel中的sheet类似。「写给新人的数据库指南」是一篇入门基础文章,包括表、ID索引、以及数据库的安装,数据导入等简单知识。

SQL的应用场景,均是围绕select展开。增删改、约束、索引、数据库范式均可以跳过。新手在「SQL,从入门到熟练」教程会学习到最常见的几个语法,select、where、group by、if、count/sum、having、order by、子查询以及各种常用函数。

数据还是分析师薪资数据,它可以和Excel实战篇结合看,不少原理都是相通的。

想要快速掌握,无非是大量的练习。大家可以在leetcode上做SQL相关的练习题,难度从简单到困难都有。「SQL,从熟练到掌握」教程中将会带领大家去刷一遍。

join对新手是一个很绕的概念,教程会从图例讲解,逐步提高难度。从一开始的join关联,到条件关联、空值匹配关联、子查询关联等。最后完成leetcode中的hard模式。

如果想要更进一步,可以学习row_number,substr,convert,contact等函数。不同数据平台的函数会有差异,例如Presto和phpMyAdmin。再想提高,就去了解Explain优化,了解SQL的工作原理,了解数据类型,了解IO。知道为什么union比or的效率快,这已经和不少程序员并驾齐驱。

第五part:统计学

很多数据分析师并不注重统计学基础。

比如产品的AB测试,如果相关人员不清楚置信度的含义和概念,那么好的效果能意味着好么?如果看待显著性?

比如运营一次活动,若不了解描述统计相关的概念,那么如何判别活动在数据上的效果?可别用平均数。

不了解统计学的数据分析师,往往是一个粗糙的分析师。如果你想要往机器学习发展,那么统计学更是需要掌握的基础。

统计知识会教大家以另一个角度看待数据。如果大家了解过《统计数据会撒谎》,那么就知道很多数据分析的决策并不牢靠。

在第一篇教程「解锁数据分析的正确姿势:描述统计」,会教给大家描述统计中的诸多变量,比如平均数、中位数、众数、分位数、标准差、方差。这些统计标准会让新手分析师从平均数这个不靠谱的泥潭中出来。

箱线图就是描述统计的大成者,好的分析师一定是惯用箱线图的常客。

第二篇「解锁数据分析的正确姿势:描述统计(2)」将会结合可视化,对数据的分布进行一个直观的概念讲解。很多特定的模型都有自有的数据分布图,掌握这些分布图对分析的益处不可同日而语。

直方图和箱线图一样,将会是长久伴随分析师的利器。

统计学的一大主要分支是概率论,概率是度量一件事发生的可能性,它是介于0到1之间的数值。很多事情,都可以用概率论解释,「概率论的入门指南」和「读了本文,你就懂了概率分布」都是对其的讲解。

包括贝叶斯公式、二项概率、泊松概率、正态分布等理论。理论不应用现实,那是无根之木,教程中会以运营活动最常见的抽奖概率为讲解,告诉大家怎么玩。

其实数据分析中,概率应用最广泛和最全面的知识点,就是假设检验,大名鼎鼎的AB测试就是基于它的。俗话说得好,再优秀的产品经理也跑不过一半AB测试。

何为假设检验?假设检验是对预设条件的估计,通过样本数据对假设的真伪进行判断。

产品改版了,用户究竟喜不喜欢?调研的评分下降了,这是用户的评价降低了,还是正常的数据波动呢?这些都是可以做假设检验的。它可以说是两面两篇文章的回顾和应用。

「数据分析必须懂的假设检验」依旧以互联网场景讲解各种统计技巧的应用。假设检验并不难,通过Excel的几个函数就能完成。它的难点在于诸多知识点和业务的结合使用,实际公式不需要掌握的多透彻,了解背后的意义更重要。

统计学是一个很广阔的领域,包括方差分析,时间序列等,都有各自不同的应用。大家若感兴趣,可以去阅读各类教材,没错,教材是学习统计学最优的方式。我这类文章堪堪算入门罢了。

第六part:业务

对于数据分析师来说,业务的了解比数据方法论更重要。举个例子,一家O2O配送公司发现在重庆地区,外卖员的送货效率低于其他城市,导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因,都没有找出来问题。后来在访谈中发觉,因为重庆是山城,路面高低落差比较夸张,很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。这个案例中,我们只知道送货员的送货水平距离,根本不知道垂直距离。这是数据的局限,也是只会看数据的分析师和接地气分析师的最大差异。业务形态千千万万,数据分析师往往难窥一二。我的公众号业务部分也涉及了不少,大家可以通过这几篇文章了解。

一篇文章读懂活跃数据;深入浅出,用户生命周期的运营;获取新增用户,运营都应该知道的事;运营的商业逻辑:CAC和CLV;从零开始,构建数据化运营体系;读懂用户运营体系:用户分层和分群,这些都是互联网运营相关的内容,或多或少涉及了不少业务方面的概念,数据分析人员可以选择性的挑选部分内容。了解业务的数据分析师在职场发展上会更加顺利。

而在「最用心的运营数据指标解读」中,我尝试总结了几个泛互联网领域的指标和业务模型,它们都是通用的框架。

产品运营模型:以移动端APP为主体,围绕AARRR准则搭建起数据框架。包括Acquisition用户获取、Activation用户活跃、Retention用户留存、Revenue营收、Refer传播,以及细分指标。

市场营销模型:以传统的市场营销方法论为基底,围绕用户的生命周期建立框架。包括用户生命周期,生命周期价值、用户忠诚指数、用户流失指数、用户RFM价值等。

流量模型:从早期的网站分析发展而来,以互联网的流量为核心。包括浏览量曝光率、病毒传播周期、用户分享率、停留时间、退出率跳出率等。

电商和消费模型:以商品的交易、零售、购买搭建而起。包括GMV、客单价、复购率、回购率、退货率、购物篮大小、进销存,也包含SKU、SPU等商品概念。

用户行为模型:通过用户在产品功能上的使用,获得精细的人群维度,以此作为分析模型。包括用户偏好、用户兴趣、用户响应率、用户画像、用户分层,还包含点赞评论浏览收藏等功能的相关指标。

除了上述的几个常见模型,数据分析还有其他分支。比如SEO/SEM,虽然可以归类到流量模型,但它并不简单。比如财务分析,商业的各种成本支出也需要专人负责。

在业务知识外,业务层面的沟通也很重要。业务线足够长的时候,沟通往往成为老大难的问题。

业务学习没有捷径,哪怕掌握了诸多模型,不同行业间的业务壁垒会是分析师们的门槛。金融的各类专有领域知识,电子商务不同产品的特性,这些都会影响到分析报告的质量。

在早期,新人最好选择一到两个领域深入了解其业务,然后以此拓展边界。

第七part:Python/R

第七周是最后的学习环节。

是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘、BI、爬虫、可视化报表都需要用到编程。掌握一门优秀的编程语言,可以让数据分析师升职加薪,迎娶白富美。数据分析领域最热门的两大语言是R和Python。R的优点是统计学家编写的,缺点也是统计学家编写。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。

Python则是万能的胶水语言,适用性强,可以将分析的过程脚本化。Pandas、Numpy、SKLearn等包也是非常丰富。

这里的教程以Python为主。

「开始Python的新手教程」将会教大家搭建数据分析环境,Anaconda是功能强大的数据科学工具。Python建议安装Python3+版本,不要选择Python2了。

Python的语法相当简洁,大家print出第一个hello world顶多半小时。就像在Excel上进行运算一样方便。

「开始Python的数据结构」介绍给大家Python的三类数据结构,列表list,元组tuple,以及字典dict。万变不离其宗,掌握这三种数据结构以及相对应的函数,足够应付80%的分析场景。函数式编程为Python一大特色,Python自身就提供不少丰富的函数。很多都和Excel的函数相通,掌握起来非常迅速。另外还有控制流,for、while、if,通常配合函数组合使用。

「了解和掌握Python的函数」教大家如何自定义函数,丰富的函数虽然能偷懒,但是不少场景下,还是需要自己动手撸一个。

能够调第三方包解决,就使用第三方的函数。如果是一个频繁使用的场景,而第三方依靠不了,就自己编一个函数。如果是临时性的场景,写得粗糙点也无所谓。毕竟分析师的代码能力不要求工程师那么严格,所以Python的学习尽量以应用为主,不用像分析师那么严格。

包、模块和类的概念属于进阶知识,不学也不要紧。

「Python的数据分析: numpy和pandas入门」介绍了数据分析师赖以生存的两个包,numpy和pandas,其他Python知识可以不扎实,这两个最好认真掌握。它是往后很多技能树的前置要求。

array,series,dataframe是numpy和pandas的三个数据结构,掌握它们,便算是入门了。后续的两篇教程都是实战。

「用pandas进行数据分析实战」以分析师的薪资作为实战数据。Excel、BI、SQL,一路走来,大家想必对它无比熟悉,这也是最后一次使用它了。教程通过Pandas的各类功能,绘制出一副词云图。

最后一篇教程,将结合以往的知识点,包括业务指标,可视化,描述统计学等内容。「用Python分析用户消费行为」,完成它,不说登堂入室,但也是一位合格的数据分析师了。

它使用某网站的用户消费数据,计算各类常见指标:用户的客单价、人均购买量、回购率、复购率、留存率、平均生命周期等,真正做到融会贯通。用一份数据报告作为毕业作品,也是七周系列最好的结业证书了。

对于没有技术基础的同学,第七part最吃力,但已经完成到这一步,不妨让自己咬咬牙学习下去。

最后

如果能够看完到这里的同学,相信你是对数据分析真正感兴趣的。


小A说职场


小白学习数据分析经常会遇到以下问题:


数据要从哪些渠道获取?

数据分析有什么方法论吗?

分析数据要用到哪些工具?

需要分析哪些数据?

要不要学习Excel?SQL?Python?


所以,在学习数据分析之前,你需要破解这几个误区:



1.堆砌数据不等于会数据分析

数据分析,数据和分析缺一不可,简单的数据堆砌没有任何价值。


2.学习数据分析需要已经有一定的计算机基础

不需要,有最基本的数学基础就行,从零开始学完全没问题。


3.数据分析不等于大数据分析

数据分析和大数据分析有很多差异,根本区别是分析的思维与分析所用工具的不同。数据分析可以说是通用技能,大数据分析则有一定门槛。


其实,数据分析的学习,也没那么简单,也没那么难。不要”唯数据论“,也不要“无视数据”,只有真正理解数据背后的价值所在,才能学好数据分析。


刺猬大学


总体来说,先学基础,再学理论,最后是工具

1、学习数据分析基础知识,包括概率论、数理统计

2、你的目标行业的相关理论知识。比如金融类的,要学习证券、银行、财务等各种知识。

3、学习数据分析工具,如sas、spss,甚至excel也可以(数据分析模块的功能很强大)

切记,第一步是必不可少的,是数据分析的基础。


清华文墨


推荐先从数据分析思维、分析方法选择、数据分析的应用开始学习,这样上手会非常快,而且循序渐进,最开始学习的时候也不会有太大压力。

对于学习而言,任何知识都是从零开始慢慢掌握起来的,所以不要有压力,统计学实际上并不是我们想象中那种难啃的“硬骨头”。其次,入门书的选择(或者说是选择学习思路更为恰当)还是比较重要的,一本易懂有趣实用的书籍就好比是一位风趣有料的名师,有了它就会大大提高初学者对这门学科的兴趣,对学科的理解也会提高一大步!正所谓好的开始是成功的一半。

下面是具体的学习方法:

在学习数据分析的过程中,建议大家学习数据分析的路径如下共三步曲:

一、基本统计概念掌握、数据类型的识别;二、研究方法的选择;三、研究的注意事项

第一步:统计基本概念及数据识别

了解基本统计名词概念,可有助于理解分析结果指标意义。

P值:显著性值或Sig值,描述某事情发生的概率

数据类型:是一切研究的基石,也是数据研究思维的最基本且最关键的思维。在这里我们把所有数据区分为两类,分别是定类和定量数据。

定类数据即是分类的意思,可以计算百分比;定量数据是指数字可以对比大小,因而可以进行平均值计算。如果有的数据同时可以计算百分比,也可以计算平均值,此时就结合实际研究情况,将其似着定类或者定量数据。

SPSSAU将数据分为两类,但在其它领域,或者学科时,数据类型的划分并不完全相同,而且称呼均不统一。这也给研究人员带来一定困惑,下表列出不同称呼时与这两类数据类型的对应关系。

称呼各不相同,但实际意义均一致,只需要理解一句话即“算百分比时叫定类数据,算平均值时叫定量数据”。

第二步:研究方法的选择

数据类型确认后,此时即可理解数据分析方法的选择。我们可以把任意变量间的关系看成X和Y的关系,除了区分数据类型,还要区分X和Y。比如性别和是否吸烟的关系,X是性别,Y为是否吸烟。X和Y均为定类数据。此时则应该选择“交叉卡方”分析。

  • 第一步即选对研究方法,即数据类型的识别。具体可参考:https://spssau.com/front/spssau/helps/basics/methodchoice.html
  • 第二步即结合研究目的,常见的研究目的包括:数据基本描述、影响关系研究、差异关系研究及其它关系。下表格列出研究目的与研究方法的对应关系。

各类分析的具体学习可以参考

https://spssau.com/front/spssau/help.html


第三步:研究注意事项

  • 数据正态性特质:很多研究方法都是基于正态性这一前提,如果不满足时则可能使用其它方法。
  • 数据编码、生成变量等数据处理功能的使用。很多研究方法使用之前,是需要进行数据处理。比如问卷研究中1个维度对应5个量表题,此时可以使用生成变量的平均值功能先得到一个概括性的变量。或者有的研究方法需要进行数据标准化处理等。

综上所述,如果可以区分数据类型,并且了解研究目的,则可以选择出科学的研究方法进行研究。具体每个研究方法详细分析建议,也可以参考SPSSAU的智能分析。


spssau


很高兴回答您的问题。

作为一个数据分析师,结合工作我谈谈我自己的看法。

首先,做数据分析首先得学习数据库,比较数据是最基本的资源。

其次,是数据分析相关的理论,为建模或者进行进一步分析打基础。代数和统计知识要求较高。

再次,学习各种软件。Excel是最最最基本的工具,各种函数、插件的学习;SPSS、R至少掌握一种吧,个人认为SPSS更容易上手,当然每个行业有自己相对认可的工具;Python建议掌握,很强大的工具,清洗数据、建模、可视化、爬虫等等都可以完成。最后建议掌握一个可视化软件比如Tableau。当然分析完需要写报告,不管文字功底、概括能力、审美能力,都是有要求的。

最后,模型学习,这个没的说,要知道每个模型是用来干什么,比如决策树做画像是经常会用到的。

特别想说一点,数据分析不能只看数据,还要相对了解业务,脱离业务的数据分析什么都不是。

希望对您有帮助。



数据分析的漫漫路


高效的学习。把数据分析的那几个公式背熟。能熟练应用就可以了。


分享到:


相關文章: