今天收到一条派友的评论说想学数据分析,那就正好分享一下我之前帮助公司业务团队整理过的一份数据分析的学习文档。

在我第一篇文章里面我也说过,“数据分析从来都不是数据分析师的专属能力;市场、运营、产品等大量接触数据的人员,都需要有一定数分能力”

希望今天这篇文章能帮助大家快速入门数据分析。

 

很多数据分析学习的攻略一上来就放上大量经典书籍、网站教程,甚至一些付费课程。

这些确实能够为初学者减少很多资源筛选的时间。

但对于很多小白来说是目标缺失的,每一部分学完能做什么,如何应用,才是最大的问题。

所以并不建议一上来就啃书,尤其是业余时间的碎片化学习

小白学习数据分析的路径整体可以分为两大块儿:

学习数据分析的基础方法和工具

培养数据分析思维和习惯


第一部分:学习基础方法和工具

第一步:选取数据集

先找一个数据集,自己摸索着折腾起来。

尽量找工作中或学习中现成的数据,比如用户数据、销售数据、产品数据等等,因为这些数据跟你的认知高度相关,能让学习更加有针对性。

如果没有这样的数据资源,也可以找一些网上的公开数据集,推荐几个有我平常会用到的数据平台。

百度指数:百度旗下/以百度网民行为数据为基础的数据分享平台,支持查询需求图谱

艾瑞网:艾瑞旗下/支持查看较新的数据报告,主研究网络媒体、电子商务、网络游戏等新经济领域。

UCI:加州大学欧文分校开放的经典数据集,强烈建议前期数据集缺乏并且不想花太多时间去找的情况下用这里面的数据。

中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息。

有了这些数据后,就可以进行一些初步的探索尝试了:

  • 清洗数据

很多时候我们拿到的数据是不干净的,有重复、缺失、异常值等问题,需要进行数据清洗。把这些影响分析的数据处理好,才能获得更加精确地分析结果。

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

比如类似于这种最简单的数据监测,可能会出现一些数据由于设备的原因没有监测到,或者数据记录重复,数据监测无效等等,就需要进行数据预处理。

不同情况要用不同的方法处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全?这都是需要考虑的问题。

对于数据预处理,如果是专业数据分析师,通常用到的是pandas数据分析库(非专业人员可以不看pandas这部分)

Pandas,python+data+analysis的组合缩写,是python中基于numpy和matplotlib的第三方数据分析库,与后两者共同构成了python数据分析的基础工具包,享有数分三剑客之名。

网上有很多pandas的教程,都是比较简单的,也可以直接参考pandas操作的官方文档。

http://pandas.pydata.org/pandas-docs/stable/tutorials.html

当然,如果你是业余学习,不会代码的情况下,那么最简单的工具就是Excel,基础的数据清洗工作基本也能实现,但如果是大数据量的处理,Excel的弊端就很多了,此时BI工具和零代码的数据分析工具就很值得学一学了。

我个人用的主要是FineBI 和 简道云,BI工具的门槛相对高一些,需要下载,也还是需要掌握一些建模逻辑,适合有数据分析思维的业务岗人员,我们公司一些运营、市场同事会自己做基础分析。

简道云这种零代码的数据工具则更适合小白数据分析人员,不需要下载,直接在网页上就能做分析操作,也能对数据进行灵活的加减乘除、增删改查,以及跨表间的数据处理和关联。

  • 把数据可视化

筛选出有用的数据后,就需要“把数据可视化”,即把数据用可视化的图表描述出来,最基础的就是 Excel。

比如我要分析项目A的系统进展情况,我拿到了这样一张数据Excel表格:

然后用Excel将表格转换成一个简单的堆积柱形图:

再用自己所学的Excel知识,将这张图表绘制成一张更加专业的【甘特图】:

​注:甘特图是一种项目管理图表,它通过条状图来显示项目进度、进展情况

通过这张甘特图,我就可以清晰的知道项目A目前的进展如何,还有哪些工作没有做,已经做了哪些工作,时间进度是快了还是慢了。

建议先去了解一些基本图表的用法,比如常见的条形图、折线图(散点图)、扇形图等,下面是几种工作中常用到的数据分析图表:

这些图做起来并不难,嫌麻烦的也可以直接找模板套数据,跟着做很容易上手,主要是记住具体的函数、公式的使用方式,多练习一下就可以了。

不过和数据处理一样,Excel在面临大数据量以及相对复杂的数据可视化时,会比较麻烦,所以我更建议还是使用数据可视化工具,会更快一些,像刚刚提到的简道云、FineBI,还有花火数据、echart等等工具,都很容易就帮助你做一张非常好看的数据可视化的图表。

这就是我用简道云帮助公司搭建的一个生产监控看板,我把数据脱敏过做成了可以修改编辑的模板分享给大家,大家可以感受一下:点击查看模板

 


第二步:进行数据分析

画几个图虽然简单,但这还远远不够,在画图的过程中,需要真正去做一些思考,从这些可视化的图表中,能够发现哪些规律,并尝试输出一些简单的结论和报告。

  • 借助统计学原理分析

到这一步就可以看书了,这里我推荐一本易入门的统计学书籍

《深入浅出统计学》

号称“文科生也能看懂”的统计学书,阅读起来相当容易,一口气就能看完。

“HeadFirst类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。”

这本书所讲的知识在数据分析中都是常见且必须掌握的,比如基本的统计量,基本上每个分析项目中都会用到;

比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,都是关于数据分析的统计学知识。

在具体的数据分析中,主要用到统计方面的以下知识,在看书的时候要重点学习:

基本的统计量:均值、中位数、众数、方差、标准差、百分位数等;

概率分布:几何分布、二项分布、泊松分布、正态分布等;

总体和样本:了解基本概念,抽样的概念;

置信区间与假设检验:如何进行验证分析; 相关性与回归分析:一般数据分析的基本模型。

学到的这些知识点该怎么用,比如:

通过基本的统计量,可以进行更多元化的可视化,以实现更加精细化的数据分析。

有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析。

通过应用假设检验的方法,可以对一些感性的假设做出更加精确的检验

利用回归分析的方法,可以对未来的一些数据、缺失的数据做基本的预测

......

了解统计学的原理之后,也不一定就能够通过工具实现,需要去对应的找网上找相关的实现方法。也可以看书,推荐一本非常简单的:

《深入浅出数据分析》

数据分析入门第一本,通俗简单,能够让你对数据分析的相关概念有大致的了解。这本书蕴含的思想逻辑和分析原则,要好好体会,会对你以后的学习有很大的帮助。

这本书和上面的《深入浅出统计学》配套着看,认真看完,你就可以完成数据分析从0-1的知识沉淀了。

  • Python分析法

python中有很多优秀的数据分析的库,比如numpy、scipy、scikit-learn,可以去找一些教程来看看,如何通过这些库实现数据分析。

搞清楚最常用的方法,结合实际的数据集进行练习。并不常用的方法,可以在遇到具体问题时,再去点对点查阅相关的文档。

前期并不建议追求各种高深的技巧,主要去熟悉最基本的用法,毕竟基本的才是最常用到的,常用的方法已经可以解决绝大部分初级阶段的数据分析问题。

比如利用回归分析(线性回归、逻辑回归),就可以实现很多的预测型的数据分析,对未来的数据进行预测。

网上有很多这类教程,我整理出了几个比较高质量的:

Python全套链接:https://pan.baidu.com/s/1WD07mjqpFa2Stn2Nw8xnZA

提取码:d5l7

也可以去看书,书单我列在最后了。

  • SQL分析法

在应对万以内的数据的时候,Excel对于一般的分析没有问题。一旦数据量大,就会力不从心,打开文件都会是个问题。

SQL是具有数据操纵和数据定义等多种功能的数据库语言,为海量数据的存储与管理提供可能,能够使数据的提取的效率大大提升。

你需要掌握以下技能:

提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,需要提取你需要的那一部分。

数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以只需要记住命令就好。

数据的分组聚合、建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在处理多维度、多个数据集的时候非常有用。

可以自行去搜索网上SQL教程进行学习,不同数据库的SQL语句略有差别,但大致通用,本处推荐:

《SQL语句大全》https://wenku.baidu.com/view/aed9f73e03d8ce2f00662389.html(常用语句讲解)

学习教程:https://t6ixa9nyl6.jiandaoyun.com/sharedoc/3BVUV4wwC1iKmL2b3rJiEN

在线SQL的学习与练习

学习练习网站:http://xuesql.cn/lesson/introduction

当然如果面对的是不那么大的数据,pandas等工具已经够你用了,那也可以暂时不了解SQL这一块相对独立的知识。


第二部分:培养数据分析思维和习惯

培养数据分析思维,可以从以下三个方面入手:

日常应用中锻炼

查看行业分析报告

参考优秀数据分析师的思维角度

​1.日常应用中锻炼

在日常应用中锻炼又可以拆分为对业务本身的理解和培养对数据的感觉两个方向。

  • 对业务本身的理解

如果对业务本身有一定了解,你就会知道在这个业务层面上,那些是核心业务、重要业务,那么你在数据思维的养成方面会更加有优势,知道哪些因素、数据是相对重要的。

  • 培养对数据的感觉

开始的时候,可能考虑的问题不是很周全,但随着经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度。

所以在日常应用中要多锻炼,多实践。比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测,都可以尝试着去分析。

2、查看行业分析报告

也可以看看行业的分析报告,我之前整理过40+个数据报告平台,一些主流行业都会有自己相对较为权威的数据平台,网上搜一下很多

3、参考优秀分析师的思维角度

也可以学习优秀的分析师看待问题的角度和分析问题的维度,参考这些维度去进行分析,按照选取——模仿——超越的方式去总结尝试。总结的多了,你会发现,这并不是一件困难的事情。


最后,给大家推荐几本循序渐进的书籍和课程。

一、入门必看,不需要会编程系列

除了上面提到的《深入浅出统计学》和《深入浅出数据分析》,再加一本:

《赤裸裸的统计学》

这本书是结合生活讲解统计知识,生动有趣。从作者自身的生活经历讲述他与统计学的故事。处处见得统计学在生活中的智慧。

“可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。”

二、进阶:数据变多,不学编程搞不定系列

数据分析领域的三把数据库利器:R语言、Python、SQL

1、《R语言实战》

如果要用R语言做数据分析,建议读完《深入浅出数据分析》之后,就开始读这本。从工具的安装,到具体分析方法在R语言中的实现,讲解详细,可操作性极强,是一本非常值得读的数据分析书。

2、《利用Python进行数据分析》

最经典的数据分析书之一,其中梳理介绍的pandas、Numpy、matplotlib 等库,应对一般的数据分析,完全足够。

3、《MySQL必知必会》

企业的数据,多是以数据库的形式存储起来的,那么如果你要去调用你想要的那部分数据,SQL就是必须的技能。MySQL本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。

三、高阶:数据思维高度训练系列

1、《精益数据分析》

“此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。”

书中并没有讲到具体的数据分析技术,主要分析了各种产品中用到的指标、模型和“数据驱动型产品”的一些思路。

2、《数据科学实战》

“对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑地过渡到机器学习和数据挖掘,这本书我认为是这方面做的最好的一本。”

这本书是数据分析和机器学习之间的桥梁。从探索性的数据分析,引出了机器学习的基本算法:回归分析、k近邻、k均值,并介绍了不同应用场景中最常见的机器学习算法。

3、《决战大数据》

阿里巴巴前数据副总裁车品觉所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。

最后,给大家把上述提到的除书籍外所有的学习资料整理起来了,戳链接自取:

https://t6ixa9nyl6.jiandaoyun.com/sharedoc/3BVUV4wwC1iKmL2b3rJiEN