本文来跟大家聊聊关于数据分析工具的事儿。

市面上用来做数据分析的工具蛮多的,包括Python、Excel、SPSS、MATLAB、R、BI等等,以下挑几个比较主流的工具,尽量客观的聊聊他们的优缺点。


01 Microsoft Excel

想要了解如何用Excel做数据分析的伙伴,可以去看这篇:

怎样用 Excel 做数据分析?

 

02 Python

虽说Python是一种面向对象、解释型计算机程序设计语言,本身的数据分析功能并不强,但它是开源而且免费的。

Python的“平台模式”带来了大量的充满热情的用户,用户越多,软件的生命力就越强,发展也越快,这可以看作是软件生态的“人口红利”。

优点:

  • 开源且免费
  • 当下最热门的数据分析工具,用户多经验多,寻求帮助也容易很多
  • 拥有强大的分析库
  • 爬虫能力特别优秀,适合做网络数据采集
  • “即使不懂原理也能调用复杂高级算法”
  • 相对比较友善,对于想写几行代码的非专业人士是比较好的选择

缺点:

emmm......在我看来Python并没有什么大的缺点。像哪些版本兼容问题、内存消耗大等都不算是大的问题。如果要从技术上来说:

  • 由于Python的各类工具过于强大,很多时候一个算法可以在好几个库里找到函数,然后就容易把自己搞晕
  • 毕竟不是鼠标点点菜单就能生成分析结果的界面式工具,还是要一行行敲代码的,或多或少有一点技术要求。

如果想要寻求那种简单拖拉拽两下就能能生成分析结果的界面式工具,可以往下看。

找了一份Python学习框架,有需要的可以参考一下:

 

03 R

R和Python都属于“平台模式”——来自世界各地的开发者都可以贡献自己开发的工具包。但R语言更像是综合性较强的一类数据分析工具。

江湖传言,“会用R是成为一名成熟的数据分析师的重要标志。”因为只要入了门,R的功能就能很大程度地帮助使用者实现各种数据分析需求。

优点:

  • 依然是免费且开源
  • 专业,专业,专业,科研前沿的大神用R的比用Python更多
  • 各行各业有专业的工具库,模块十分齐全
  • 界面能力很不错
  • 灵活性很强,甩SPSS好几条街

缺点:

  • 专业度高,学习难度也高
  • 对数学基础有一定要求,所以像我这种文科出身,看到算法就头疼的,不太建议
  • 因为R语言是开源的,谁都可以上传数据包,如果分不清可能用到不靠谱的数据包

对于没有数学和编程基础的新手小白,不建议从R入手,容易变成入门到放弃。

                                                                  图源网络,侵删

分享几个学习资料:

Python

  1. Python基础编程,Magnus Lie Hetland;
  2. 像计算机科学家一样思考Python,Allen B. Downey;
  3. 官方文档,包括其他常用数据分析module的官方文档(很多教程就是根据官方文档改编过来的);

R

  1. R语言实战,Robert I. Kabacoff
  2. Advanced R,Hadley Wickham
  3. Cran Task Views: https://cran.r-project.org/web/views/

 

04 BI

严格来说,BI并不完全等于数据分析,BI与数据分析是有共同交集的两个领域。数据分析是BI的一个重要组成部分,BI是数据分析的一个典型应用。

BI是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。数据仓库、报表查询、数据分析、数据挖掘、数据可视化等。

像题主所说的帆软BI工具,数据透视、图表制作这些功能都是封装好的,可以直接拿来套用,整个过程就是连数据,设计模板, web展示。图表是内设好的或者开发对接Hcharts/Echarts/D3图标库。

如果仅仅是做日常业务的数据分析,直接用模板套其实也完全够用了,比如这种:仪表盘模板

优点:

  • 成本相对更低
  • 兼容性强,支持多种数据源
  • 可视化大屏易在观感上给人留下震撼印象,便于营造某些独特氛围、打造仪式感
  • 响应速度更快,能处理的数据量也很大

缺点:

这种自助式数据分析虽然也是需要一定的学习时间成本,但相比上面其他数据分析工具来说,整个上手过程还是比较快的,所以这点我可以接受。

 

05 MATLAB

Matlab是一个商业数学软件,在数值计算方面首屈一指。随着里面各种库的扩展,它在图像处理、信号处理、量化金融、工程仿真等方面都优秀到了让人忘记这是个数学软件。

优点:

  • 特别适合图像类的数据分析,工具库全,计算快,展示还好看;
  • 也有人工智能、神经网络什么的工具库可以调用;
  • 在工程方面的分析分析优秀,特别是结合Simulink进行仿真,那是真的效果飞起;
  • MATLAB语法比Python更加灵活一些,编程难度也还行,中等吧,不算很复杂,偏C,但更简单。

缺点:

  • 最大的不足就是贵,是真的很贵,反正我是买不起。
  • MATLAB太庞大了,基本包的安装就要占用10G,对于我这电脑总共才128G,平时多余空间就很少多余10个G的普通人,不太友善;
  • MATLAB是面向对象语言,入门难度不高,但要学精还是小有难度的。

 

06 SPSS

SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。

SPSS既可以像Excel一样鼠标点一点菜单就出结果,也能想Python一样通过编程出结果,老少皆宜。

优点:

  • SPSS的数据接口比较好,特别是和Excel的兼容性较好,基本上一看就懂怎么用;
  • 内置算法国际认可度比较高,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,;
  • 内置丰富的统计分析方法,适用于统计分析类的数据分析。

缺点:

  • 想读透SPSS给出的分析结果,需要比较扎实的统计学知识;
  • SPSS虽然结果可以直接输出图形,但样式比较有限,相对于MATLAB数据可视化能力较弱;
  • 基本上只能用于结构化数据分析,对于图形、视频分析、文本数据,力不从心;
  • SPSS也是收费的,至于多少钱就不清楚了,个人长期用的是试用

 

不管是Python、Excel、SPSS、SAS、MATLAB、hadoop、R等等,至少熟练使用一到两个,了解一两个,并知道每个的最适合使用场景就好了。至于怎么用,万事不懂问百度,要不就谷歌也行,如果要熟悉某个工具,最好就是多逛逛技术论坛,多拿项目练练

以上。


参考资料:cxd1301《数据分析用什么工具好》