相信你对数据科学已经有一些了解,不过我们还是可以回顾一下。
数据科学是从数据中提取知识的学科。它依赖于计算机科学(数据结构、算法、可视化、大数据支持和通用编程)、统计学(回归推理),以及领域知识(用于提问和解释成果)。
传统意义是哪个的数据科学涵盖多种不同主题,有些你可能已经熟悉,而这些是你将在本书中遇到的:
- 数据库
提供信息的存储和集成。
- 文本分析和自然语言处理
让我们可以通过将定性文本转化成定量变量,实现【用文字计算】
- 数值数据分析和数据挖掘
可搜索出变量之间的不变性和相互关系、
- 复杂网络分析
其实并不复杂,所谓复杂网络,是指任意互连实体的集合。
- 数据可视化
不仅富有美感,而且非常实用。尤其是当你想说服数据赞助商再次提提供赞助时,一图胜千言。
- 机器学习
包括聚类、决策树、分类和神经网络,试图让计算机学会【思考】,并根据样本数据进行预测。
- 时间序列处理(数字信号处理)
是股市分析师、经济学家已经音频和视频领域的研究人员不可或缺的工具。
- 大数据分析
通常指对频繁生成和获取的大于1TB的非结构化数据(文本、音频、视频)进行分析。
不论针对哪种分析类型,数据科学首先是科学,然后才是魔法。因此,它是一个严格遵循以数据采集为起点,以结果报告为终点的基本处理过程。你讲了解数据科学的基本过程,包括:常见数据分析研究的步骤、数据的获取来源,已经常见项目报告的结构。