相信你对数据科学已经有一些了解,不过我们还是可以回顾一下。

数据科学是从数据中提取知识的学科。它依赖于计算机科学(数据结构、算法、可视化、大数据支持和通用编程)、统计学(回归推理),以及领域知识(用于提问和解释成果)。

传统意义是哪个的数据科学涵盖多种不同主题,有些你可能已经熟悉,而这些是你将在本书中遇到的:

  • 数据库

提供信息的存储和集成。

  • 文本分析和自然语言处理

让我们可以通过将定性文本转化成定量变量,实现【用文字计算】

  • 数值数据分析和数据挖掘

可搜索出变量之间的不变性和相互关系、

  • 复杂网络分析

其实并不复杂,所谓复杂网络,是指任意互连实体的集合。

  • 数据可视化

不仅富有美感,而且非常实用。尤其是当你想说服数据赞助商再次提提供赞助时,一图胜千言。

  • 机器学习

包括聚类、决策树、分类和神经网络,试图让计算机学会【思考】,并根据样本数据进行预测。

  • 时间序列处理(数字信号处理)

是股市分析师、经济学家已经音频和视频领域的研究人员不可或缺的工具。

  • 大数据分析

通常指对频繁生成和获取的大于1TB的非结构化数据(文本、音频、视频)进行分析。

不论针对哪种分析类型,数据科学首先是科学,然后才是魔法。因此,它是一个严格遵循以数据采集为起点,以结果报告为终点的基本处理过程。你讲了解数据科学的基本过程,包括:常见数据分析研究的步骤、数据的获取来源,已经常见项目报告的结构。

results matching ""

    No results matching ""