数据获取涉及获得包含来自各种输入器件的数据源、从器件中提取数据,以及将其转换为适于进一步处理的表示方式。
数据的三个主要来源是:因特网、数据库、以及本地文件。某些本地文件可能是通过Python程序生成,包括序列化的【pickled】数据。
数据格式多种多样:
- 自然语言的非机构化纯文本(比如英文、汉文)
- 数据库中的表格数据
- 使用超文本标记语言(HTML)或更一般的可扩展标记语言(XML)的标记数据
- JavaScript对象表示法(JSON)中的标记数据
自动化数据处理流程(获取、清洗和变换原始数据、描述性和探索性数据分析、数据建模和预测)自然产生了可重用的代码:任何人都可以执行的Python脚本。这些脚本可以将原始数据转换为报告中描述的最终结果;在理想情况下,这一过程不需要任何额外的人机交互。其他研究人员能使用可重用的代码对模型和结果进行验证,并应用你开发的程序解决他们遇到的问题。