原始数据通常来自各种文本文档：结构化文档（HTML、XML、CSV和JSON文件）或非结构化文档（简单的、人类可读的文本）。事实上，非结构化文本可能是最难处理的数据源，因为处理软件必须推断出数据项的含义。

值得庆幸的是，Anaconda提供了几个优秀的模块：BeautifulSoup、csv、json和nltk：使原本枯燥的文本分析工作变得令人兴奋。【如无必要，勿增实体】，我们应该避免重新发明已经存在的工具。

本章通过简单的结构化数据开启文本数据处理的学习。然后，你将了解如何通过自然语言处理技术，向非结构化文本添加某些结构。

使用文本数据

results matching ""