原始数据通常来自各种文本文档:结构化文档(HTML、XML、CSV和JSON文件)或非结构化文档(简单的、人类可读的文本)。事实上,非结构化文本可能是最难处理的数据源,因为处理软件必须推断出数据项的含义。

值得庆幸的是,Anaconda提供了几个优秀的模块:BeautifulSoup、csv、json和nltk:使原本枯燥的文本分析工作变得令人兴奋。【如无必要,勿增实体】,我们应该避免重新发明已经存在的工具。

本章通过简单的结构化数据开启文本数据处理的学习。然后,你将了解如何通过自然语言处理技术,向非结构化文本添加某些结构。

results matching ""

    No results matching ""