根据经验，所有潜在的可用数据中，约80%的数据是非结构化的，其中包括音频、视频、图像和用自然语言编写的文本。自然语言中的文本没有标签、分隔符和数据类型，但它仍然是丰富的信息源。有时候我们想要知道某些词是否出现在文本中及出现的频率（词句标记），文本属于什么类别（文本分类），它传达了正面的还是负面的消息（情感分析），文本中提到的人和物（实物提取），等等。如果只是一两个文本，我们尚且可以靠肉眼来读取和处理，但对于大规模的文本分析，就必须借助于自然语言处理（NLP）。

Python的nltk模块（自然语言功能工具包）中实现了很多NLP的功能。该模块围绕语料库（字词和表达式的集合）、函数和算法进行组织。

处理自然语言中的文本

results matching ""

No results matching ""