根据经验,所有潜在的可用数据中,约80%的数据是非结构化的,其中包括音频、视频、图像和用自然语言编写的文本。自然语言中的文本没有标签、分隔符和数据类型,但它仍然是丰富的信息源。有时候我们想要知道某些词是否出现在文本中及出现的频率(词句标记),文本属于什么类别(文本分类),它传达了正面的还是负面的消息(情感分析),文本中提到的人和物(实物提取),等等。如果只是一两个文本,我们尚且可以靠肉眼来读取和处理,但对于大规模的文本分析,就必须借助于自然语言处理(NLP)。

Python的nltk模块(自然语言功能工具包)中实现了很多NLP的功能。该模块围绕语料库(字词和表达式的集合)、函数和算法进行组织。

results matching ""

    No results matching ""