学科分类
目录
数据分析

安装NLTK和下载语料库

要想使用NLTK库处理自然语言,前提是需要先安装。这里,我们既可以在终端使用pip命令直接安装,也可以在Jupyter Notebook中直接使用。以前者为例,打开终端键入如下命令安装NLTK库:

>>> pip install -U nltk

安装完以后,在终端中启动Python,然后键入如下命令测试是否安装成功:

>>> import nltk

按下回车键,如果程序中没有提示任何错误的信息,则表示成功安装,否则表示安装失败。值得一提的是,Anaconda中默认已经安装了NLTK库(但是没有安装语料库),可以用import导入使用,无需再另行安装。

NLTK库中附带了许多语料库(指经科学取样和加工的大规模电子文本库)、玩具语法、训练模型等,完整的信息发布在http://nltk.org/nltk_data/网上。如果希望在计算机上安装单独的数据包,或者是下载全部的数据包,则需要在Jupyter Notebook(或者管理员账户)中执行以下操作:

In [1]: import nltk
        nltk.download()  # 打开NLTK下载器
Out[1]: True

此时,打开了一个NLTK Downloader窗口,如图1所示。

img

图1 打开NLTK Downloader窗口

图1的窗口中包含以下选项:

(1) Collections:集合。

(2) Corpora:语料库。

(3) Models:模型。

(4) All Packages:所有包。

如果希望集中安装所有的选项,则需要单击【File】->【Change Download Directory】选择更新下载目录,这时图1中 “Download Directory”对应的文本框处于可编辑状态,将其设置为C:\nltk_data(Windows),然后单击【File】->【Download】开始下载,直至所有选项安装完成,这个过程需要等待的时间稍微有点长。

注意:

如果没有将数据包安装到上述位置,则需要设置NLTK_DATA环境变量以指定数据的位置。

如果只是想单独安装某个库或模型等,比如brown语料库,则可以单击图1中的【Corpora】选项,从列表中选中“brown”,然后单击左下方的【Download】按钮进行下载。

下载完以后,可以测试语料库是否下载成功,可以按照如下方式进行检测(假设下载了布朗语料库):

In [2]: from nltk.corpus import brown    # 导入brown语料库
        brown.words()             # 查看brown库中所有的单词
Out[2]: ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

上述示例中输出了brown语料库中所有的单词,表明下载成功。

还可以通过categories()函数查看brown中包含的类别,示例代码如下。

In [3]: brown.categories()
Out[3]: ['adventure', 'belles_lettres', 'editorial', 'fiction',
​      'government', 'hobbies', 'humor', 'learned', 'lore',
        'mystery', 'news', 'religion', 'reviews',
​      'romance', 'science_fiction']

此外,还可以查看brown语料库中包含的单词或句子的总个数,示例代码如下。

In [4]: 'brown中一共有{}个句子'.format(len(brown.sents()))
Out[4]: 'brown中一共有57340个句子'
In [5]: 'brown中一共有{}个单词'.format(len(brown.words()))
Out[5]: 'brown中一共有1161192个单词'
点击此处
隐藏目录