安装NLTK和下载语料库 - python学习教程_python基础教程_ python培训

要想使用NLTK库处理自然语言，前提是需要先安装。这里，我们既可以在终端使用pip命令直接安装，也可以在Jupyter Notebook中直接使用。以前者为例，打开终端键入如下命令安装NLTK库：

>>> pip install -U nltk

安装完以后，在终端中启动Python，然后键入如下命令测试是否安装成功：

>>> import nltk

按下回车键，如果程序中没有提示任何错误的信息，则表示成功安装，否则表示安装失败。值得一提的是，Anaconda中默认已经安装了NLTK库（但是没有安装语料库），可以用import导入使用，无需再另行安装。

NLTK库中附带了许多语料库（指经科学取样和加工的大规模电子文本库）、玩具语法、训练模型等，完整的信息发布在http://nltk.org/nltk_data/网上。如果希望在计算机上安装单独的数据包，或者是下载全部的数据包，则需要在Jupyter Notebook（或者管理员账户）中执行以下操作：

In [1]: import nltk
        nltk.download()  # 打开NLTK下载器
Out[1]: True

此时，打开了一个NLTK Downloader窗口，如图1所示。

图1 打开NLTK Downloader窗口

图1的窗口中包含以下选项：

(1) Collections：集合。

(2) Corpora：语料库。

(3) Models：模型。

(4) All Packages：所有包。

如果希望集中安装所有的选项，则需要单击【File】->【Change Download Directory】选择更新下载目录，这时图1中 “Download Directory”对应的文本框处于可编辑状态，将其设置为C:\nltk_data（Windows），然后单击【File】->【Download】开始下载，直至所有选项安装完成，这个过程需要等待的时间稍微有点长。

注意：

如果没有将数据包安装到上述位置，则需要设置NLTK_DATA环境变量以指定数据的位置。

如果只是想单独安装某个库或模型等，比如brown语料库，则可以单击图1中的【Corpora】选项，从列表中选中“brown”，然后单击左下方的【Download】按钮进行下载。

下载完以后，可以测试语料库是否下载成功，可以按照如下方式进行检测（假设下载了布朗语料库）：

In [2]: from nltk.corpus import brown    # 导入brown语料库
        brown.words()             # 查看brown库中所有的单词
Out[2]: ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

上述示例中输出了brown语料库中所有的单词，表明下载成功。

还可以通过categories()函数查看brown中包含的类别，示例代码如下。

In [3]: brown.categories()
Out[3]: ['adventure', 'belles_lettres', 'editorial', 'fiction',
      'government', 'hobbies', 'humor', 'learned', 'lore',
        'mystery', 'news', 'religion', 'reviews',
      'romance', 'science_fiction']

此外，还可以查看brown语料库中包含的单词或句子的总个数，示例代码如下。

In [4]: 'brown中一共有{}个句子'.format(len(brown.sents()))
Out[4]: 'brown中一共有57340个句子'
In [5]: 'brown中一共有{}个单词'.format(len(brown.words()))
Out[5]: 'brown中一共有1161192个单词'