安装NLTK和下载语料库
要想使用NLTK库处理自然语言,前提是需要先安装。这里,我们既可以在终端使用pip命令直接安装,也可以在Jupyter Notebook中直接使用。以前者为例,打开终端键入如下命令安装NLTK库:
>>> pip install -U nltk
安装完以后,在终端中启动Python,然后键入如下命令测试是否安装成功:
>>> import nltk
按下回车键,如果程序中没有提示任何错误的信息,则表示成功安装,否则表示安装失败。值得一提的是,Anaconda中默认已经安装了NLTK库(但是没有安装语料库),可以用import导入使用,无需再另行安装。
NLTK库中附带了许多语料库(指经科学取样和加工的大规模电子文本库)、玩具语法、训练模型等,完整的信息发布在http://nltk.org/nltk_data/
网上。如果希望在计算机上安装单独的数据包,或者是下载全部的数据包,则需要在Jupyter Notebook(或者管理员账户)中执行以下操作:
In [1]: import nltk
nltk.download() # 打开NLTK下载器
Out[1]: True
此时,打开了一个NLTK Downloader窗口,如图1所示。
图1 打开NLTK Downloader窗口
图1的窗口中包含以下选项:
(1) Collections:集合。
(2) Corpora:语料库。
(3) Models:模型。
(4) All Packages:所有包。
如果希望集中安装所有的选项,则需要单击【File】->【Change Download Directory】选择更新下载目录,这时图1中 “Download Directory”对应的文本框处于可编辑状态,将其设置为C:\nltk_data(Windows),然后单击【File】->【Download】开始下载,直至所有选项安装完成,这个过程需要等待的时间稍微有点长。
注意:
如果没有将数据包安装到上述位置,则需要设置NLTK_DATA环境变量以指定数据的位置。
如果只是想单独安装某个库或模型等,比如brown语料库,则可以单击图1中的【Corpora】选项,从列表中选中“brown”,然后单击左下方的【Download】按钮进行下载。
下载完以后,可以测试语料库是否下载成功,可以按照如下方式进行检测(假设下载了布朗语料库):
In [2]: from nltk.corpus import brown # 导入brown语料库
brown.words() # 查看brown库中所有的单词
Out[2]: ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
上述示例中输出了brown语料库中所有的单词,表明下载成功。
还可以通过categories()函数查看brown中包含的类别,示例代码如下。
In [3]: brown.categories()
Out[3]: ['adventure', 'belles_lettres', 'editorial', 'fiction',
'government', 'hobbies', 'humor', 'learned', 'lore',
'mystery', 'news', 'religion', 'reviews',
'romance', 'science_fiction']
此外,还可以查看brown语料库中包含的单词或句子的总个数,示例代码如下。
In [4]: 'brown中一共有{}个句子'.format(len(brown.sents()))
Out[4]: 'brown中一共有57340个句子'
In [5]: 'brown中一共有{}个单词'.format(len(brown.words()))
Out[5]: 'brown中一共有1161192个单词'