昆明冶金高等专科学校学报 ›› 2015, Vol. 31 ›› Issue (5): 65-69.DOI: 10. 3969/j. issn. 1009—0479.2015.05.012
刘旭
LIU Xu
摘要:
国内当前以语料库为基础的研究,在研究工具方面,多以AntConc、PowerGREP为主,使用Python语言NLTK包进行数据处理分析的研究较少,限于软件自身设计,不能灵活地对研究方法提供支持。在研究中使用Python语言的NLTK处理包,使数据有了统一标准,避免了各类文字处理转换的麻烦,同时也弥补了Range等工具在句法分析、图形绘制、正则表达式检索等方面的缺憾。针对语料库研究的中文本分词、词形归并、文本检索统计等主要环节,简要介绍Python语言的NLTK自然语言处理包在语料库研究中的运用,并以古腾堡语料库中的简·奥斯丁小说《艾玛》为例,说明如何运用该自然语言处理包对语料进行加工处理。
中图分类号: