Natural Language Processing with Python

引言

人类的语言有五千多种,研究人类起源的专家认为,通过口语交流是人类区别于其他动物的最显著标志。

自然语言处理( Natural Language Processing,NLP)是指采用计算机技术处理自然语言,包括词性标注(Part-Of-Speech,POS)、文本分类(Text Classification)、句法分析(Syntactic Analysis)等任务。NLP是很多任务或者系统的基础,例如语音合成系统等,已成为人工智能的基础。

两大工具:

  • Python。Python已经广泛应用到很多领域,成为很多程序员的利器,也是很多项目的支撑。这里采用Python2.7:https://www.python.org/downloads/
  • NLTK(Natural Language Toolkit)。包含了相关的软件、数据以及文档。下载地址:http://www.nltk.org/

语言处理与Python

文本语料和词汇资源

处理原始文本

编写结构化程序

词的分类与标注

分类文本

文本信息抽取

句法结构分析

基于特征的句法

语义分析

语言数据的管理

TIMIT

获取数据

标注的层次大致可分为如下几种:

  • 词正则化
  • 句子切分
  • 段落切分
  • 词性标注
  • 语义结构
  • 浅层语义
  • 对话与交谈

标注的方式:

  • 内嵌标注(inline annotation):直接修改原始文档,插入相关的标注信息。
  • 外置标注(standoff annotation):不修改原始文档,通过在额外文档中的标注信息实现。

参考文献

  1. Bird S, Klein E, Loper E. Natural language processing with Python[M]. “ O’Reilly Media, Inc.”, 2009.