引言
人类的语言有五千多种,研究人类起源的专家认为,通过口语交流是人类区别于其他动物的最显著标志。
自然语言处理( Natural Language Processing,NLP)是指采用计算机技术处理自然语言,包括词性标注(Part-Of-Speech,POS)、文本分类(Text Classification)、句法分析(Syntactic Analysis)等任务。NLP是很多任务或者系统的基础,例如语音合成系统等,已成为人工智能的基础。
两大工具:
- Python。Python已经广泛应用到很多领域,成为很多程序员的利器,也是很多项目的支撑。这里采用Python2.7:https://www.python.org/downloads/。
- NLTK(Natural Language Toolkit)。包含了相关的软件、数据以及文档。下载地址:http://www.nltk.org/。
语言处理与Python
文本语料和词汇资源
处理原始文本
编写结构化程序
词的分类与标注
分类文本
文本信息抽取
句法结构分析
基于特征的句法
语义分析
语言数据的管理
TIMIT
获取数据
标注的层次大致可分为如下几种:
- 词正则化
- 句子切分
- 段落切分
- 词性标注
- 语义结构
- 浅层语义
- 对话与交谈
标注的方式:
- 内嵌标注(inline annotation):直接修改原始文档,插入相关的标注信息。
- 外置标注(standoff annotation):不修改原始文档,通过在额外文档中的标注信息实现。
参考文献
- Bird S, Klein E, Loper E. Natural language processing with Python[M]. “ O’Reilly Media, Inc.”, 2009.