Natural Language Processing with Python

引言

人类的语言有五千多种，研究人类起源的专家认为，通过口语交流是人类区别于其他动物的最显著标志。

自然语言处理（ Natural Language Processing，NLP）是指采用计算机技术处理自然语言，包括词性标注（Part-Of-Speech,POS）、文本分类（Text Classification）、句法分析（Syntactic Analysis）等任务。NLP是很多任务或者系统的基础，例如语音合成系统等，已成为人工智能的基础。

两大工具：

Python。Python已经广泛应用到很多领域，成为很多程序员的利器，也是很多项目的支撑。这里采用Python2.7：https://www.python.org/downloads/。
NLTK（Natural Language Toolkit）。包含了相关的软件、数据以及文档。下载地址:http://www.nltk.org/。

语言处理与Python

文本语料和词汇资源

处理原始文本

编写结构化程序

词的分类与标注

分类文本

文本信息抽取

句法结构分析

基于特征的句法

语义分析

语言数据的管理

TIMIT

获取数据

标注的层次大致可分为如下几种：

词正则化
句子切分
段落切分
词性标注
语义结构
浅层语义
对话与交谈

标注的方式：

内嵌标注（inline annotation）：直接修改原始文档，插入相关的标注信息。
外置标注（standoff annotation）：不修改原始文档，通过在额外文档中的标注信息实现。

参考文献

Bird S, Klein E, Loper E. Natural language processing with Python[M]. “ O’Reilly Media, Inc.”, 2009.

#自然语言处理 #python

Natural Language Processing with Python

http://zhaoshuaijiang.com/2016/06/15/natural-language-processing-with-python/

作者

shuaijiang

发布于

2016年6月15日

许可协议

MacOS操作系统使用入门介绍上一篇

使用PIP管理Python模块（Use pip install package）下一篇