人工智能在近年来异常的火热,其主要有三大研究领域,分别是计算机视觉、语音处理、自然语言处理。其中,自然语言处理也是这三个研究方向中最难啃的一个。这也使得自然语言处理相比于前两者,显得不温不火的状态。不过这一种局面似乎正在悄悄的改变。
2017 年,美国国家工程院院士、微软全球执行副总裁沈向洋博士参加中国计算机大会时提到下一个十年,懂语言者得天下。
这其实也是许多学者的声音,因为计算机视觉和语言识别在仅年来都取得了巨大的发展,但似乎已遇到瓶颈。例如美国斯坦福大学教授李菲菲曾在一篇论文中指出,计算机视觉在 2012 年 Alex 所提出的 AlexNet 网络之后,实际上后续许多网络的提出已经没有了实质性的突破。
当然,由于目前关于自然语言处理的热度主要还是存在于学术圈,且自然语言处理并没有像计算机视觉那样有许多的深度学习框架可以直接调用。此外,目前即使有相关的工具,但大多数还是以处理英文为主,对中文的支持并不是很好。这也使得许多初学者想学习自然语言处理处理时感到无从下手。
本次课程将会以中文文本为研究对象,逐步讲解自然语言处理中常用的底层技术,并动手实现。课程主要讲解自然语言处理的底层技术,具体来说是中文分词,词性标注以及命名实体识别。
在中文分词实验中,主要会详细介绍以下几种方法:
在实现时,主要选取正向最大匹配法来进行实验。但在课程后面会有一个关于逆向最大匹配法的挑战让你自己去实现。当然,挑战里也会有关于逆向最大匹配法的详解。除此之外,我们还重点介绍了隐马尔可夫模型的数学原理。并将其应用在中文分词当中。
在词性标注实验中,主要会详细介绍下面几种方法:
词性标注目前主要使用的方法是条件随机场,因此在实验中会详细介绍其数学原理,并动手实现一个简单的条件随机场。当然,由于条件随机比较复杂,所以我们还介绍了一种常用的条件随机场实现工具。
在命名实体识别中,主要会详细讲到以下几种方法:
在实验中,为了便于理解,会从简单的循环神经网络开始讲解。然后逐步详解长短时记忆网络的基本原理。再介绍其是如何使用在命名实体识别当中。最后讲解将其与条件随机场结合起来。