很久没有继续这个系列。其实电脑里有很多草稿,只是改了删,删了改,到最后就没有信心写下去,这就是拖拉的坏处……也有原因是接触nlp的方面越来越多,从以前的只能看到树木,变成了能看到森林吧……
上次说到自然语言处理领域的一些书籍,这次讲一下自然语言处理的相关领域。其实这个领域应该是一个文理交叉的学科,从大的学科分类来说是计算机科学,语言学,认知科学的交叉,从小的研究方向来说,相关方向是机器学习,数据挖掘,生物信息学,人工智能等。
下面分别介绍一下各个方面对自然语言处理领域的影响。
先从大的方面说起。
因为有了计算机科学,才催生了自然语言处理的需求。否则人们靠大脑处理自然语言,而不靠计算机科学处理自然语言。由于信息爆炸,人们希望计算机能“懂得”自然语言,节省人们的处理时间,降低人工处理成本。
语言学是自然语言处理的基础,但是在自然语言处理中,并非使用传统语言学的知识越多越好,因为计算机有时不能像人类一样进行“模糊处理”,而语言学家提供的知识常常会彼此冲突。
认知科学是探索人类怎样学习的科学,研究人脑和心智的工作机制。由于语言是人脑处理的信息的重要部分,所以认知科学的知识有助于人们了解自然语言在人脑中处理的机制,并让计算机“模拟”这种机制。

然后说相关方向。
机器学习现已成为自然语言处理的重要辅助,甚至可说是理论基础。机器学习在自然语言处理领域中的应用一般利用统计的方法,从大量数据中学习模型的参数,利用训练好的模型完成自然语言处理任务。在句法分析,机器翻译等自然语言处理的重要领域都大量利用了机器学习方法。机器学习还在图像处理等领域有着广泛应用。
数据挖掘是从大量数据中获取人们感兴趣的模式的方法。由于互联网上有大量的语言资源,从中获取有意义的模式能够为自然语言处理提供有价值的资源。
生物信息学和自然语言处理的共同点在于它们都处理“序列”。在生物信息学中是DNA序列,在自然语言处理中是语言序列,包括字符序列和语音序列。
人工智能曾经是自然语言处理方法的基础,虽然近年来随着统计方法的兴起而逐渐淡出,但是许多学校的自然语言处理实验室依然归于人工智能分支,利用人工智能方法解决自然语言问题是“最初的梦想”,虽然一时无法完全实现,但是必然是最终追求的目标。

下面再说一下自然处理语言领域的常见问题和分支:
信息检索:随着搜索引擎大行其道,搜索技术真正影响到了人们的生活。有商业利益驱动,信息检索是自然语言处理的一个活跃方向。
机器翻译:对自动翻译文件的迫切要求也促使机器翻译成为自然语言处理领域的热门研究课题。但是现在机器翻译还未能做到完全实用化。
问答系统:这方面我了解不多,也是自然语言处理与生活息息相关的应用之一,也许可以归为“智能信息检索”。
信息抽取: 与数据库技术结合,旨在将杂乱无章的信息归纳成结构化,包含语义关系的信息。
自动文摘,句子压缩:从语义层面处理自然语言。
(这里列举的问题和分支只是我了解的小部分,必定存在不完整和错误之处。)

我将涉及自然语言处理,机器学习,数据挖掘,人工智能等方面的书籍整理成了豆列,地址在http://www.douban.com/doulist/264539/。

下一篇讲自然语言处理中的数学知识。