首页 > 教育资讯 > 留学百科 > 美国留学：计算机专业自然语言处理方向

美国留学：计算机专业自然语言处理方向

时间：2021-08-13 阅读：1213 来源：境华国际教育

人工智能Artificial Intelligence and Machine Learning其实是很综合的学科，他的目的就是把人类的智能扩展到信息处理的机器的上。人工智能里面涵盖了计算机专业的很多小方向。比如机器学习系统，计算机语言，图像处理，语音识别，机器人，人机交互等等。

对于申请者的计算机科学背景要求较高，包括数据结构算法之类纯计算机专业的课程，都有一定要求。人工智能的产品包括机器人、语言识别、图像识别、自然语言处理和专家系统等。这个方向最近很热，招收的名额也比较多，也有从主要招收PhD向Master转移的趋势。完全对口的工作是纯研发的性质，找起来有一些难度，不过退一步海阔天空，在各类电子设备商处都有大批学习此类专业可以涉足的工作。

唯一需要注意的是AI的某些部分在美国也一定程度上应用于国防，所以如果自己要进入的program涉及此类就不推荐了。

那么我们进一步来说一下什么是自然语言处理?

Natural Language Processing，简称NLP

自然语言处理横跨：计算机科学、语言学、人工智能等学科，是计算机科学与语言学的交叉学科，又常被称为计算语言学。

自然语言处理的目标是让电脑用人类语言做一些聪明的事情和利用人类语言进行自我表达。比如安排约会、买东西、或更高级的目标——理解世界。

每天你都在使用各种各样的自然语言处理软件，例如输入法的输入补全、搜索引擎的搜索建议、推断某条推文是正面还是负面、机器翻译等。目前集中的研究方向是智能问答，我们希望生产出使用自然语言与用户交流的产品，例如苹果siri——把人类语言变成了消费级产品。

自然语言处理的过程：对于文本（text），依次经历了以下几个过程：

分词(Tokenization)

形态分析(Morphologicalanalysis)

句法分析(syntacticanalysis)

语义理解(semanticinterpretation)

篇章处理(discourseprocessing)

简单来说，就是把一大段文本，切成各种各样的词，然后区分出主谓宾、定状补等句式，最后理解这段话指代的真实意思。

一段文本——>分词——>词性——>句法——>语义

Natural Language Generation，简称NLG：

自然语言生成，从知识库或逻辑形式等等机器表述系统去生成自然语言。我们也是分几点去阐述这个生成的过程。

一.人脑如何从底层的联结计算向上自动形成出可推理的符号计算？

人脑的基础构成是数亿万神经元及其形成的联结结构，信息输入是连续数值形式的，然而通过人脑的层层高级加工最终却可以将信息概念化，进而形成高效的符号计算与推理。新的知识可以通过概念组合或者推理获得，而无需再通过大规模的数据驱动得到。例如，如果人脑从大量文本素材中学习得到句子的“主(noun)+谓(verb)+宾(noun)”模式，那么当看到一句话“a1a2b1b2c1”，已知“b1b2”是动词，“c1”是名词，很有可能推理出“a1a2”是名词也是句子的主语。进一步的，如果已知“b1b2”是个体才能实施的动作，那么可以推断出“a1a2”很有可能是命名实体，即使我们不预先知道“a1a2”的内部用词构成。在图像处理领域，目前的深度学习技术可以将图像信息逐层抽象，自发地学习出高层特征，形成高级语义模式。

这对自动化的模拟自然语言理解具有借鉴意义，然而实际上处理自然语言则困难得多。目前，如何利用底层的文本输入，让机器像人脑一样通过逐层信息加工自动生成高级的语言学离散符号及其模式规则，其形成机制并不清晰。

二.如何让机器像人脑一样实现反馈式的自然语言理解？

NLP研究的主流做法是将单个自然语言任务封装成一个模块，模块之间按照自然语言任务的高低级之分次序串联起来。例如，对于句子的句法分析，通常的做法是先分词、词性标注、命名实体识别、组块识别等，这些信息可以作为高层句法分析的特征。然而，低级语言分析的错误也会传导到高级语言分析任务上来。如果分词有错误，也会影响到最终句法分析的性能。与之相反的是，人脑在进行自然语言理解时，并非总是按照各个语言分析模块以串行相接的方式进行。例如前面给出的句子“a1a2b1b2c1”，当我们暂时无法辨别“a1a2”是否是命名实体时，暂且将这个任务放一放，转而考虑句子后面的信息。

当我们逐渐分析出来整个句子可能是“主(noun)+谓(verb)+宾(noun)”的句法模式时，这种更高层的信息作为正面反馈有利于反过来推测“a1a2”是命名实体。这个例子中，命名实体的识别反而采用了更高层的句法信息作为线索。现有的人工智能的自然语言处理流程是固定的，而人脑对自然语言处理的流程则可以根据实际情况做出改变。

三.语义流变的自动学习。

大量的词汇在社会的不同历史时期会有不同的语义，形成语义流变。例如，“小姐”一词的内涵从古至今就一直发生着变化。“小姐”在中国封建社会通常是指大户人家有着良好教养的未婚年轻女子；新中国建立后，随着传统封建社会中“小姐”对应的人物角色在社会中逐渐消失，“小姐”一词的使用也越来越少；然而，当人们对从事色情行业的女子冠以“小姐”的称呼时，“小姐”一词又产生了相应的新词义。

因此，出于词汇语义流变的客观存在性，不可能一次性设计出一个完整而全面的机读词义辞典来支持自然语言的语义理解。当社会上出现词汇的新解时，一般就需要手动维护和更新语义辞典。如果对机器概念和知识的更新只停留在人工输入阶段，那么机器就永远无法实现像人一样的自动学习与进化。

一方面，人们对人脑的语言与思维的研究尚且并不充分。

另一方面，现有的人工智能在理解自然语言的处理机制方面与人脑存在巨大的差异，那么是否意味着人工智能在自然语言理解的发展存在着难以克服的瓶颈呢？

答案未必这样悲观。如果我们审视人类自身，会发现语言与思维的产生不仅与人脑基础的神经连接结构有关，也受到外界语言环境激励的影响。如果将联结主义和行为主义的思想结合起来，以仿生模拟的方式来“调教”机器智能体，就像教育儿童习得语言那样以交互激励的方式学习语言，那么经过很多代的更新和迭代后，机器智能体可能会进化出自己的语言习得装置，产生特异化的语言模式，而这些语言模式在表征上以分布式的形式存储于神经权值网络之中，使得人类理解起来异常困难。就像AlphaGo战胜了世界围棋高手，但是它的出棋策略已经很难被制造者所理解。采用仿生学模拟的方式让机器进化，意味着创造者对机器放弃了一定的控制权。

正如凯文·凯利在《失控》中所说，一旦让机器进化出了智能，那么其代价是人类终将失去对机器的控制。人类可能最终不仅不理解人脑中语言与思维的产生机制，也难以理解机器智能体中的语言和思维是如何形成的。

自然语言处理如何快速入门呢（转载）？

国际学术组织、学术会议与学术论文自然语言处理（naturallanguageprocessing，NLP）在很大程度上与计算语言学（computationallinguistics，CL）重合。与其他计算机学科类似，NLP/CL有一个属于自己的最权威的国际专业学会，叫做The Association for Computational Linguistics（ACL，URL：ACL Home Page），这个协会主办了NLP/CL领域最权威的国际会议，即ACL年会，ACL学会还会在北美和欧洲召开分年会，分别称为NAACL和EACL。除此之外，ACL学会下设多个特殊兴趣小组（special interest groups，SIGs），聚集了NLP/CL不同子领域的学者，性质类似一个大学校园的兴趣社团。其中比较有名的诸如SIGDAT（Linguistic data and corpus-based approaches to NLP）、SIGNLL（Natural Language Learning）等。

这些SIGs也会召开一些国际学术会议，其中比较有名的就是SIGDAT组织的EMNLP（Conference on Empirical Methods on Natural Language Processing）和 SIGNLL组织的CoNLL（Conference on Natural Language Learning）。此外还有一个International Committee on Computational Linguistics的老牌NLP/CL学术组织，它每两年组织一个称为International Conference on Computational Linguistics(COLING)的国际会议，也是NLP/CL的重要学术会议。NLP/CL的主要学术论文就分布在这些会议上。

作为NLP/CL领域的学者最大的幸福在于，ACL学会网站建立了称作ACL Anthology的页面（URL：ACL Anthology），支持该领域绝大部分国际学术会议论文的免费下载，甚至包含了其他组织主办的学术会议，例如COLING、IJCNLP等，并支持基于Google的全文检索功能，可谓一站在手，NLP论文我有。由于这个论文集合非常庞大，并且可以开放获取，很多学者也基于它开展研究，提供了更丰富的检索支持，具体入口可以参考ACL Anthology页面上方搜索框右侧的不同检索按钮。

与大部分计算机学科类似，由于技术发展迅速，NLP/CL领域更重视发表学术会议论文，原因是发表周期短，并可以通过会议进行交流。当然NLP/CL也有自己的旗舰学术期刊，发表过很多经典学术论文，那就是Computational Linguistics（URL：MIT Press Journals）。该期刊每期只有几篇文章，平均质量高于会议论文，时间允许的话值得及时追踪。此外，ACL学会为了提高学术影响力，也刚刚创办了Transactions of ACL（TACL，UR Lransactions of the Association for Computational Linguistics(ISSN:2307-387X)），值得关注。值得一提的是这两份期刊也都是开放获取的。

此外也有一些与NLP/CL有关的期刊，如ACM Transactions on Speech and Language Processing，ACM Transactions on Asian Language Information Processing，Journal of Quantitative Linguistics等等。根据Google Scholar Metrics2013年对NLP/CL学术期刊和会议的评价，ACL、EMNLP、NAACL、COLING、LREC、Computational Linguistics位于前5位，基本反映了本领域学者的关注程度。

NLP/CL作为交叉学科，其相关领域也值得关注。主要包括以下几个方面：

（1）信息检索和数据挖掘领域。相关学术会议主要由美国计算机学会（ACM）主办，包括SIGIR、

WWW、WSDM等；

（2）人工智能领域。相关学术会议主要包括AAAI和IJCAI等，相关学术期刊主要包括Artificial Intelligence和Journal of AI Research；

（3）机器学习领域，相关学术会议主要包括ICML，NIPS，AISTATS，UAI等，相关学术期刊主要包括

Journal of Machine Learning Research（JMLR）和Machine Learning（ML）等。例如最近兴起的knowledge graph研究论文，就有相当一部分发表在人工智能和信息检索领域的会议和期刊上。实际上国内计算机学会（CCF）制定了“中国计算机学会推荐国际学术会议和期刊目录”（CCF推荐排名），通过这个列表，可以迅速了解每个领域的主要期刊与学术会议。

最后，美国HalDauméIII维护了一个natural language processing的博客（natural language processing blog），经常评论最新学术动态，值得关注。我经常看他关于ACL、NAACL等学术会议的参会感想和对论文的点评，很有启发。另外，ACL学会维护了一个Wiki页面（ACLWiki），包含了大量NLP/CL的相关信息，如著名研究机构、历届会议录用率，等等，都是居家必备之良品，值得深挖。

国内学术组织、学术会议与学术论文与国际上相似，国内也有一个与NLP/CL相关的学会，叫做中国中文信息学会（URL：中国中文信息学会）。通过学会的理事名单（中国中文信息学会）基本可以了解国内从事NLP/CL的主要单位和学者。学会每年组织很多学术会议，例如全国计算语言学学术会议（CCL）、全国青年计算语言学研讨会（YCCL）、全国信息检索学术会议（CCIR）、全国机器翻译研讨会（CWMT），等等，是国内NLP/CL学者进行学术交流的重要平台。尤其值得一提的是，全国青年计算语言学研讨会是专门面向国内NLP/CL研究生的学术会议，从组织到审稿都由该领域研究生担任，非常有特色，也是NLP/CL同学们学术交流、快速成长的好去处。

值得一提的是，2010年在北京召开的COLING以及2015年即将在北京召开的ACL，学会都是主要承办者，这也一定程度上反映了学会在国内NLP/CL领域的重要地位。此外，计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议（NLP&CC）也是最近崛起的重要学术会议。中文信息学会主编了一份历史悠久的《中文信息学报》，是国内该领域的重要学术期刊，发表过很多篇重量级论文。此外，国内著名的《计算机学报》、《软件学报》等期刊上也经常有NLP/CL论文发表，值得关注。

过去几年，在水木社区BBS上开设的AI、NLP版面曾经是国内NLP/CL领域在线交流讨论的重要平台。这几年随着社会媒体的发展，越来越多学者转战新浪微博，有浓厚的交流氛围。如何找到这些学者呢，一个简单的方法就是在新浪微博搜索的“找人”功能中检索“自然语言处理”、“计算语言学”、“信息检索”、“机器学习”等字样，马上就能跟过去只在论文中看到名字的老师同学们近距离交流了。还有一种办法，清华大学梁斌开发的“微博寻人”系统（清华大学信息检索组）可以检索每个领域的有影响力人士，因此也可以用来寻找NLP/CL领域的重要学者。值得一提的是，很多在国外任教的老师和求学的同学也活跃在新浪微博上，例如王威廉（Sina Visitor System）、李沐（Sina Visitor System）等，经常爆料业内新闻，值得关注。还有，国内NLP/CL的著名博客是52nlp（我爱自然语言处理），影响力比较大。

总之，学术研究既需要苦练内功，也需要与人交流。所谓言者无意、听者有心，也许其他人的一句话就能点醒你苦思良久的问题。无疑，博客微博等提供了很好的交流平台，当然也注意不要沉迷哦。

如何快速了解某个领域研究进展最后简单说一下快速了解某领域研究进展的经验。你会发现，搜索引擎是查阅文献的重要工具，尤其是谷歌提供的Google Scholar，由于其庞大的索引量，将是我们披荆斩棘的利器。当需要了解某个领域，如果能找到一篇该领域的最新研究综述，就省劲多了。最方便的方法还是在Google Scholar中搜索“领域名称+survey/review/tutorial/综述”来查找。也有一些出版社专门出版各领域的综述文章，例如NOW Publisher出版的Foundations and Trends 系列Morgan&ClaypoolPublisher出版的Synthesis Lectures on Human Language Technologies系列等。它们发表了很多热门方向的综述，如文档摘要、情感分析和意见挖掘、学习排序、语言模型等。