了解自然语言解析
学习目标
完成本单元后,您将能够:
- 讨论自然语言的基本要素。
- 描述解析自然语言时使用的几个重要技术。
- 解释情绪、意图和语境分析如何促成 NLP。
自然语言的基本要素
理解和处理自然语言是计算机面临的一个根本性挑战。这是因为它不仅涉及到识别单个单词,还包括理解单词间的关系、语境和含义。
在文本和语音中,我们所用自然语言的特点是具有无尽的复杂性、细微差别、歧义和错误。在日常交流中,我们会遇到具有多重含义的词语;发音相同但拼写不同且含义也不同的单词;错位修饰语;拼写错误;以及发音错误。我们还会遇到语速快、说话咕哝不清或者要花很长时间才能抓住重点的人;以及口音或所用方言与我们不同的人。
以下面这句话为例:
“We saw six bison on vacation in Yellowstone National Park.”
当您想象六头戴着帽子和太阳镜的野牛在老忠实喷泉面前摆好姿势自拍时,您可能会咯咯地笑。但最有可能的情况是,您知道实际的事——也就是说,有人在黄石国家公园度假时看到了六头野牛。
或者这样:
“They swam out to the buoy.”
当您在不知道语境的情况下听到有人说出这句话时,您可能会认为相关人员游到了一个男孩那里,而事实上,他们游到了水中的一个标记处。“boy”和“buoy”的发音略有不同,但总会有人发音不清晰。
尽管人类能够相对容易地适应语言并灵活运用,但训练计算机接受这些细微差别是相当困难的。
英文自然语言的要素包括:
-
词汇:我们使用的单词
-
语法:句子结构须遵循的规则
-
句法:单词如何根据语法组合成句子
-
语义学:单词、短语和句子的含义
-
语用学:文化或地理语言使用的背景和意图
-
语篇与对白:大于单个短语或句子的单元,包括文件和对话
-
语音学和音韵学:我们交流时发出的声音
-
词法学:如何将单词的各个部分组合或取消组合以形成新单词
解析自然语言
教计算机阅读并理解单词的含义就像在教孩子阅读——他们都是在学习识别单词以及单词的读音、含义和发音。但是当孩子们学习阅读时,他们通常具备以下优势:了解故事上下文;插图提供视觉线索;以及与他们已经知道的事物(如树木或动物)存在联系。孩子们还经常得到经验丰富读者的帮助和鼓励,他们会为孩子们解释正在学习的内容。这些提示信息帮助新读者辨别并赋予单词和短语意义,并将其应用于未来阅读中遇到的其他内容。
我们知道计算机是另一种智能,因此,尽管计算机需要理解上述自然语言的要素,但这种方法需要更加科学化。NLP 使用大语言模型 (LLM)、统计模型、机器学习、深度学习和基于规则的系统等算法和方法来处理和分析文本。这些技术被称为解析,它们将文本或语音分解成更小的组成部分,以便进行 NLP 分类。解析包括句法分析(通过分析自然语言的要素来识别其潜在的语法结构)和语义分析(用于推导含义)。
正如上一单元所提到的,自然语言以多种方式进行解析,以达到预期的结果。例如,针对翻译应用程序的自然语言解析使用不同的算法或模型,其解析方式与针对虚拟助理 Alexa 等的自然语言解析方式不同。
句法解析可能包括:
-
分段:较大的文本被分成较小的且有意义的语块。分段通常出现在句子末尾的标点符号处,帮助组织文本以便进行进一步分析。
-
标记化:句子被分成单独的单词,称为标记。在英语中,标记化是一项相对简单的任务,因为单词通常由空格分隔。在泰语或汉语等语言中,标记化要复杂得多,并且能否准确地标记语言在很大程度上依赖于对词汇和词法学的理解。
-
词干提取:单词被简化为词根或词干形式。例如,breaking、breaks 或 unbreakable 都被简化为 break。词干提取有助于减少单词形式的变化,但根据语境不同,可能无法产生最准确的词干。看看下面这两个进行词干提取的例子:
“I’m going outside to rake leaves.”
词干 = leave
“He always leaves the key in the lock.”
词干 = leave
-
词形还原:与词干提取类似,词形还原将单词简化为其词根形式,但同时考虑了单词的词性以形成更准确的词根或词元。还是用上面这两个例子来展示词形还原:
“I’m going outside to rake leaves.”
词元 = leaf
“He always leaves the key in the lock.”
词元 = leave
-
词性标记:根据每个单词的词性为其指定语法标签或标记,如名词、形容词、动词等。词性标记是 NLP 的一项重要功能,它帮助计算机理解句子的语法。
-
命名实体识别 (NER):使用算法识别文本中的命名实体并进行分类,如人、日期、地点、组织等,以帮助完成回答问题和信息提取等任务。
语义分析
使用我们刚才描述的部分或全部步骤来解析自然语言,可以很好地捕捉到文本或语音的含义。但它在软技能上缺乏使人类语言人性化的细微差别。语义解析包括分析句子的语法格式以及单词和短语之间的关系,以找到含义的表示方式。提取人们的感受、参与原因以及互动环境细节,在准确解读文本或语音并形成适当反应方面起着至关重要的作用。
以下是 NLP 中使用的几种常见分析技术。根据具体任务和分析的复杂性,每种技术都可以采用多种不同的算法来实现所需的理解水平。
情感分析:包括判断一段文本(如句子、社交媒体帖子、评论或推特)是表达了积极、消极还是中立的情绪。情绪是对某事的一种感觉或态度。例如,可以通过情感分析判断客户对服务呈现正面还是负面评价:“I had to wait a very long time for my haircut.”情绪分析有助于识别文本中蕴含的情绪或观点并进行分类,从而帮助企业了解人们对产品、服务或体验的感受。
意图分析:帮助我们根据某人的言行来理解他们想要表达的意思。这就像是在解密他们话语背后的目的或意图。例如,如果一个人在客户支持聊天机器人中键入“I can’t log in to my account,”,则意图分析会识别出此人的意图是获得帮助以访问帐户。聊天机器人可能会提供关于重置密码或其他方式的详细信息,用户可以根据这些信息尝试登录帐户。虚拟助理、客户支持系统或聊天机器人通常利用意图分析来识别用户的请求并给予相应的回应或采取相应的行动。
语境(语篇)分析:自然语言在很大程度上依赖于语境。根据情况、提供的细节以及沟通双方之间存在的共同理解,对一种陈述的解释可能会发生变化。语境分析包括通过上下文信息来理解一段文本。例如,如果一个人说,“They had a ball,”,语境分析将判断他们谈论的是一个时髦的舞会、一件运动器材,还是满满的乐趣。它根据之前的对话或正在讨论的主题来完成分析。语境分析通过考虑更广泛的上下文、单词之间的关系和其他相关信息,帮助 NLP 系统更准确地解释单词。
这三种分析技术–情感分析、意图分析和语境分析–在从文本和语音数据中提取有价值的见解方面起着重要作用。它们在各种 NLP 应用中以更复杂和准确的方式理解文本内容并进行交互。
总结
在本模块中,您学习了关于 NLP 的高层次知识,并且与英语相关。迄今为止,大部分 NLP 研究都是使用英语进行的,但您也可以找到很多用西班牙语、法语、波斯语、乌尔都语、中文和阿拉伯语进行的研究。NLP 是发展非常迅速的一个 AI 领域。而 NLP 的发展正在迅速促进语言理解复杂度的提升、跨语言能力的增强以及与其他 AI 领域之间更深入地整合。