探索 AI 技术和应用
学习目标
完成本单元后,您将能够:
- 确定 AI 的实际用例。
- 确定 ChatGPT 和其他 AI 模型存在的局限性。
- 了解 AI 的数据生命周期以及数据隐私和安全在 AI 应用中的重要性。
人工智能技术
人工智能是一个让机器像人类一样学习和思考的广阔领域。还有许多技术涵盖了 AI。
-
机器学习使用各种数学算法从数据中获得见解并做出预测。
-
深度学习使用一种被称为神经网络的特定类型算法来查找一组输入和输出之间的关联。随着数据量的增加,深度学习变得更加高效。
-
自然语言处理是一种使机器能够以人类语言作为输入并执行相应操作的技术。
-
计算机视觉是一种使机器能够解释可视化信息的技术。
-
机器人技术使机器能够执行物理任务。
查阅 AI 基础知识 Trailhead 模块,了解更多。
基于学习方法和所解决问题的性质,可以将机器学习 (ML) 分为若干类型。
-
监督式学习:在这种机器学习方法中,模型从标记数据中进行学习,依据找到的模式做出预测。然后,该模型可以根据在训练过程中学到的模式,做出预测或对未见过的新数据进行分类。
-
无监督式学习:在这种学习方法中,模型从未标记数据中进行学习,找到模式和关系,无预定义的输出。该模型学习如何识别相似性,对相似的数据点进行分组,或在数据集中找到潜在的隐藏模式。
-
强化学习:这种类型的学习由代理服务器通过试错进行学习,采取行动最大限度地提升从环境中获得的回报。强化学习通常用于需要通过试错来学习最佳决策策略的情景,例如机器人技术、游戏玩法和自主系统。代理服务器探索不同的行动,并从行动的结果中学习,以优化其决策过程。
近年来引入了 AutoML 和 OneNine AI、Salesforce Einstein 等无代码 AI 工具,旨在自动化构建整个机器学习流程,最大限度地减少人为干预。
机器学习的作用
机器学习是人工智能的一个子领域,利用统计算法使计算机能够从数据中学习,无需进行明确的编程。它使用算法构建模型,根据输入做出预测或决策。
机器学习与编程的区别
在传统编程中,程序员必须清楚地了解他们遇到的问题和想要实现的解决方案。在机器学习中,算法从数据中学习,并生成不同的规则或模型来解决问题。
数据在机器学习中的重要性
数据是推动机器学习的动力。在训练机器学习模型时,所用数据的质量和数量对其准确性和有效性有着重要影响。务必要确保所使用的数据是相关、准确、完整且无偏差的。
数据质量和机器学习的局限性
为了确保数据质量,有必要对数据进行净化和预处理,以去除干扰(不需要或无意义的信息)、缺失的值或异常值。
尽管机器学习是解决各种问题的强大工具,但其有效性也受到限制,包括过度拟合、欠拟合和偏差。
-
过度拟合发生在模型过于复杂且与训练数据过于接近的情况下,导致泛化能力较差。
-
欠拟合发生在模型过于简单并且无法捕捉数据中的潜在模式的情况下。
-
偏差发生在训练模型时所用的数据无法代表现实世界人群的情况下。
机器学习受限于所用数据的质量和数量,复杂模型的不透明性,难以泛化到新情况,处理缺失数据时面临的挑战以及作出带偏见预测的可能性。
虽然机器学习是一个强大的工具,但在设计和使用机器学习模型时,了解这些限制并加以考虑非常重要。
预测型和生成式 AI 的区别
生成式 AI 使用机器学习算法并基于数据输入做出预测或决策。其用途非常广泛,包括欺诈检测、医疗诊断和客户流失预测。
不同的方法,不同的目的
预测型 AI 是一种机器学习类型,它训练模型根据数据做出预测或决策。模型接收一组输入数据,并学习识别其中的模式,使其能够根据新的输入做出准确的预测。预测型 AI 广泛应用于图像识别、语音识别和自然语言处理等领域。
而生成式 AI 则是根据给定的输入创建新的内容,如图像、视频或文本。与基于现有数据做出预测不同,生成式 AI 创建与输入数据相似的新数据。其用途非常广泛,包括艺术、音乐和创意写作。生成式 AI 的一个常见示例是使用神经网络根据一组给定的输入生成新图像。
虽然预测型 AI 和生成式 AI 是人工智能的不同方法,但它们并不是互斥的。事实上,许多 AI 应用程序同时使用预测型和生成式技术来实现其目标。例如,聊天机器人可能会使用预测型 AI 来理解用户的输入,并使用生成式 AI 生成类似人类语言的响应。综上所述,选择预测型还是生成式 AI 取决于具体的应用和项目目标。
现在您对预测型 AI 和生成式 AI 以及它们之间的区别有了一定的了解。以下是两种方法的简要介绍,供您参考。
预测型 AI |
生成式 AI |
---|---|
可以基于标记数据做出准确的预测 |
可以生成新的创意内容 |
可用于解决各种各样的问题,包括欺诈检测、医疗诊断和客户流失预测 |
可用于各种各样的创意型应用,包括艺术、音乐和写作 |
受限于可用标记数据的质量和数量 |
可能根据输入数据生成出现偏差或不适当的内容 |
可能难以根据训练所用标记数据以外的数据做出预测 |
可能难以理解上下文或生成连贯的内容 |
训练和部署可能需要消耗的大量计算资源 |
可能不适用于所有应用,例如那些对准确性和精度有要求的应用 |
生成式 AI 的局限性
生成式 AI 根据给定的输入创建新的内容,如图像、视频或文本。以 ChatGPT 为例,这是一种生成式 AI 模型,可以根据文本输入生成类似人类的回答。它的工作原理就是基于大量的文本数据进行训练,并学习根据前一个单词预测序列中的下一个单词。
虽然 ChatGPT 可以生成类似人类的回答,但它也存在局限性——可能根据训练数据生成出现偏差或不适当的内容。这是机器学习模型的常见问题,因为它们会反映出训练数据的偏差和局限性。例如,如果训练数据包含大量负面或冒犯性语言,ChatGPT 也可能会生成类似的负面或冒犯性回答。
ChatGPT 也可能难以理解用户输入的上下文或生成连贯的回复。ChatGPT 的表现取决于训练时采用的数据。如果训练数据不完整、有偏差或存在其他缺陷,则模型可能无法生成准确或有用的回复。对需要准确性和相关性的应用而言,这是极大的限制。与其他机器学习模型类似,数据在这里也发挥着至关重要的作用,因此如果训练数据质量不好,ChatGPT 就不会有太大的用处。
ChatGPT 的例子彰显了数据在有效使用 AI 方面发挥的关键作用。
AI 的数据生命周期
数据生命周期指的是数据从最初收集到最终删除所经历的阶段。AI 的数据生命周期包括一系列步骤,包括数据收集、预处理、训练、评估和部署。务必要确保所用数据是相关、准确、完整且无偏差的,并且所生成的模型是有效且合乎道德的。
AI 的数据生命周期是一个持续的过程,因为模型需要根据新数据和反馈信息不断进行更新和改进。这是一个迭代的过程,需要谨慎地关注细节,并致力于打造道德且有效的 AI。ML 模型的开发人员和用户应确保其模型是有效、准确且合乎道德的,并对世界产生积极影响。数据生命周期对于确保以负责任且合乎道德的方式收集、存储和使用数据至关重要。
以下是数据生命周期的各个阶段。
-
数据收集:在这个阶段,从各种来源收集数据,如传感器、调查和在线来源。
-
数据存储:收集数据后,必须将其安全地存储。
-
数据处理:在这个阶段,对数据进行处理以提取见解和模式。这可能包括使用机器学习算法或其他数据分析技术。
-
数据使用:处理数据后,就能将其用于预期目的,例如做出决策或制定政策。
-
数据共享:有时需要将数据分享给其他组织或个人。
-
数据保留:数据保留是指数据保存的时间长度。
-
数据处置:一旦不再需要数据,就需要安全地处置它。这可能涉及安全删除数字数据或销毁物理介质。
虽然 AI 和 ML 有可能使许多行业发生翻天覆地的变化并解决复杂问题,但我们必须要了解它们的局限性并考虑道德因素。请继续学习下一个单元,了解数据伦理和隐私的重要性。
资源