Skip to content

机器学习

人工智能相关概念

人工智能

人工智能 (AI) 是一组使计算机能够模拟人类智能,从而学习、推理、解决问题、感知环境并执行高级任务(如语言理解、图像识别)的技术。作为计算机科学的一个分支,它通过处理海量数据、应用机器学习和深度学习算法来不断优化,被广泛应用于自动驾驶、医疗诊断和智能助手等各行各业。

核心概览:

  • 定义:是指制造智能机器的科学与工程,致力于让计算机模拟人类的学习、判断和行动。
  • 三大核心要素:算力、算法、数据。
  • 关键分类
    • 弱人工智能 (ANI):专注特定任务的AI(如Apple Siri、AlphaGo、图像识别),是目前普遍应用的类型。
    • 通用人工智能 (AGI):具备与人类相当的广泛智慧,能执行任何智能任务。
    • 超级人工智能 (ASI):理论上在所有领域远超人类智能的AI。
  • 主要子领域
    • 机器学习 (ML):让计算机通过经验和数据自主学习。
    • 深度学习 (DL):一种多层神经网络机器学习技术,是当前人工智能突破的主力。
    • 自然语言处理 (NLP):实现人机自然语言交流。
    • 计算机视觉:赋予机器看和识别物体的能力。
  • 当前应用:生成式AI(如ChatGPT生成文本、图像)、自动驾驶汽车、数据分析挖掘、医疗诊断、金融风控等。

人工智能正迅速改变世界,是一项以数据驱动决策并最大化成功机会的变革性技术。

机器学习

机器学习是人工智能的一个分支,向系统输入大量数据后,系统会使用神经网络和深度学习进行自主学习和改进,无需对其明确编程。机器学习可让计算机系统通过累积更多“经验”来不断调整并增强自身功能,因此,通过提供更大、更多样化的数据集进行处理,可以提高这些系统的性能。

深度学习

深度学习(Deep Learning)是机器学习的一个子集,基于多层人工神经网络模拟人脑处理数据,擅长从海量数据中自动学习复杂的非线性特征。它无需人工干预即可进行特征提取(如卷积神经网络 CNN、循环神经网络 RNN),广泛应用于计算机视觉、语音识别和自然语言处理等领域。其核心在于通过隐藏层逐层抽象数据信息。

深度学习的核心原理与特点

  • 多层神经网络架构: 深度学习的“深度”是指网络中拥有多个隐藏层,能够层层处理、提取不同级别的特征(从低级边缘到高级物体)。
  • 自动化特征工程: 区别于传统机器学习,深度学习能自动从原始数据中学习有效的表征,避免了手动设计特征的繁琐和限制。
  • 依赖大数据和大算力: 其性能随数据量增加而提升,处理复杂任务需要强大的计算资源。

常见深度学习模型类型

  • 卷积神经网络(CNN): 擅长处理图像和视频数据,通过卷积和池化过滤图片信息。
  • 循环神经网络(RNN/LSTM): 专门处理时序数据或序列数据,具备记忆前一层信息的能力。
  • 生成对抗网络(GAN): 通过生成器与判别器的博弈提升输出准确率,常用于图像生成。

主要应用领域

  1. **计算机视觉:**人脸识别、物体检测、自动驾驶。
  2. **语音与自然语言处理:**语音转文字、机器翻译、智能对话助手。
  3. **预测与分析:**数据集中的复杂模式分析与见解生成。

深度学习不仅能模拟生物神经网络的运作,更是目前解决强人工智能技术中最具潜力的途径之一。

人工智能中包括机器学习,机器学习中又包括深度学习。

img

机器学习相关概念

名称英文所属层级严格定义在数据中的位置主要作用示例
样本Sample行级数据集中的一条独立观测记录一行表示一个研究对象一条用户记录 / 一封邮件 / 一套房
特征Feature列级(输入)描述样本属性的输入变量多列作为模型输入年龄、面积、点击次数
标签Label / Target列级(输出)样本对应的真实结果值通常1列作为监督学习的目标是否违约、房价、类别
训练集Training Set数据子集用于训练模型参数的数据集合样本子集让模型学习规律用来“拟合”模型
测试集Test Set数据子集用于评估模型效果的数据集合样本子集检验泛化能力用来“打分”模型
学习类型是否需要标签核心目标典型任务输出形式训练方式
有监督学习必须有学习输入→输出映射分类、回归预测值用已知答案训练
无监督学习不需要发现数据结构聚类、降维结构/分组自动找模式
半监督学习少量有标签利用未标注数据分类预测值混合训练
强化学习没有固定标签学习最优策略决策控制动作策略奖励驱动

机器学习的建模流程

特征工程

特征:数据集中,一列一列的数据为特征;模型训练中,对预测结果有用的叫特征。

特征工程:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。

特征工程是机器学习周期中最困难、最耗时的任务,需要专业知识。

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征提取

从原始任务中提取和任务相关的特征,构成特征向量。

image-20260213220530106

image-20260213220533640

特征预处理

特征会影响模型。因量纲问题,有些特征对模型影响大,有些影响小。如通过一个人的身高和体重预测这个人的健康状况,如果身高的单位是cm和m,对模型的影响就不一样。

image-20260213220653085

将不同的单位的特征数据转换成同一个范围内,使训练数据中不同特征对模型产生较为一致的影响。

特征降维

将原始数据的维度降低,叫做特征降维。

image-20260213220728913

降维会丢失部分信息,降维就需要保证数据的主要信息要保留下来。原始数据会发生变化,不需要了解数据本身是什么含义,它保留了最主要的信息。

image-20260213220801239

从特征中选择出一些重要特征(选择就需要根据一些指标来选择),特征选择不会改变原来的数据。

模型拟合

在机器学习或统计建模中,通过已有数据去“训练”一个数学模型,使模型参数被确定下来,从而让模型输出尽可能接近真实结果的过程。

image-20260213220822860

如果模型对训练集理解好,测试集理解也好,能泛化到新数据,就称为拟合良好

如果模型对训练集和测试集理解都不好,就称为欠拟合,比如用一条直线去拟合明显弯曲的数据。

如果模型对测试集理解良好,但是测试集理解不好,就称为过拟合,好像把每个训练点都“死记硬背”。

维度拟合良好(Good Fit)过拟合(Overfitting)欠拟合(Underfitting)
基本定义模型正确捕捉主要规律模型把噪声也当成规律模型没有学到有效规律
训练集误差很低
测试集误差
泛化能力
模型复杂度合适过高过低
对数据模式抓住趋势记住细节忽略结构
曲线形态类比平滑贴合趋势过度弯曲抖动过于简单僵直
是否学习噪声不会基本没学到
常见原因特征与模型匹配参数太多、模型太复杂、数据少模型太简单、特征不足
训练时表现稳定收敛训练效果极好训练效果也不好
新数据表现稳定明显变差依旧很差
典型例子合理阶数的回归曲线高阶多项式强行穿点用直线拟合非线性关系
改进方向保持或微调降复杂度、加正则、加数据增复杂度、加特征、延长训练

scikit-learn

基于 Python 的 scikit-learn 库是机器学习的库之一,特点:

  1. 简单高效的数据挖掘和数据分析工具;
  2. 可供大家使用,可在各种环境中重复使用;
  3. 建立在 NumPy,SciPy 和 matplotlib 上;
  4. 开源,可商业使用-获取 BSD 许可证。

安装:pip install scikit-learn

为方便开发而创建的常用库指南