神经网络与深度学习（邱锡鹏_复旦大学）概述

2022-03-09

深度学习

字数统计: 971 | 阅读时长≈ 3 分钟

一、概述

从人工智能开始，让机器具有人类的智能：

机器感知：计算机视觉、语音信息处理
学习：模式识别、机器学习、强化学习
语言：自然语言处理
记忆：知识表示
决策：规划、数据挖掘

如何开发一个人工智能系统？

1.1 A Big Picture

1.2 机器学习

机器学习~= 构建一个映射函数:

语音识别
$$
f(语音数字信号) = “你好”
$$

图像识别
$$
f(图形像素数据) = “9”
$$
围棋
$$
f(棋盘当前落子情况) = “6-5” (落子位置)
$$
机器翻译
$$
f(“你好”) = “Hello”
$$

1.2.1 机器学习的三要素

模型
- 线性方法：
  $$
  f(x,\theta)=w^T+b
  $$
  广义线性方法：
  $$
  f(x,\theta)=w^T\phi(x)+b
  $$
  - 如果$\phi(x)$为可学习的非线性基函数，$f(x,\theta)$就等价于神经网络
学习准则
- 期望风险
优化
- 梯度下降

1.2.2 常见的机器学习类型

1.2.3 参数学习

期望风险未知，通过经验风险近似
- 训练数据：$D={x^{(i)},y^{(i)}},i\epsilon[1,N]$

经验风险最小化
- 在选择合适的风险函数后，我们寻找一个参数$\theta^*$,使得经验风险函数最小化。
  $$
  \theta^*=arg_\theta minR_{D}^{emp} (\theta)
  $$
机器学习问题转化为一个最优化问题

1.2.4 优化：梯度下降法

随机梯度下降法

机器学习！=优化

1.2.5 泛化错误

1.2.5.1 PAC学习

PAC：Probably Approximately Correct

根据大数定律，当训练集大小|D| 趋于无穷大时，泛化错误趋向于0，即经验风险趋近于期望风险。
PAC学习

样本复杂度

如果固定$\epsilon,\delta$，反过来可以计算出样本复杂度为：
- 其中$|F|$为假设空间的大小，可以用Rademacher复杂性或VC维来衡量。
PAC学习理论可以帮助分析一个机器学习方法在什么条件下可以学习到一个近似正确的分类器。
如果希望模型的假设空间越大，泛化错误越小，其需要的样本数量越多。

如何减小泛化错误？

正则化（Regularization）

1.3 如何选择一个合适的模型

模型选择
- 拟合能力强的模型一般复杂度会比较高，容易过拟合。
- 如果限制模型复杂度，降低拟合能力，可能会欠拟合。
偏差与方差分解
- 期望错误可以分解为：

1.3.1 模型选择：偏差与方差

集成模型：有效降低方差的方法
集成模型：
通过多个高方差模型的平均来降低方差。
集成模型的期望错误大于等于所有模型的平均期望错误的1/M，小于等于所有模型的平均期望错误。

2 线性模型

2.1 应用

图像分类

文本分类：根据文本内容来判断文本的相应类别

2.2 感知器

模型
学习准则
优化：随机梯度下降

2.2.1 两类感知器算法

感知器参数学习的更新过程：

Logistic回归

扩展到多类：Softmax函数

Softmax回归：

几种不同的线性模型的比较：

不同损失函数的比较：

如何处理非线性可分问题？

特征工程问题

在实际应用中，特征往往比分类器更重要
- 预处理：经过数据的预处理，如去除噪声等。比如在文本分类中，去除停用词等。
- 特征提取：从原始数据中提取出一些有效特征。比如在图像分类中，提取边缘、尺度不变特征变换特征等。
- 特征转换：对特征进行一定的加工，比如降维和升维。降维包括：
  - 特征提取：PCA、LDA
  - 特征选择：互信息、TF-IDF

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！