表示学习
表示学习
在深度学习中,前面的层为表示学习,最后一层为预测学习
- 自动地学习出有效的特征,并最终提高机器学习模型的性能的算法就叫做表示学习。
- 表示学习关键是解决语义鸿沟问题————是指输入数据的底层特征表示和高层的抽象语义特征不一致性。(对于一些不同颜色和形状的车来说,它们在像素级别的表示(底层特征表示)上相差很大,但我们认为它们都是车是建立在高层语义特征上的)
- 表示学习的两个核心问题:
什么是一个好的表示
如何学习到好的表示
局部表示
也叫离散表示或符号表示,通常用one-hot向量表示,假设所有颜色构成一个词表,词表长度为|V|,可以用一个v维的向量来表示特征,在第i种颜色所对应的one-hot向量中的第 i 维为1,其他维为0
优点:
- 离散的表示方式具有好的解释性
- 这种特征表示通常是稀疏的二值向量,计算效率高
缺点:
- 维数高,不易扩展
- 不同特征之间的相似度都为0(按理来说红色与粉红色的相似度肯定比 红色和黑色高)
分布式表示
用RGB三个数值来表示颜色
优点:
- 向量维度要低,更容易扩展
- 不同颜色的相似度也容易计算
嵌入
使用神经网络将高维的局部表示空间映射到一个低维的分布式表示空间,这个过程被称为嵌入