Gaussian Processes for Machine Learning 读书笔记

Rasmussen, Carl Edward, and Christopher K. I. Williams. 2006. Gaussian Processes for Machine Learning. Adaptive Computation and Machine Learning. Cambridge, Mass: MIT Press. http://www.gaussianprocess.org/gpml/chapters/.

笔记

Sec 2讲了做regression的几乎所有基础理论。

Sec 3讲做classification,没有看。

Sec 4讲不同covairance的性质,未看,待看。

在Sec 5讲模型的训练理论。 这本书里把通常的机器学习中的训练的概念称为model selection,所以作为一个外行花了很长时间才弄明白这部分是讲如何训练的。

Bayesian inference

待解决的问题

【大部分问题已经搞明白了,有时间来更新】

  1. 如何实现非线性?如何直观地解释?分别从weight-space和function-space。
  2. Gaussian distribution存在于哪些推导过程中?这里的过程不是指Gaussian process的process。
  3. 如何训练网络?为什么计算复杂度为O(n^3)?
  4. 为什么预测的计算复杂度为O(n)?预测方差的计算复杂度为O(n^2)?
  5. 对大数据量的近似算法是什么原理?怎么评价近似结果?
  6. 如何解释对于非Gaussian distribution使用GP的道理?
  7. GP和SVM的关系?
  8. GP和RBF的关系?
  9. GP和其它Bayesian method的关系?有无?

参考资料

一个作者对gpml的中文解读

Gaussian process regression的导出——权重空间视角下的贝叶斯的方法:阐述了gpml中Sec 2.1的同样内容,表意更直观易懂,添加了作者自己的理解

Gaussian process regression的简洁推导——从Function-space角度看:阐述了gpml中Sec 2.2的同样内容,表意更直观易懂,添加了作者自己的理解

【答疑解惑-I】——Gaussian process的样本生成与其mean和kernel的联系

似然函数

Wikipedia: Likelihood function

In statistics, a distinction is made, depending on the roles of outcomes vs. parameters.

  • Probability is used before data are available to describe plausibility of a future outcome, given a value for the parameter.
  • Likelihood is used after data are available to describe plausibility of a parameter value.

Likelihoods do not have to integrate (or sum) to 1, unlike probabilities.

中文维基:似然函数

类似描述,并不要求似然函数满足归一性,所以,乘除常数对于似然函数可以忽略(忽略后用“正比于”符号连接等式两边)。

边缘分布

中文维基:边缘分布

关于某一个变量进行全积分。 降维操作。

Wikipedia: Marginal distribution