Skip to content

Commit

Permalink
chapter 18 done
Browse files Browse the repository at this point in the history
  • Loading branch information
SwordYork committed Mar 15, 2017
1 parent 8091643 commit ddb2333
Show file tree
Hide file tree
Showing 21 changed files with 1,063 additions and 1,063 deletions.
60 changes: 30 additions & 30 deletions Chapter18/confronting_the_partition_function.tex

Large diffs are not rendered by default.

5 changes: 3 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -56,8 +56,8 @@
| [第十五章 表示学习](https://exacity.github.io/deeplearningbook-chinese/Chapter15_representation_learning/) | @liber145 | @cnscottzheng | | 完成合并 |
| [第十六章 深度学习中的结构化概率模型](https://exacity.github.io/deeplearningbook-chinese/Chapter16_structured_probabilistic_modelling/) | @futianfan | | | 完成合并 |
| [第十七章 蒙特卡罗方法](https://exacity.github.io/deeplearningbook-chinese/Chapter17_monte_carlo_methods/) | @futianfan | | @sailordiary | 完成合并 |
| [第十八章 面对配分函数](https://via.hypothes.is/https://exacity.github.io/deeplearningbook-chinese/Chapter18_confronting_the_partition_function/) | @liber145 | | @tankeco | 需要校对 |
| [第十九章 近似推断](https://via.hypothes.is/https://exacity.github.io/deeplearningbook-chinese/Chapter19_approximate_inference/) | @futianfan | | @sailordiary, @hengqujushi | 完成合并 |
| [第十八章 面对配分函数](https://exacity.github.io/deeplearningbook-chinese/Chapter18_confronting_the_partition_function/) | @liber145 | | | 完成合并 |
| [第十九章 近似推断](https://exacity.github.io/deeplearningbook-chinese/Chapter19_approximate_inference/) | @futianfan | | @sailordiary, @hengqujushi | 完成合并 |
| [第二十章 深度生成模型](https://exacity.github.io/deeplearningbook-chinese/Chapter20_deep_generative_models/) | @swordyork | | | 完成合并 |


Expand All @@ -82,6 +82,7 @@ TODO
@endymecy name:YUE-DaJiong @9578577 @linzhp @cnscottzheng @germany-zhu @zhangyafeikimi @showgood163 @gump88
@kangqf @NeutronT @badpoem @kkpoker @Seaball @wheaio @angrymidiao @ZhiweiYang @corenel @zhaoyu611 @SiriusXDJ @dfcv24 EmisXXY FlyingFire vsooda @friskit-china


注意
-----------

Expand Down
64 changes: 32 additions & 32 deletions docs/_posts/2016-12-01-Chapter1_introduction.md

Large diffs are not rendered by default.

2 changes: 1 addition & 1 deletion docs/_posts/2016-12-02-Chapter2_linear_algebra.md
Original file line number Diff line number Diff line change
Expand Up @@ -777,7 +777,7 @@ Moore-Penrose 伪逆使我们在这类问题上取得了一定的进展。
我们希望找到一个编码函数,根据输入返回编码,$f(\Vx)=\Vc$;我们也希望找到一个解码函数,给定编码重构输入,$\Vx\approx g(f(\Vx))$。


PCA由我们选择的解码函数而定
PCA~由我们选择的解码函数而定
具体地,为了简化解码器,我们使用矩阵乘法将编码映射回$\SetR^n$,即$g(\Vc)=\MD\Vc$,其中$\MD\in \SetR^{n\times l}$是定义解码的矩阵。

<!-- % -- 45 -- -->
Expand Down

Large diffs are not rendered by default.

82 changes: 41 additions & 41 deletions docs/_posts/2016-12-04-Chapter4_numerical_computation.md

Large diffs are not rendered by default.

26 changes: 13 additions & 13 deletions docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md
Original file line number Diff line number Diff line change
Expand Up @@ -232,7 +232,7 @@ Iris(鸢尾花卉)数据集~{cite?}是统计学家和机器学习研究者
学习范式的其他变种也是有可能的。
例如,半监督学习中,一些样本有监督目标,但其他样本没有。
在多实例学习中,样本的整个集合被标记为含有或者不含有该类的样本,但是集合中单独的样本是没有标记的。
参考{Kotzias2015}了解最近深度模型进行多实例学习的示例。
参考~{Kotzias2015}了解最近深度模型进行多实例学习的示例。

有些机器学习算法并不是训练于一个固定的数据集上。
例如,强化学习算法会和环境进行交互,所以学习系统和它的训练过程会有反馈回路。
Expand Down Expand Up @@ -379,7 +379,7 @@ Iris(鸢尾花卉)数据集~{cite?}是统计学家和机器学习研究者

<!-- % -- 106 -- -->

截距项$b$通常被称为仿射变换的\textbf{偏置}(bias)参数。
截距项$b$通常被称为仿射变换的\,\textbf{偏置}(bias)参数。
这个术语的命名源自该变换的输出在没有任何输入时会偏移$b$。
它和统计偏差中指代统计估计算法的某个量的期望估计偏离真实值的意思是不一样的。

Expand Down Expand Up @@ -642,7 +642,7 @@ VC\,维定义为该分类器能够分类的训练样本的最大数目。
\else
\centerline{\includegraphics{Chapter5/figures/underfit_just_right_overfit_wd_color}}
\fi
\caption{我们使用高阶多项式回归模型来拟合图\?中训练样本。真实函数是二次的,但是在这里我们只使用$9$阶多项式。我们通过改变权重衰减的量来避免高阶模型的过拟合问题。\emph{(左)}当$\lambda$非常大时,我们可以强迫模型学习到了一个没有斜率的函数。由于它只能表示一个常数函数,所以会导致欠拟合。\emph{(中)}取一个适当的$\lambda$时,学习算法能够用一个正常的形状来恢复曲率。即使模型能够用更复杂的形状来来表示函数,权重衰减鼓励用一个带有更小参数的更简单的模型来描述它。\emph{(右)}当权重衰减趋近于$0$(即使用\,Moore-Penrose 伪逆来解这个带有最小正则化的欠定问题)时,这个$9$阶多项式会导致严重的过拟合,这和我们在图\?中看到的一样。}
\caption{我们使用高阶多项式回归模型来拟合\fig?中训练样本。真实函数是二次的,但是在这里我们只使用$9$阶多项式。我们通过改变权重衰减的量来避免高阶模型的过拟合问题。\emph{(左)}当$\lambda$非常大时,我们可以强迫模型学习到了一个没有斜率的函数。由于它只能表示一个常数函数,所以会导致欠拟合。\emph{(中)}取一个适当的$\lambda$时,学习算法能够用一个正常的形状来恢复曲率。即使模型能够用更复杂的形状来来表示函数,权重衰减鼓励用一个带有更小参数的更简单的模型来描述它。\emph{(右)}当权重衰减趋近于$0$(即使用\,Moore-Penrose 伪逆来解这个带有最小正则化的欠定问题)时,这个$9$阶多项式会导致严重的过拟合,这和我们在图\?中看到的一样。}
\end{figure}

更一般地,正则化一个学习函数$f(\Vx;\Vtheta)$的模型,我们可以给代价函数添加被称为正则化项的惩罚。
Expand Down Expand Up @@ -969,7 +969,7 @@ MSE\,度量着估计和真实参数$\theta$之间平方误差的总体期望偏
\else
\centerline{\includegraphics{Chapter5/figures/bias_variance_tradeoff}}
\fi
\caption{当容量增大($x$轴)时,偏差(用点表示)随之减小,而方差(虚线)随之增大,使得泛化误差(加粗曲线)产生了另一种U形。如果我们沿着轴改变容量,会发现最佳容量,当容量小于最佳容量会呈现欠拟合,大于时导致过拟合。这种关系与\sec?以及图\?中讨论的容量、欠拟合和过拟合之间的关系类似。}
\caption{当容量增大($x$轴)时,偏差(用点表示)随之减小,而方差(虚线)随之增大,使得泛化误差(加粗曲线)产生了另一种U形。如果我们沿着轴改变容量,会发现最佳容量,当容量小于最佳容量会呈现欠拟合,大于时导致过拟合。这种关系与\sec?以及\fig?中讨论的容量、欠拟合和过拟合之间的关系类似。}
\end{figure}

<!-- % -- 126 -- -->
Expand Down Expand Up @@ -1287,7 +1287,7 @@ MAP\,估计选择后验概率最大的点(或在$\Vtheta$是连续值的更常

许多正规化估计方法,例如权重衰减正则化的最大似然学习,可以被解释为贝叶斯推断的\,MAP\,近似。
这个适应于正则化时加到目标函数的附加项对应着$\log p(\Vtheta)$。
并非所有的正则化惩罚都对应着MAP~贝叶斯推断。
并非所有的正则化惩罚都对应着~MAP~贝叶斯推断。
例如,有些正则化项可能不是一个概率分布的对数。
还有些正则化项依赖于数据,当然也不会是一个先验概率分布。

Expand Down Expand Up @@ -1319,7 +1319,7 @@ MAP\,贝叶斯推断提供了一个直观的方法来设计复杂但可解释的
我们用于线性回归的实数正态分布是用均值参数化的。
我们提供这个均值的任何值都是有效的。
二元变量上的的分布稍微复杂些,因为它的均值必须始终在$0$和$1$之间。
解决这个问题的一种方法是使用logistic sigmoid函数将线性函数的输出压缩进区间$(0,1)$。
解决这个问题的一种方法是使用~logistic sigmoid~函数将线性函数的输出压缩进区间$(0,1)$。
该值可以解释为概率:
\begin{equation}
p(y = 1 \mid \Vx; \Vtheta) = \sigma(\Vtheta^\Tsp \Vx).
Expand Down Expand Up @@ -1423,8 +1423,8 @@ $\Valpha$和$f(\Vx)$之间的关系也是线性的。
反之,在测试阶段我们希望在新的测试输入$\Vx$上产生$y$,我们需要在训练数据$\MX$上找到$\Vx$的$k$-最近邻。
然后我们返回训练集上对应的$y$值的平均值。
这几乎适用于任何类型可以确定$y$值平均值的监督学习。
在分类情况中,我们可以关于one-hot编码向量$\Vc$求平均,其中$c_y = 1$,其他的$i$值取$c_i=0$。
然后,我们可以解释这些one-hot编码的均值为类别的概率分布
在分类情况中,我们可以关于~one-hot~编码向量$\Vc$求平均,其中$c_y = 1$,其他的$i$值取$c_i=0$。
然后,我们可以解释这些~one-hot~编码的均值为类别的概率分布
作为一个非参数学习算法,$k$-近邻能达到非常高的容量。
例如,假设我们有一个用$0$-$1$误差度量性能的多分类任务。
在此设定中,当训练样本数目趋向于无穷大时,$1$-最近邻收敛到两倍贝叶斯误差。
Expand Down Expand Up @@ -1587,13 +1587,13 @@ PCA\,这种将数据变换为元素之间彼此不相关表示的能力是\,PCA\

另外一个简单的表示学习算法是$k$-均值聚类。
$k$-均值聚类算法将训练集分成$k$个靠近彼此的不同样本聚类。
因此我们可以认为该算法提供了$k$-维的one-hot编码向量$\Vh$以表示输入$\Vx$。
因此我们可以认为该算法提供了$k$-维的~one-hot~编码向量$\Vh$以表示输入$\Vx$。
当$\Vx$属于聚类$i$时,有$h_i=1$,$\Vh$的其他项为零。

$k$-均值聚类提供的one-hot编码也是一种稀疏表示,因为每个输入的表示中大部分元素为零。
$k$-均值聚类提供的~one-hot~编码也是一种稀疏表示,因为每个输入的表示中大部分元素为零。
之后,我们会介绍能够学习更灵活的稀疏表示的一些其他算法(表示中每个输入$\Vx$不只一个非零项)。
one-hot编码是稀疏表示的一个极端示例,丢失了很多分布式表示的优点。
one-hot编码仍然有一些统计优点(自然地传达了相同聚类中的样本彼此相似的观点),
one-hot~编码是稀疏表示的一个极端示例,丢失了很多分布式表示的优点。
one-hot~编码仍然有一些统计优点(自然地传达了相同聚类中的样本彼此相似的观点),
也具有计算上的优势,因为整个表示可以用一个单独的整数表示。

$k$-均值聚类初始化$k$个不同的中心点$\{\Vmu^{(1)},\dots,\Vmu^{(k)}\}$,然后迭代交换两个不同的步骤直到收敛。
Expand All @@ -1618,7 +1618,7 @@ $k$-均值聚类初始化$k$个不同的中心点$\{\Vmu^{(1)},\dots,\Vmu^{(k)}\

<!-- % -- 146 -- -->

这些问题说明了一些我们可能更偏好于分布式表示(相对于one-hot表示而言)的原因。
这些问题说明了一些我们可能更偏好于分布式表示(相对于~one-hot~表示而言)的原因。
分布式表示可以对每个车辆赋予两个属性——一个表示它颜色,一个表示它是汽车还是卡车。
目前仍然不清楚什么是最优的分布式表示(学习算法如何知道我们关心的两个属性是颜色和是否汽车或卡车,而不是制造商和车龄?),
但是多个属性减少了算法去猜我们关心哪一个属性的负担,允许我们通过比较很多属性而非测试一个单一属性来细粒度地度量相似性。
Expand Down
Loading

0 comments on commit ddb2333

Please sign in to comment.