Learning Stochastic Recurrent Networks

Bayerらがvariational autoencoderを時系列データに適用したstochastic recurrent networks (STORNs)に関する以下の論文のノートを公開します.
J. Bayer and C. Osendorfer, “Learning Stochastic Recurrent Networks,” ICLR 2015.

variational autoencoderについて説明した以前の投稿をまだ読んでいない人は先にそちらを読んでください.

系列データに対するモデル

事前確率・尤度・事後確率の近似の考え方

通常のvariational autoencoderとSTORNsの違いは,対象とするデータが系列データになることです.系列データに対してどのようなモデルを用いればよいかは考え方によって変わりますので,様々なモデルが考えられます.ここでは,論文に書かれている考え方について説明します.

$D$次元のデータ$\bm{x}_t^{(i)} \in\mathbb{R}^D$からなる系列データ$\bm{x}^{(i)} = \left\{\bm{x}_t^{(i)} \right\}_{t=1}^{T^{(i)}}$があるとし,系列データ$\bm{x}^{(i)}$からなる系列データセット${\rm X} = \left\{ \bm{x}^{(i)} \right\}_{i=1}^{N}$があるとします.

通常のvariational autoencoderでは,事前確率$p(\bm{z})$と尤度$p(\bm{x}|\bm{z})$からなる2段階の確率過程として生成モデルを考えました.データ$\bm{x}$と潜在変数$\bm{z}$の同時確率$p(\bm{x}, \bm{z})$が条件付き確率の関係を使うと
\begin{equation}
p(\bm{x}, \bm{z}) = p(\bm{x}|\bm{z}) p(\bm{z})
\end{equation}
と表せることから,variational autoencoderにおける生成モデルでは同時確率$p(\bm{x}, \bm{z})$を事前確率$p(\bm{z})$と尤度$p(\bm{x}|\bm{z})$からなる2段階の確率過程に分解していたと考えられます.

では,系列データに対してデータと潜在変数の同時確率$p(\bm{x}_1, \cdots \bm{x}_T , \bm{z}_1, \cdots \bm{z}_T)$を考えましょう.条件付き確率の関係を使うと

\begin{equation}
p(\bm{x}_1, \cdots \bm{x}_T , \bm{z}_1, \cdots \bm{z}_T) =
p(\bm{x}_1, \cdots \bm{x}_T |\bm{z}_1, \cdots \bm{z}_T)
p(\bm{z}_1, \cdots \bm{z}_T)
\end{equation}

と系列データの事前確率$p(\bm{z}_1, \cdots \bm{z}_T)$と系列データの尤度$p(\bm{x}_1, \cdots \bm{x}_T |\bm{z}_1, \cdots \bm{z}_T)$に分解することができます.

今,この関係を以下のように書くことにし,

\begin{equation}
p(\bm{x}_{\leq T} , \bm{z}_{\leq T}) =
p(\bm{x}_{\leq T} | \bm{z}_{\leq T})
p(\bm{z}_{\leq T})
\end{equation}

系列データの事前確率$p(\bm{z}_{\leq T})$と系列データの尤度$p(\bm{x}_{\leq T} | \bm{z}_{\leq T})$を考えます.また,系列データに対する事後確率の近似$q(\bm{z}_{\leq T} | \bm{x}_{\leq T})$も考えます.

系列データの事前確率$p(\bm{z}_{\leq T})$

系列データの事前確率$p(\bm{z}_{\leq T})$に連鎖律を適用すると

\begin{equation}
p(\bm{z}_{\leq T}) = \prod_{t=1}^{T} p(\bm{z}_t | \bm{z}_{<t})
\end{equation}

(ただし,$p(\bm{z}_0) = 1$)と各時刻の事前確率に分解できます.

論文では,ある時刻$t$の潜在変数$\bm{z}_t$は以前の時刻の潜在変数$\bm{z}_{<t}$には依存しないと考え,

\begin{equation}
p(\bm{z}_{\leq T}) = \prod_{t=1}^{T} p(\bm{z}_t) \label{prior}
\end{equation}

としています.

系列データの尤度$p(\bm{x}_{\leq T} | \bm{z}_{\leq T})$

系列データの尤度$p(\bm{x}_{\leq T} | \bm{z}_{\leq T})$にも連鎖律を適用すると

\begin{equation}
p(\bm{x}_{\leq T} | \bm{z}_{\leq T}) = \prod_{t=1}^{T} p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq T})
\end{equation}

(ただし,$p(\bm{x}_0) = 1$)と各時刻の尤度に分解できます.

論文では,ある時刻$t$のデータ$\bm{x}_t$は前の時刻のデータ$\bm{x}_{<t}$と以前の時刻の潜在変数$\bm{z}_{\leq t}$にだけ依存すると考え,

\begin{equation}
p(\bm{x}_{\leq T} | \bm{z}_{\leq T}) = \prod_{t=1}^{T} p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t}) \label{likelihood}
\end{equation}

としています.

系列データの事後確率の近似$q(\bm{z}_{\leq T} | \bm{x}_{\leq T})$

系列データの事後確率の近似$q(\bm{z}_{\leq T} | \bm{x}_{\leq T})$にも連鎖律を適用すると

\begin{equation}
q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) = \prod_{t=1}^{T} q(\bm{z}_t | \bm{x}_{\leq T}, \bm{z}_{<t})
\end{equation}

と各時刻の事後確率の近似に分解できます.

論文では,ある時刻$t$の潜在変数$\bm{z}_t$は以前の時刻のデータ$\bm{x}_{\leq t}$にだけ依存すると考え,

\begin{equation}
q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) = \prod_{t=1}^{T} q(\bm{z}_t | \bm{x}_{\leq t}) \label{posterior}
\end{equation}

としています.

まとめ

まとめると,系列データの事前確率$p(\bm{z}_{\leq T})$・系列データの尤度$p(\bm{x}_{\leq T} | \bm{z}_{\leq T})$・系列データの事後確率の近似$q(\bm{z}_{\leq T} | \bm{x}_{\leq T})$は,それぞれ式(\ref{prior})・式(\ref{likelihood})・式(\ref{posterior})のように,各時刻の事前確率$p(\bm{z}_{t})$・各時刻の尤度$p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})$・各時刻の事後確率の近似$q(\bm{z}_t | \bm{x}_{\leq t})$に分解されました.

後は,各時刻でそれぞれの確率をどのように表現するかを考えればよいことになります.

$t=1$のときのモデル

まず,時刻$t=1$のときにモデルがどのように表現されるかについて考えましょう.

$t=1$のとき,事前確率は$p(\bm{z}_1)$,尤度は$p(\bm{x}_1 |\bm{z}_1)$,事後確率の近似は$q(\bm{z}_1 |\bm{x}_1)$となります.いずれも通常のvariational autoencoderの表現と変わりませんので,モデルも同じになります.(尤度で使用する確率分布は問題によって変わりますが,図では正規分布としています.)

$t>1$のときのモデル

次に,時刻$t>1$のときにモデルがどのように表現されるかについて考えましょう.

生成モデル

まず生成モデルについて考えます.

$t>1$のとき,事前確率は$p(\bm{z}_t)$であり,過去のデータにも潜在変数にも依存していません.したがって,通常のvariational autoencoderと同様に単純な分布である標準正規分布によって表現します.

一方,$t>1$のときの尤度は$p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})$であり,前の時刻のデータ$\bm{x}_{<t}$と以前の時刻の潜在変数$\bm{z}_{\leq t}$に依存します.論文では,再帰ニューラルネットワーク$f^g$を使用してこの依存関係を表現しています.再帰ニューラルネットワーク$f^g$では,時刻$t-1$におけるデータ$\bm{x}_{t-1}$と時刻$t$における潜在変数$\bm{z}_t$を入力とし,再帰的に隠れ層の状態$\bm{h}_{t}^{g}$を更新し,$\bm{y}_t^g$を出力します.この$\bm{y}_t^g$をdecoder networkに入力することで,時間的依存関係のある尤度$p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})$を表現しています.

推論モデル

次に推論モデルについて考えます.

$t>1$のときの事後確率の近似は$q(\bm{z}_t | \bm{x}_{\leq t})$であり,以前の時刻のデータ$\bm{x}_{\leq t}$に依存します.論文では,再帰ニューラルネットワーク$f^r$によりこの依存関係を表現しています.再帰ニューラルネットワーク$f^r$では,時刻$t$におけるデータ$\bm{x}_{t}$を入力とし,再帰的に隠れ層の状態$\bm{h}_{t}^{r}$を更新し,$\bm{y}_t^r$を出力します.この$\bm{y}_t^r$をencoder networkに入力することで,時間的依存関係のある事後確率の近似$q(\bm{z}_t | \bm{x}_{\leq t})$を表現しています.

誤差関数

誤差関数

通常のvariational autoencoderでは,誤差関数を考えるときに事後確率に対する事後確率の近似のKL Divergenceを使用しました.ここでは,系列データとしてこれらのKL Divergenceを考えます.

系列データの事後確率$p(\bm{z}_{\leq T} | \bm{x}_{\leq T})$に対する系列データの事後確率の近似$q(\bm{z}_{\leq T} | \bm{x}_{\leq T})$のKL Divergenceは

\begin{equation}
D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right) =
\mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[ \log \frac{q(\bm{z}_{\leq T} | \bm{x}_{\leq T})}{p(\bm{z}_{\leq T} | \bm{x}_{\leq T})} \right]
\end{equation}
と表せます.ベイズ則を適用し,整理すると

\begin{eqnarray}
&&D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right) \nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[ \log \frac{q(\bm{z}_{\leq T} | \bm{x}_{\leq T})p(\bm{x}_{\leq T})}{p(\bm{x}_{\leq T} | \bm{z}_{\leq T}) p(\bm{z}_{\leq T})} \right] \nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[ \log
\frac{1}{p(\bm{x}_{\leq T} | \bm{z}_{\leq T})}
\frac{q(\bm{z}_{\leq T} | \bm{x}_{\leq T})}{p(\bm{z}_{\leq T})}
p(\bm{x}_{\leq T})
\right] \nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
– \log p(\bm{x}_{\leq T} | \bm{z}_{\leq T})
+ \log \frac{q(\bm{z}_{\leq T} | \bm{x}_{\leq T})}{p(\bm{z}_{\leq T})}
+ \log p(\bm{x}_{\leq T})
\right] \nonumber \\
&=& – \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log p(\bm{x}_{\leq T} | \bm{z}_{\leq T})
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{q(\bm{z}_{\leq T} | \bm{x}_{\leq T})}{p(\bm{z}_{\leq T})}
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log p(\bm{x}_{\leq T})
\right] \nonumber \\
&=& – \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log p(\bm{x}_{\leq T} | \bm{z}_{\leq T})
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{q(\bm{z}_{\leq T} | \bm{x}_{\leq T})}{p(\bm{z}_{\leq T})}
\right]
+ \log p(\bm{x}_{\leq T})
\nonumber
\end{eqnarray}

となります.

ここで,系列データの事前確率$p(\bm{z}_{\leq T})$・系列データの尤度$p(\bm{x}_{\leq T} | \bm{z}_{\leq T})$・系列データの事後確率の近似$q(\bm{z}_{\leq T} | \bm{x}_{\leq T})$を,それぞれ式(\ref{prior})・式(\ref{likelihood})・式(\ref{posterior})により,各時刻の事前確率$p(\bm{z}_{t})$・各時刻の尤度$p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})$・各時刻の事後確率の近似$q(\bm{z}_t | \bm{x}_{\leq t})$に分解し,整理すると

\begin{eqnarray}
&&D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right) \nonumber \\
&=& – \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \prod_{t=1}^{T} p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{\prod_{t=1}^{T} q(\bm{z}_t | \bm{x}_{\leq t})}{\prod_{t=1}^{T} p(\bm{z}_t) }
\right]
+ \log p(\bm{x}_{\leq T})
\nonumber \\
&=& – \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\sum_{t=1}^{T} \log p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\sum_{t=1}^{T} \log \frac{q(\bm{z}_t | \bm{x}_{\leq t})}{p(\bm{z}_t) }
\right]
+ \log p(\bm{x}_{\leq T})
\nonumber \\
&=& -\sum_{t=1}^{T} \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+\sum_{t=1}^{T}  \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log \frac{q(\bm{z}_t | \bm{x}_{\leq t})}{p(\bm{z}_t) }
\right]
+ \log p(\bm{x}_{\leq T})
\nonumber \\
&=& – \sum_{t=1}^{T} \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+\sum_{t=1}^{T}
D_{KL}\left(q(\bm{z}_{t}|\bm{x}_{\leq t}) || p(\bm{z}_t)\right)
+ \log p(\bm{x}_{\leq T})
\nonumber \\
&=& \sum_{t=1}^{T} \left\{
– \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ D_{KL}\left(q(\bm{z}_{t}|\bm{x}_{\leq t}) || p(\bm{z}_t)\right)
\right\}
+ \log p(\bm{x}_{\leq T})
\end{eqnarray}

となります.

$\log p(\bm{x}_{\leq T})$はintractableですが,それ以外はtractableですので,時刻$t$における誤差関数$E_t$を

\begin{equation}
E_t =
– \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_t | \bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ D_{KL}\left(q(\bm{z}_{t}|\bm{x}_{\leq t}) || p(\bm{z}_t)\right)
\end{equation}

と求め,系列データに対する誤差関数$E$は,時間方向に加算すればよいです.

\begin{equation}
E = \sum_{t=1}^{T} E_t
\end{equation}

データの対数尤度のLower Bound

通常のvariational autoencoderと同様に,誤差関数はデータの対数尤度のlower boundの符号を反転させたものになります.ここでは,データの対数尤度のlower boundを求めておきます.

\begin{eqnarray}
&& \log p(\bm{x}_{\leq T}) \nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log p(\bm{x}_{\leq T})
\right]
\nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{p(\bm{x}_{\leq T} |\bm{z}_{\leq T}) p(\bm{z}_{\leq T})}{p(\bm{z}_{\leq T} |\bm{x}_{\leq T})}
\right]
\nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{p(\bm{x}_{\leq T} |\bm{z}_{\leq T}) p(\bm{z}_{\leq T})}{p(\bm{z}_{\leq T} |\bm{x}_{\leq T})}
\frac{q(\bm{z}_{\leq T} |\bm{x}_{\leq T})}{q(\bm{z}_{\leq T} |\bm{x}_{\leq T})}
\right]
\nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log p(\bm{x}_{\leq T} |\bm{z}_{\leq T})
\frac{ p(\bm{z}_{\leq T})}{q(\bm{z}_{\leq T} |\bm{x}_{\leq T})}
\frac{q(\bm{z}_{\leq T} |\bm{x}_{\leq T})}{p(\bm{z}_{\leq T} |\bm{x}_{\leq T})}
\right]
\nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log p(\bm{x}_{\leq T} |\bm{z}_{\leq T})
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{ p(\bm{z}_{\leq T})}{q(\bm{z}_{\leq T} |\bm{x}_{\leq T})}
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{q(\bm{z}_{\leq T} |\bm{x}_{\leq T})}{p(\bm{z}_{\leq T} |\bm{x}_{\leq T})}
\right]
\nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \prod_{t=1}^T p(\bm{x}_{t} |\bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\log \frac{ \prod_{t=1}^T p(\bm{z}_{t})}{\prod_{t=1}^T q(\bm{z}_{t} |\bm{x}_{\leq t})}
\right]
+ D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right)
\nonumber \\
&=& \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\sum_{t=1}^T \log p(\bm{x}_{t} |\bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ \mathbb{E}_{\bm{z}_{\leq T} \sim q(\bm{z}_{\leq T}|\bm{x}_{\leq T})} \left[
\sum_{t=1}^T \log \frac{p(\bm{z}_{t})}{q(\bm{z}_{t} |\bm{x}_{\leq t})}
\right]
+ D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right)
\nonumber \\
&=& \sum_{t=1}^T \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_{t} |\bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ \sum_{t=1}^T\mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log \frac{p(\bm{z}_{t})}{q(\bm{z}_{t} |\bm{x}_{\leq t})}
\right]
+ D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right)
\nonumber \\
&=& \sum_{t=1}^T \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_{t} |\bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ \sum_{t=1}^T D_{KL}\left(q(\bm{z}_{t} | \bm{x}_{\leq t}) || p(\bm{z}_{t})\right)
+ D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right)
\nonumber \\
&=& \sum_{t=1}^T \left\{ \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_{t} |\bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ D_{KL}\left(q(\bm{z}_{t} | \bm{x}_{\leq t}) || p(\bm{z}_{t})\right) \right\}
+ D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right)
\end{eqnarray}

$D_{KL}\left(q(\bm{z}_{\leq T} | \bm{x}_{\leq T}) || p(\bm{z}_{\leq T} | \bm{x}_{\leq T})\right)$はintractableですが,KL Divergenceは$0$以上になりますので,

\begin{equation}
\log p(\bm{x}_{\leq T}) \geq
\sum_{t=1}^T \left\{ \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_{t} |\bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ D_{KL}\left(q(\bm{z}_{t} | \bm{x}_{\leq t}) || p(\bm{z}_{t})\right) \right\}
\end{equation}

と表わせ,データの対数尤度$\log p(\bm{x}_{\leq T})$のlower bound $L$は

\begin{equation}
L =
\sum_{t=1}^T \left\{ \mathbb{E}_{\bm{z}_{t} \sim q(\bm{z}_{t}|\bm{x}_{\leq t})} \left[
\log p(\bm{x}_{t} |\bm{x}_{<t}, \bm{z}_{\leq t})
\right]
+ D_{KL}\left(q(\bm{z}_{t} | \bm{x}_{\leq t}) || p(\bm{z}_{t})\right) \right\}
\end{equation}

となります.