当前位置：首页 > article >正文

随机矩阵投影长度保持引理及其证明

article 2025/3/6 13:58:40

原论文中的引理 $\textbf{2}$

$\textbf{1. }$ 引理 $\textbf{1}$ (前提之一)

$\textbf{1.1. }$ 引理 $\textbf{1}$ 的内容

👉前提： $X\sim{}N(0,\sigma)$ 即 $f(x)\text{=}\cfrac{1}{\sqrt{2\pi}\sigma}e^{–\frac{x^{2}}{2\sigma^{2}}}$ ，且 $\forall{}\alpha{}\text{<}\cfrac{1}{2\sigma^{2}}$

👉结论： $\mathrm{E}\left[e^{\alpha{}X^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}}$

$\textbf{2. }$ 引理 $\textbf{1}$ 的证明

↪ $\displaystyle{}\mathrm{E}\left[e^{\alpha{}X^2}\right]\text{=}\int_{–\infty}^{\infty}e^{\alpha{}x^2}f(x)dx\text{=}\int_{–\infty}^{\infty} e^{\alpha x^2} \cdot \frac{1}{\sqrt{2 \pi} \sigma} e^{–\frac{x^2}{2 \sigma^2}} d x\text{=}\int_{–\infty}^{\infty} \frac{1}{\sqrt{2 \pi} \sigma} e^{–\frac{x^2}{2 \sigma^2}\left(1–2 \alpha \sigma^2\right)} d x$

↪令 $\sigma^{\prime}=\cfrac{\sigma}{\sqrt{1–2 \alpha \sigma^2}}$ ，其中必定要求 $\alpha \sigma^2\text{>0}$ 即 $\alpha{}\text{<}\cfrac{1}{2\sigma^{2}}$

↪ $\displaystyle{}\mathrm{E}\left[e^{\alpha X^2}\right]\text{=}\int_{–\infty}^{\infty} \cfrac{\sqrt{1–2 \alpha \sigma^2}}{\sqrt{2 \pi} \sigma \sqrt{1–2 \alpha \sigma^2}} e^{–\frac{x^2}{2 \sigma^2}\left(1–2 \alpha \sigma^2\right)} d x\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}}\int_{-\infty}^{\infty} \cfrac{1}{\sqrt{2 \pi} \sigma^{\prime}} e^{-\frac{x^2}{2 \sigma^{\prime 2}}} d x$

↪考虑到 $\displaystyle{}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi} \sigma^{\prime}} e^{-\frac{x^2}{2 \sigma^{\prime 2}}} d x\text{=}1$ ，所以 $\mathrm{E}\left[e^{\alpha{}X^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}}$

$\textbf{2. }$ 引理 $\textbf{2}$

$\textbf{2.1. }$ 引理 $\textbf{2}$ 的内容

👉前提 $1$ ：设一个随机矩阵 $S\text{=}(s_{ij})\text{∈}\mathbb{R}^{t\text{×}d}$ ，每个元素 $s_{ij}$ 独立同分布于 $N (0, 1)$

👉前提 $2$ ：对任意固定向量 $u\text{∈}\mathbb{R}^{d\text{×}1}$ (即 $u^{\prime}$ 不随机)，定义 $u^{\prime}\text{=}\cfrac{1}{\sqrt{t}}(Su)$

👉:结论 $1$ ： $\text{E}\left[\left\|u^{\prime}\right\|^2\right]\text{=}\|u\|^2$ ，即 $\left\|u^{\prime}\right\|^2$ 和 $u\|^2$ 在统计学上是相等的

👉结论 $2$ ： $\text{Pr}\left[\left\|u^{\prime}\right\|^2\notin{}(1\text{±}\varepsilon{})\|u\|^2\right]\text{≤}2e^{–\left(\varepsilon{}^2–\varepsilon{}^3\right)\frac{t}{4}}$ ，即 $\left\|u^{\prime}\right\|^2$ 和 $u\|^2$ 在实际值上偏差极小且可控

$\textbf{2.2. }$ 引理 $\textbf{2}$ 的证明

$\textbf{2.2.1. }$ 对结论 $\textbf{1}$ 的证明

↪对于 $s_{ij}\sim{}N(0,1)$ ，则有 $\displaystyle{}S_{\cdot{}j}u\text{=}\sum_{i=1}^{d}s_{ij}u_i\sim{}N(0,\|u\|^2)$

均值 $\displaystyle{}\text{E}\left[S_{\cdot{}j}u\right]\text{=}\text{E}\left[\sum_{i=1}^ds_{ij}u_i\right]\text{=}\sum_{i=1}^du_i\text{E}\left[s_{ij}\right]\text{=}0$
方差 $\displaystyle{}\text{Var}\left[S_{\cdot{}j}u\right]\text{=}\text{Var}\left[\sum_{i=1}^ds_{ij}u_i\right]\text{=}\sum_{i=1}^d\text{Var}[s_{ij}u_i]\text{=}\sum_{i=1}^du_i^2\text{Var}[s_{ij}]\text{=}\sum_{i=1}^du_i^2\text{=}\|u\|^2$

↪正态分布性质 $\text{E}[X^2]\text{=}\sigma{}^2$ ，所以 $\text{E}\left[\left(S_{\cdot{}j}u\right)^2\right]\text{=}\|u\|^2$

↪所以 $\displaystyle{}\text{E}\left[\|Su\|^2\right]\text{=}\text{E}\left[\sum_{j\text{=}1}^t\left(S_{\cdot{}j}u\right)^2\right]\text{=}\sum_{j=1}^t\text{E}\left[\left(S_{\cdot{}j}u\right)^2\right]\text{=}t\|u\|^2$

↪根据 $u^{\prime}\text{=}\cfrac{1}{\sqrt{t}}(Su)$ ，得到 $\left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2$

↪所以 $\displaystyle{}\text{E}\left[\left\|u^{\prime}\right\|^2\right]\text{=}\text{E}\left[\cfrac{1}{t}\|Su\|^2\right]\text{=}\cfrac{1}{t}\text{E}\left[\|Su\|^2\right]\text{=}\cfrac{1}{t}\left(t\|u\|^2\right)\text{=}\|u\|^2$

$\textbf{2.2.2. }$ 对结论 $\textbf{2}$ 的证明(正半边)

↪考虑到 $\displaystyle{}S_{\cdot{}j}u\sim{}N(0,\|u\|^2)$ ，故将其归一化为 $X_j\text{=}\cfrac{S_{\cdot{}j}u}{\|u\|}\sim{}N(0,1)$

↪由此定义 $\displaystyle{}X\text{=}\sum_{j=1}^tX_j^2$ (自由度为 $t$ 的 $\chi^2$ 分布)，由此 $\displaystyle{}\left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2\text{=}\cfrac{1}{t}\sum_{j=1}^t\left(S_{\cdot{}j}u\right)^2\text{=}\|u\|^2\cfrac{1}{t}\sum_{j=1}^tX_j^2\text{=}\cfrac{1}{t}\|u\|^2X$

↪由此 $\text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≥}(1\text{+}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]$

↪考虑马可夫不等式的指数形式： $\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{=}\text{Pr}\left[e^{\alpha{}X}\text{≥}e^{\alpha{}(1\text{+}\varepsilon{})t}\right]\text{≤}\cfrac{\text{E}\left[e^{\alpha{}X}\right]}{e^{\alpha{}(1\text{+}\varepsilon{})t}}$

考虑到 $\displaystyle{}X\text{=}\sum_{j=1}^tX_j^2$ ，所以 $\displaystyle{}\text{E}\left[e^{\alpha{}X}\right]\text{=}\text{E}\left[e^{\alpha{}(X^2_1\text{+}X^2_2\text{+}\cdots\text{+}X^2_t)}\right]\text{=}\text{E}\left[e^{\alpha{}X^2_1}e^{\alpha{}X^2_2}\cdots{}e^{\alpha{}X^2_t}\right]\text{=}\text{E}\left[\prod_{j=1}^te^{\alpha{}X^2_j}\right]\text{=}\prod_{j=1}^t\text{E}\left[e^{\alpha{}X_j^2}\right]$
在引理 $1$ 中已经证明 $\text{E}\left[e^{\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}}(\alpha{}\text{<}\cfrac{1}{2\sigma^{2}})$ ，考虑到此处 $\sigma({X_j})\text{=}1$ 所以 $\text{E}\left[e^{\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}}}(\alpha{}\text{<}\cfrac{1}{2})$
所以 $\displaystyle{}\text{E}\left[e^{\alpha{}X}\right]\text{=}\prod_{j=1}^t\left(\cfrac{1}{\sqrt{1–2\alpha{}}}\right)\text{=}\left(\cfrac{1}{\sqrt{1–2\alpha{}}}\right)^t\text{=}\cfrac{1}{(1–2\alpha)^{\frac{t}{2}}}$
代入原式得 $\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\cfrac{\text{E}\left[e^{\alpha{}X}\right]}{e^{\alpha{}(1\text{+}\varepsilon{})t}}\text{=}\cfrac{{(1–2\alpha)^{–\frac{t}{2}}}}{e^{\alpha{}(1\text{+}\varepsilon{})t}}\text{=}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}}$

↪对于 $\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}}$ ，有必要在 $0\text{<}\alpha{}\text{<}\cfrac{1}{2}$ 的范围内确定 $f(\alpha)\text{=}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}}$ 的最小值

对于 $\ln(f(\alpha))\text{=}\cfrac{t}{2}[–2(1\text{+}\varepsilon)\alpha–\ln(1–2\alpha)]$ ，令 $g(\alpha)\text{=}–2(1\text{+}\varepsilon)\alpha–\ln(1–2\alpha)$ ，如下图( $\varepsilon\text{=}3$ )

一阶导 $\cfrac{\text{d}g{(\alpha)}}{\text{d}\alpha}\text{=}\cfrac{2}{1–2\alpha}–2(1\text{+}\varepsilon)$ ，具有临界点 $\alpha^*\text{=}\cfrac{\varepsilon}{2(1\text{+}\varepsilon)}\text{∈}\left(0,\cfrac{1}{2}\right)$ ，故 $\varepsilon\text{>}0$

代入原式即得 $\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1\text{+}\varepsilon) e^{–\varepsilon}\right)^{\frac{t}{2}}$

↪进一步对 $h(\varepsilon)\text{=}\left((1\text{+}\varepsilon)e^{–\varepsilon}\right)^{\frac{t}{2}}$ 的分析

泰勒展开 $\ln{}(1\text{+}\varepsilon)\text{=}\varepsilon–\cfrac{\varepsilon^2}{2}\text{+}\cfrac{\varepsilon^3}{3}\text{+}O\left(\varepsilon^4\right)$ ，则 $\ln(1\text{+}\varepsilon)–\varepsilon\text{≤}–\cfrac{\varepsilon^2}{2}\text{+}\cfrac{\varepsilon^3}{3}\text{≤}–\cfrac{1}{2}\left(\varepsilon^2–\varepsilon^3\right)$
故在 $\ln(h(\varepsilon))\text{=}\cfrac{t}{2}(\ln(1\text{+}\varepsilon)–\varepsilon)\text{≤}–\cfrac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)$ ，即 $h(\varepsilon)\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)}$

↪最后 $\text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≥}(1\text{+}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1\text{+}\varepsilon) e^{–\varepsilon}\right)^{\frac{t}{2}}\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)}$

$\textbf{2.2.3. }$ 对结论 $\textbf{2}$ 的证明(负半边)

↪考虑到 $\displaystyle{}S_{\cdot{}j}u\sim{}N(0,\|u\|^2)$ ，故将其归一化为 $X_j\text{=}\cfrac{S_{\cdot{}j}u}{\|u\|}\sim{}N(0,1)$

↪由此定义 $\displaystyle{}X\text{=}\sum_{j=1}^tX_j^2$ (自由度为 $t$ 的 $\chi^2$ 分布)，由此 $\displaystyle{}\left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2\text{=}\cfrac{1}{t}\sum_{j=1}^t\left(S_{\cdot{}j}u\right)^2\text{=}\|u\|^2\cfrac{1}{t}\sum_{j=1}^tX_j^2\text{=}\cfrac{1}{t}\|u\|^2X$

↪由此 $\text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≤}(1\text{–}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[X\text{≤}(1\text{–}\varepsilon{})t\right]\text{=}\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]$

↪考虑马可夫不等式的指数形式： $\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{=}\text{Pr}\left[e^{\alpha{}(–X)}\text{≥}e^{–\alpha{}(1\text{–}\varepsilon{})t}\right]\text{≤}\cfrac{\text{E}\left[e^{–\alpha{}X}\right]}{e^{–\alpha{}(1\text{–}\varepsilon{})t}}$

考虑到 $\displaystyle{}X\text{=}\sum_{j=1}^tX_j^2$ ，所以 $\displaystyle{}\text{E}\left[e^{–\alpha{}X}\right]\text{=}\text{E}\left[e^{–\alpha{}(X^2_1\text{+}X^2_2\text{+}\cdots\text{+}X^2_t)}\right]\text{=}\text{E}\left[e^{–\alpha{}X^2_1}e^{–\alpha{}X^2_2}\cdots{}e^{–\alpha{}X^2_t}\right]\text{=}\text{E}\left[\prod_{j=1}^te^{–\alpha{}X_j^2}\right]\text{=}\prod_{j=1}^t\text{E}\left[e^{–\alpha{}X_j^2}\right]$
在引理 $1$ 中已经证明 $\text{E}\left[e^{–\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1\text{+}2\alpha{}\sigma^{2}}}(\alpha{}\text{>}–\cfrac{1}{2\sigma^{2}})$ ，考虑到此处 $\sigma({X_j})\text{=}1$ 所以 $\text{E}\left[e^{–\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}(\alpha{}\text{>}–\cfrac{1}{2})$
所以 $\displaystyle{}\text{E}\left[e^{–\alpha{}X}\right]\text{=}\prod_{j=1}^t\left(\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}\right)\text{=}\left(\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}\right)^t\text{=}\cfrac{1}{(1\text{+}2\alpha)^{\frac{t}{2}}}$
代入原式得 $\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\cfrac{\text{E}\left[e^{–\alpha{}X}\right]}{e^{–\alpha{}(1–\varepsilon{})t}}\text{=}\cfrac{{(1\text{+}2\alpha)^{–\frac{t}{2}}}}{e^{–\alpha{}(1–\varepsilon{})t}}\text{=}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}$

↪对于 $\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}$ ，有必要在 $\alpha{}\text{>}–\cfrac{1}{2}$ 的范围内确定 $f(\alpha)\text{=}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}$ 的最小值

对于 $\ln(f(\alpha))\text{=}\cfrac{t}{2}[2(1–\varepsilon)\alpha–\ln(1\text{+}2\alpha)]$ ，令 $g(\alpha)\text{=}[2(1–\varepsilon)\alpha–\ln(1\text{+}2\alpha)]$ ，如下图( $\varepsilon\text{=}–\cfrac{1}{3}$ )

一阶导 $\cfrac{\text{d}g{(\alpha)}}{\text{d}\alpha}\text{=}–\cfrac{2}{1\text{+}2\alpha}\text{+}2(1\text{+}\varepsilon)$ ，具有临界点 $\alpha^*\text{=}\cfrac{\varepsilon}{2(1–\varepsilon)}\text{∈}\left(–\cfrac{1}{2},\text{+∞}\right)$ ，故 $–1\text{<}\varepsilon\text{<}1$ (由于前提限制故截取为 $0\text{<}\varepsilon\text{<}1$ )
代入原式即得 $\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1–\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}}$

↪进一步对 $h(\varepsilon)\text{=}\left((1–\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}}$ 的分析

泰勒展开 $\ln{}(1–\varepsilon)\text{=}–\varepsilon–\cfrac{\varepsilon^2}{2}–\cfrac{\varepsilon^3}{3}\text{+}O\left(\varepsilon^4\right)$ ，则 $\ln(1–\varepsilon)\text{+}\varepsilon\text{≤}–\cfrac{\varepsilon^2}{2}–\cfrac{\varepsilon^3}{3}\text{≤}–\cfrac{1}{2}\left(\varepsilon^2–\varepsilon^3\right)$
故在 $\ln(h(\varepsilon))\text{=}\cfrac{t}{2}(\ln(1–\varepsilon)\text{+}\varepsilon)\text{≤}–\cfrac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)$ ，即 $h(\varepsilon)\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)}$

↪最后 $\text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≤}(1\text{–}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1–\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}}\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)}$