当前位置：首页 > article >正文

文献分享: Muvera多向量到单向量的转化方法——原理与理论保证

article 2025/3/4 19:32:32

原论文

详细的理论证明，包含了所有细节

文章目录

$\textbf{1. MUVERA}$ 的全过程
$\textbf{2. }$ 定理 $\textbf{2.1}$ 证明的思路
$\textbf{3. }$ 定理 $\textbf{2.2}$ 证明的思路
- $\textbf{3.0. }$ 定理 $\textbf{2.2}$ 的主要内容
- $\textbf{3.1. }$ 定理 $\textbf{2.2}$ 的主要内容

$\textbf{1. MUVERA}$ 的全过程

1️⃣文本嵌入：对查询文本和段落文本分别应用嵌入器(如 $\text{ColBERTv2}$ )，得到各自的多向量嵌入

查询嵌入 $Q$ ： ${q_1,q_2,...,q_m\}$ ，其中 $q_i\text{⊆}\mathbb{R}^{d}$ 即为固定 $d$ 维
段落嵌入 $P$ ： ${p_1,p_2,...,p_n\}$ ，其中 $p_i\text{⊆}\mathbb{R}^{d}$ 即为固定 $d$ 维

2️⃣向量分桶：用 $\text{SimHash}$ 将原有空间分为 $2^{k_{\text{sim}}}$ 个桶，每个桶用长为 $k_{\text{sim}}$ 的定长二进制向量编码

法向抽取：从高斯分布中抽取 $k_{\text{sim}}\text{≥}1$ 个向量 $g_{1},\ldots,g_{k_{\text{sim}}}\text{∈}\mathbb{R}^{d}$ ，作为 $k_{\text{sim}}$ 个超平面的法向量
空间划分： $\varphi(x)\text{=}\left(\mathbf{1}\left(\left\langle{}g_{1},x\right\rangle{}\text{>}0\right),\ldots,\mathbf{1}\left(\left\langle{}g_{k_{\text{sim}}},x\right\rangle{}\text{>}0\right)\right)$
$\mathbf{1}\left(\left\langle{}g_{i},x\right\rangle{}\text{>}0\right)$ ：当 $\langle{}g_{i},x\rangle{}\text{>}0$ 成立(即 $x$ 投影在超平面 $g_i$ 的正侧)时，将该位设为 $1$

向量分桶：让所有的 $m\text{+}n$ 个嵌入通过 $\varphi(\cdot)$ 得到长 $k_{\text{sim}}$ 的二进制编码，相同编码者(即桶编码)放入同一桶

3️⃣向量生成：按照如下三种情况，为每个桶 $k$ 都生成一个子向量 $\vec{q}_{(k)},\vec{p}_{(k)}\text{⊆}\mathbb{R}^{d}$

$\textbf{Case}$ 桶 $\boldsymbol{k}$ 的情况桶 $\boldsymbol{k}$ 子向量 $\boldsymbol{\vec{q}_{(k)}}$ 桶 $\boldsymbol{k}$ 子向量 $\boldsymbol{\vec{p}_{(k)}}$
$\text{Case-0}$ 无 $p_i\text{→}\{q_1,q_2,...\mid{}\}$ $\displaystyle{}\vec{q}_{(k)}=\sum{}q_i$ $\displaystyle{}\vec{p}_{(k)}=$ 与该桶海明距离最近的 $p$
$\text{Case-1}$ 单 $p_i\text{→}\{q_1,q_2,...\mid{}p\}$ $\displaystyle{}\vec{q}_{(k)}=\sum{}q_i$ $\displaystyle{}\vec{p}_{(k)}=p$
$\text{Case-n}$ 多 $p_i\text{→}\{q_1,q_2,...\mid{}p_1,p_2,...\}$ $\displaystyle{}\vec{q}_{(k)}=\sum{}q_i$ $\displaystyle{}\vec{p}_{(k)}=\cfrac{1}{\#p}\sum{}p_j$ ( $p$ 的质心)

4️⃣向量压缩：对每个 $\vec{q}_{(k)},\vec{p}_{(k)}\text{⊆}\mathbb{R}^{d}$ 应用随机线性投影 $\psi\text{:}\mathbb{R}^{d}\text{→}\mathbb{R}^{d_{\text{proj}}}(d_{\text{proj}}\text{≤}d)$

投影函数： $\boldsymbol{\psi}(x)\text{=}\left(\cfrac{1}{\sqrt{d_{\text{proj}}}}\right)\mathbf{S}x$ ，其中 $\mathbf{S}\text{∈}\mathbb{R}^{d_{\text{proj}}\text{×}d}$ 为随机矩阵
当 $d_{\text{proj}}\text{=}d$ 时 $\mathbf{S}$ 的每个元素 $s_{ij}\text{=}1$ ，即 $\boldsymbol{\psi}(x)\text{=}x$
当 $d_{\text{proj}}\text{<}d$ 时 $\mathbf{S}$ 的每个元素 $s_{ij}$ 满足离散均匀分布 $\mathbb{Pr}\left[s_{ij}\text{=}1\right]\text{=}\mathbb{Pr}\left[s_{ij}\text{=}–1\right]\text{=}\cfrac{1}{2}$

投影操作： $\begin{cases}\vec{q}_{(k),\psi}\text{⊆}\mathbb{R}^{d_{\text{proj}}}\xleftarrow{\psi\left(\vec{q}_{(k)}\right)}\vec{q}_{(k)}\text{⊆}\mathbb{R}^{d}\\\\\vec{p}_{(k),\psi}\text{⊆}\mathbb{R}^{d_{\text{proj}}}\xleftarrow{\psi\left(\vec{p}_{(k)}\right)}\vec{p}_{(k)}\text{⊆}\mathbb{R}^{d}\end{cases}$
合并操作：将每个桶的压缩向量依次从左到右合并 $\text{→}\begin{cases}\vec{q}_{\psi}\text{=}\left(\vec{q}_{(1),\psi},\ldots,\vec{q}_{(B),\psi}\right)\text{⊆}\mathbb{R}^{d_{\text{proj}}2^{k_{sim}}}\\\\\vec{p}_{\psi}\text{=}\left(\vec{p}_{(1),\psi},\ldots,\vec{p}_{(B),\psi}\right)\text{⊆}\mathbb{R}^{d_{\text{proj}}2^{k_{sim}}}\end{cases}$

5️⃣重复生成：重复2️⃣ $\text{→}$ 4️⃣过程 $R_{\text{reps}}$ 次，每次重复完成后生成 $\vec{q}_{i,\psi},\vec{p}_{i,\psi}$ ，拼接所有 $\vec{q}_{i,\psi},\vec{p}_{i,\psi}$

$Q$ 最终生成的单向量： $\mathbf{F}_{\mathrm{que}}(Q)\text{=}\left(\vec{q}_{1,\psi},\ldots,\vec{q}_{R_{\text{reps}},\psi}\right)\text{⊆}\mathbb{R}^{d_{\text{proj}}2^{k_{sim}}R_{\text{reps}}}$
$P$ 最终生成的单向量： $\mathbf{F}_{\mathrm{doc}}(P)\text{=}\left(\vec{p}_{1,\psi},\ldots,\vec{p}_{R_{\text{reps}},\psi}\right)\text{⊆}\mathbb{R}^{d_{\text{proj}}2^{k_{sim}}R_{\text{reps}}}$

$\textbf{Case}$	桶 $\boldsymbol{k}$ 的情况	桶 $\boldsymbol{k}$ 子向量 $\boldsymbol{\vec{q}_{(k)}}$	桶 $\boldsymbol{k}$ 子向量 $\boldsymbol{\vec{p}_{(k)}}$
$\text{Case-0}$	无 $p_i\text{→}\{q_1,q_2,...\mid{}\}$	$\displaystyle{}\vec{q}_{(k)}=\sum{}q_i$	$\displaystyle{}\vec{p}_{(k)}=$ 与该桶海明距离最近的 $p$
$\text{Case-1}$	单 $p_i\text{→}\{q_1,q_2,...\mid{}p\}$	$\displaystyle{}\vec{q}_{(k)}=\sum{}q_i$	$\displaystyle{}\vec{p}_{(k)}=p$
$\text{Case-n}$	多 $p_i\text{→}\{q_1,q_2,...\mid{}p_1,p_2,...\}$	$\displaystyle{}\vec{q}_{(k)}=\sum{}q_i$	$\displaystyle{}\vec{p}_{(k)}=\cfrac{1}{\#p}\sum{}p_j$ ( $p$ 的质心)

$\textbf{2. }$ 定理 $\textbf{2.1}$ 证明的思路

$\textbf{3.0. }$ 定理 $\textbf{2.1}$ 的主要内容

👉前提 $1$ ：设定 $\forall{}\varepsilon,\delta\text{>}0$ (其中 $\varepsilon{}\text{≤}\cfrac{1}{2}$ 且 $\delta{≤}\varepsilon$ )，给定单位向量集 $P,Q\text{⊆}\mathbb{R}^d$ 并满足 $m\text{=}|Q|\text{+}|P|$

👉前提 $2$ ：选择参数 $k_{\text{sim}}\text{=}O\left(\cfrac{1}{\varepsilon}\log{\left(\cfrac{m}{\delta}\right)}\right)$ ， $d_{\text{proj}}\text{=}O\left(\cfrac{1}{\varepsilon^2}\log{\left(\cfrac{m}{\varepsilon\delta}\right)}\right)$ ， $R_{\text{reps}}\text{=}1$

👉结论： $\text{Chamfer}(Q,P)\text{–}\varepsilon\text{≤}\text{FDE}(Q,P)\text{≤}\text{Chamfer}(Q,P)\text{+}\varepsilon$ 以 $\text{Pr}\text{≥}1\text{–}\delta$ 概率成立，即给出了 $\textbf{FDE}$ 相似度的上下界

$\textbf{2.1. }$ 无投影无重复时 $\textbf{FDE}$ 相似度的上界

➡️ $\text{Chamfer}$ 后期交互的本质：一套针对 $q_i$ 向量的映射策略

$f(q_i)$ 操作为将 $q_i$ 映射到某一个 $p_{q_i}\text{∈}P\text{=}\{p_1,p_2,...,p_m\}$ 向量
在 $\text{Chamfer}$ 后期交互中 $f(q_i)\text{=}p_{q_i}\text{=}\arg\limits_{p\text{∈}P}\text{MaxSim}(q_i,P)$ ，即遍历 $p_{q_i}\text{∈}P\text{=}\{p_1,p_2,...,p_m\}$ ，最终选取使内积 $\langle{q_i,p_{q_i}}\rangle$ 最大的 $p_{q_i}$
最终合并所有的内积 $\displaystyle{\sum_{i\text{=1}}^n}\langle{q_i,p_{q_i}}\rangle$ 是为 $\text{Chamfer}$ 相似度，即 $\displaystyle{\sum_{i\text{=1}}^n}\langle{q_i,p_{q_i}}\rangle\text{=}\text{Chamfer}(Q,P)\text{=}\langle{Q,P^\prime}\rangle$

➡️ $\text{Muvera}$ 分桶的本质：另一套针对 $q_i$ 向量的映射策略

对于单个桶 $\text{Bucket-k}$ 中有 $\langle{\vec{q}_{(k)},\vec{p}_{(k)}}\rangle\text{=}\left\langle{\displaystyle\sum_{k_i}{}q_{k_i},\vec{p}_{(k)}}\right\rangle\text{=}\displaystyle\sum_{k_i}{}\left\langle{q_{k_i},\vec{p}_{(k)}}\right\rangle$ ，相当于为每个落入该桶 $k$ 的 $q_{k_i}$ 映射了一个 $\vec{p}_{(k)}$
合并 $B$ 个桶的结果有 $\displaystyle\sum_{k\text{=}1}^{B}\langle{\vec{q}_{(k)},\vec{p}_{(k)}}\rangle\text{=}\displaystyle\sum_{q_i\text{∈}Q}{}\left\langle{q_{i},\vec{p}_{(k_{q_i})}}\right\rangle$ ，相当于为每个 $q_i\text{∈}Q$ 都映射一个 $\vec{p}_{(k_{q_i})}\text{=}p_{q_i}^*\text{∈}\{\vec{p}_{(1)},...,\vec{p}_{(B)}\}$

➡️对两种映射方案的对比：有 $\langle{q_i,p_{q_i}^*}\rangle\text{≤}\langle{q_i,p_{q_i}}\rangle$

$p_{q_i}$ 的得到有且只有一种情况，就是 $\displaystyle{}p_{q_i}\text{=}\arg\max_{p\text{∈}P}\langle{q_i,p}\rangle\text{=}\arg\limits_{p\text{∈}P}\text{MaxSim}(q_i,P)$
$p_{q_i}^*$ 的得到分为三种情况，即 $\text{Case-0/Case-n}$ (其中视 $\text{Case-0}$ 为 $\text{Case-n}$ 种 $\text{n=1}$ 的情形)
$\text{Case-0}$ 时，假设 $q_i$ 所落入的是桶 $k$ ，则选取离桶 $k$ 编码最近的一点 $\hat{p}_{k}$ ，即 $p_{q_i}^*\text{=}\displaystyle{}\vec{p}_{(k)}\text{=}\hat{p}_{k}$
$\text{Case-n}$ 时，假设 $q_i$ 所落入的是桶 $k$ ，则 $p_{q_i}^*\text{=}\displaystyle{}\vec{p}_{(k)}\text{=}\displaystyle{}\sum_{\varphi(p_j)\text{=}k}\cfrac{1}{\left|P\text{∩}\varphi^{–1}(k)\right|}p_j$ ，相当于桶 $k$ 种所有 $p$ 向量的质心

定义集合 $\text{Pdt=}\{\langle{q_i,p_{1}}\rangle,\langle{q_i,p_{2}}\rangle,...,\langle{q_i,p_{m}}\rangle\}$ ，根据 $p_{q_i}$ 的定义可知 $\langle{q_i,p_{q_1}}\rangle$ 是 $\text{Pdt}$ 集合的最大值
$\text{Case-0}$ 时，显然有 $\langle{q_i,p_{q_i}^*}\rangle\text{=}\langle{q_i,\hat{p}_{k}}\rangle\text{∈Pdt}$ ，因此 $\langle{q_i,p_{q_i}^*}\rangle\text{≤}\langle{q_i,p_{q_i}}\rangle$ 即小于集合最大值
$\text{Case-n}$ 时，对每个 $p_j$ 都有 $\langle{q_i,p_{q_i}^*}\rangle\text{=}\left\langle{q_i},\displaystyle{}\sum_{\varphi(p_j)\text{=}k}\cfrac{1}{\left|P\text{∩}\varphi^{–1}(k)\right|}p_j\right\rangle\text{=}\displaystyle{}\sum_{\varphi(p_j)\text{=}k}\cfrac{1}{\left|P\text{∩}\varphi^{–1}(k)\right|}\langle{q_i,p_j}\rangle$
集合 $\text{Pdt}$ 中 $\displaystyle{}\sum_{\varphi(p_j)\text{=}k}\cfrac{1}{\left|P\text{∩}\varphi^{–1}(k)\right|}\langle{q_i,p_j}\rangle$ 是子集均值， $\langle{q_i,p_{q_i}}\rangle$ 是全集最大值，后者必然更大
所以 $\langle{q_i,p_{q_i}^*}\rangle\text{=}\displaystyle{}\sum_{\varphi(p_j)\text{=}k}\cfrac{1}{\left|P\text{∩}\varphi^{–1}(k)\right|}\langle{q_i,p_j}\rangle\text{≤}\langle{q_i,p_{q_i}}\rangle$

➡️两种相似评分的对比

$\text{Chamfer}$ 相似度：根据定义为 $\text{Chamfer}(Q,P)\text{=}\displaystyle{\sum_{i\text{=1}}^n}\langle{q_i,p_{q_i}}\rangle\text{=}\langle{Q,P}\rangle$
$\text{FDE}$ 相似度：根据定义没经过投影和重复的 $\text{FDE}$ 相似度可写作 $\text{FDE}(Q,P)\text{=}\displaystyle\sum_{k\text{=}1}^{B}\langle{\vec{q}_{(k)},\vec{p}_{(k)}}\rangle\text{=}\sum_{i\text{=1}}^n\langle{q_i,p_{q_i}^*}\rangle\text{=}\langle{Q,P^\prime}\rangle$
已证了 $\langle{q_i,p_{q_i}^*}\rangle\text{≤}\langle{q_i,p_{q_i}}\rangle$ 故 $\text{FDE}(Q,P)\text{≤}\text{Chamfer}(Q,P)$

$\textbf{2.2. }$ 加上一定维度的投影后原上界近似成立

➡️ $\text{Muvera}$ 分桶 $\text{+}$ 投影的过程

同样首先相当于为每个 $q_i\text{∈}Q$ 都映射一个 $\vec{p}_{(k_{q_i})}\text{=}p_{q_i}^*\text{∈}\{\vec{p}_{(1)},...,\vec{p}_{(B)}\}$ ，但是后续参与交互(内积)的从原始向量变为了投影向量
所以原有的 $\text{FDE}(Q,P)$ 为直接将内积 $\left\langle{q_i,p^*_{q_i}}\right\rangle$ 累加，现在变成将各自投影后的内积 $\left\langle{\psi(q_i),\psi\left(p^*_{q_i}\right)}\right\rangle$ 累加
$\text{FDE}$ 相似度(无投影)：可写作 $\text{FDE}_{\text{orgn}}(Q,P)\text{=}\displaystyle\sum_{k\text{=}1}^{B}\langle{\vec{q}_{(k)},\vec{p}_{(k)}}\rangle\text{=}\sum_{i\text{=1}}^n\langle{q_i,p_{q_i}^*}\rangle$ ，并且已证明 $\text{FDE}_{\text{orgn}}(Q,P)\text{≤}\text{Chamfer}(Q,P)$
$\text{FDE}$ 相似度(无投影)：可写作 $\text{FDE}_{\text{proj}}(Q,P)\text{=}\displaystyle\sum_{k\text{=}1}^{B}\left\langle{\psi\left(\vec{q}_{(k)}\right),\psi\left(\vec{p}_{(k)}\right)}\right\rangle\text{=}\sum_{i\text{=1}}^n\left\langle{\psi(q_i),\psi\left(p^*_{q_i}\right)}\right\rangle$

➡️事实 $\text{A2}$ 表明了：给定 $d_{\text{proj}}\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log\cfrac{m}{\delta}\right)$ 则 $\langle{}x,y\rangle\text{–}\varepsilon\text{≤}\langle\psi(x),\psi(y)\rangle{}\text{≤}\langle{}x,y\rangle\text{+}\varepsilon$ 以 $\text{Pr}\text{≥}1\text{–}\delta$ 概率成立

将 $d_{\text{proj}}\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log\cfrac{m}{\delta}\right)$ 作为前提引入，代入结论有 $\displaystyle\sum_{i\text{=1}}^n\langle{q_i,p_{q_i}^*}\rangle\text{–}|Q|\varepsilon\text{≤}\sum_{i\text{=1}}^n\left\langle{\psi(q_i),\psi\left(p^*_{q_i}\right)}\right\rangle\text{≤}\sum_{i\text{=1}}^n\langle{q_i,p_{q_i}^*}\rangle\text{+}|Q|\varepsilon$
概率调整为，以 $\text{Pr}\text{≥}(1\text{–}\delta)^n\text{≥}1\text{–}|Q|\delta$ 概率成立
也可写作 $\displaystyle\text{FDE}_{\text{orgn}}(Q,P)\text{–}|Q|\varepsilon\text{≤}\text{FDE}_{\text{proj}}(Q,P)\text{≤}\text{FDE}_{\text{orgn}}(Q,P)\text{+}|Q|\varepsilon$

稍作调整，则有 $\text{FDE}_{\text{proj}}(Q,P)\text{≤}\text{FDE}_{\text{orgn}}(Q,P)\text{+}|Q|\varepsilon\text{≤}\text{Chamfer}(Q,P)\text{+}|Q|\varepsilon$ ，以 $\text{Pr}\text{≥}1\text{–}|Q|\delta$ 概率成立
再按常数 $Q$ 的比例调整 $\delta$ (注意 $\varepsilon$ 为与后续统一故不调整)，则有 $\text{FDE}_{\text{proj}}(Q,P)\text{≤}\text{Chamfer}(Q,P)\text{+}|Q|\varepsilon$ ，以 $\text{Pr}\text{≥}1\text{–}\delta$ 概率成立

$\textbf{2.3. }$ 已给出无重复 $\textbf{FDE}$ 上界👉还需证明什么才能给出无重复 $\textbf{FDE}$ 的上下界

➡️不妨假设需要证明的是 $\text{Chamfer}(Q,P)\text{–}|Q|\varepsilon\text{≤}\text{FDE}(Q,P)\text{≤}\text{Chamfer}(Q,P)\text{+}|Q|\varepsilon$ 以 $\text{Pr}\text{≥}1\text{–}\delta$ 概率成立

令下界成立为事件 $F_L/$ 上界成立为事件 $F_U/$ 上下界都成立为事件 $F$ ，原问题变为要证明 $\text{Pr}[F]\text{≥}1\text{–}\delta$
不难得到当 $\varepsilon{}\text{≤}\cfrac{1}{2}$ 时，同时满足 $\text{Pr}[F_L]\text{≥}1\text{–}\varepsilon\delta$ 和 $\text{Pr}[F_U]\text{≥}1\text{–}\varepsilon\delta$ ，可推导出 $\text{Pr}[F]\text{≥}1\text{–}\delta$
由已证明的上界结论可知设定 $d_{\text{proj}}\text{=}O\left(\cfrac{1}{\varepsilon^2}\log{\left(\cfrac{m}{\varepsilon\delta}\right)}\right)$ 则有 $\text{Pr}[F_U]\text{≥}1\text{–}\varepsilon\delta$
所以增加前提 $d_{\text{proj}}\text{=}O\left(\cfrac{1}{\varepsilon^2}\log{\left(\cfrac{m}{\varepsilon\delta}\right)}\right)$ 以及 $\varepsilon{}\text{≤}\cfrac{1}{2}$ 后，原问题变为要证明 $\text{Pr}\left[F_{L}\right]\text{≥}1\text{–}\varepsilon\delta$

➡️对 $\text{Chamfer}(Q,P)\text{–}|Q|\varepsilon\text{≤}\text{FDE}(Q,P)$ 的进一步变换

根据 $\text{Chamfer}$ 的定义有 $\text{Chamfer}(Q,P)\text{=}\displaystyle{}\sum_{q_i\text{∈}Q}\text{MaxSim}(q_i,P)$
又由于 $\text{FDE}$ 对 $q_i$ 的处理式独立线性的，所以 $\text{FDE}(Q,P)\text{=}\displaystyle{}\sum_{q_i\text{∈}Q}\text{FDE}(q_i,P)$
所以原问题变为需证 $\displaystyle{}\sum_{q_i\text{∈}Q}\left(\text{MaxSim}(q_i,P)\text{–}\varepsilon\right)\text{≤}\sum_{q_i\text{∈}Q}\text{FDE}(q_i,P)$ ，以 $\text{Pr}\text{≥}1\text{–}\varepsilon\delta$ 概率成立
去掉求和号后，原问题变为需证 $\text{MaxSim}(q_i,P)\text{–}\varepsilon\text{≤}\text{FDE}(q_i,P)$ ，以 $\text{Pr}\text{≥}1–\cfrac{\varepsilon\delta}{|Q|}$ 概率成立

➡️后续称 $\text{FDE}(q_i,P)$ 的上下界为 $\text{FDE}$ 的子上下界

$\textbf{2.4. }$ 无投影无重复时 $\textbf{FDE}$ 相似度的子下界

➡️结合之前的分析，对于 $\displaystyle\text{FDE}(q_i,P)\text{=}\left\langle{q_i,p_{q_i}^*}\right\rangle$ ，在无投影时总存在一个子集 $S\text{⊆}P$ ，使得 $p_{q_i}^*\text{=}\displaystyle{}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}p_j\text{=}S_{\text{center}}$

当单个 $q_i$ 落入的桶属于 $\text{Case-0}$ 情形时， $S$ 是单个点 $\displaystyle{}\hat{p}_k\text{=}\arg{}\min_{p_j\text{∈}P}\|\varphi(q_i)–\varphi(p_j)\|_{0}$ ，也就是离桶编码 $\varphi(q_i)$ 海明距离最近的点
当单个 $q_i$ 落入的桶属于 $\text{Case-n}$ 情形时， $S$ 元素需满足 $\varphi(q_i)\text{=}\varphi(p_j)$ ，也就是所有落入该桶的 $q_j$ 点

➡️对事实 $\text{A4}$ 给定 $k_{\text{sim}}\text{=}O\left(\cfrac{1}{\varepsilon}\log{\left(\cfrac{m}{\delta}\right)}\right)$ 时 $\forall{p_j}\text{∈}P$ 有 $\left|\cfrac{\|\varphi(q_i)–\varphi(p_j)\|_0}{k_{\mathrm{sim}}}\text{–}\cfrac{\theta(q_i,p_j)}{\pi}\right|\text{≤}\sqrt{\varepsilon}$ 以 $\text{Pr}\text{＞}1–\cfrac{\varepsilon{}\delta{}}{m^2}$ 概率成立

对于 ${q_i}$ 和 $p^*_{q_1}$ 还有 $p_{q_1}$ ，总是会有 $\cfrac{\|\varphi(q_i)–\varphi(p^*_{q_1})\|_0}{k_{\mathrm{sim}}}\text{≤}\cfrac{\|\varphi(q_i)–\varphi(p_{q_1})\|_0}{k_{\mathrm{sim}}}$
对于 $\text{Case-0}$ 情形， $p^*_{q_i}$ 为离编号为 $\varphi(q_i)$ 的桶海明距离最近的 $p_j$ 向量，所以 ${\|\varphi(q_i)–\varphi(p^*_{q_i})\|_0}\text{≤}{\|\varphi(q_i)–\varphi(p_{q_i})\|_0}$
对于 $\text{Case-n}$ 情形， $p^*_{q_i}$ 为与 $q_i$ 同桶的所有 $p_j$ 向量的质心，即 $S\text{=}\left\{p_j\text{∈}P|{\varphi}(q_i)\text{=}\varphi(p_j)\right\}$ 的质心 $S_{\text{center}}$
回忆 $\text{SimHash}$ 分桶的本质，就是用 $k_\text{sim}$ 个法平面将空间切割为 $2^{k_\text{sim}}$ 个子空间
所有 $p_j\text{∈}S$ 都落入同一桶即在同一子空间，则其质心 $p^*_{q_i}\text{=}S_{\text{center}}$ 也一定在该子空间中，所以 $\varphi(q_i)\text{=}\varphi(p_j)\text{=}\varphi(p^*_{q_i})$
所以 ${\|\varphi(q_i)–\varphi(p^*_{q_i})\|_0}\text{=}0\text{≤}{\|\varphi(q_i)–\varphi(p_{q_i})\|_0}$

$p_{q_1}$ 和 $p^*_{q_1}$ 都代入事实 $\text{A4}$ ，则 $\cfrac{\theta({q_i,p^*_{q_1}})}{\pi}–\sqrt{\varepsilon}\text{≤}\cfrac{\|\varphi(q_i)–\varphi(p^*_{q_1})\|_0}{k_{\mathrm{sim}}}\text{≤}\cfrac{\|\varphi(q_i)–\varphi(p_{q_i})\|_0}{k_{\mathrm{sim}}}\text{≤}\cfrac{\theta({q_i,p_{q_i}})}{\pi}\text{+}\sqrt{\varepsilon}$ 以 $\text{Pr}\text{＞}1–\cfrac{\varepsilon{}\delta{}}{m^2}$ 概率成立
因此 $\left|\theta(q_i,p^*_{q_1})–\theta({q_i,p_{q_i}})\right|\text{=}O\left(\sqrt{\varepsilon}\right)$ 以 $\text{Pr}\text{＞}1–\cfrac{\varepsilon{}\delta{}}{m^2}$ 概率成立
上式可得 $\left|\cos\theta(q_i,p^*_{q_1})–\cos\theta({q_i,p_{q_i}})\right|\text{<}O(\varepsilon)$ 以 $\text{Pr}\text{＞}1–\cfrac{\varepsilon{}\delta{}}{m^2}$ 成立，其中 $\begin{cases}\cos\theta(q_i,p^*_{q_1})\text{=}\langle{q_i,p^*_{q_1}}\rangle\text{=}\text{FDE}(q_i,P)\\\\\cos\theta({q_i,p_{q_i}})\text{=}\langle{q_i,p_{q_i}}\rangle\text{=}\text{MaxSim}(q_i,P)\end{cases}$
所以 $\text{MaxSim}(q_i,P)–O(\varepsilon)\text{≤}\text{FDE}(q_i,P)\text{≤}\text{MaxSim}(q_i,P)\text{+}O(\varepsilon)$ 以 $\text{Pr}\text{＞}1–\cfrac{\varepsilon{}\delta{}}{m^2}$ 概率成立

➡️事实 $\text{A4}$ 给出了 $\text{FDE}(q_i,P)$ 的子上下界

取结论的左半边 $\text{MaxSim}(q_i,P)–O(\varepsilon)\text{≤}\text{FDE}(q_i,P)$ 并给概率放水 $\text{Pr}\text{＞}1–\cfrac{\varepsilon{}\delta{}}{m^2}\text{>}1–\cfrac{\varepsilon\delta}{|Q|}$ ，便得到了一个更弱的结论
再对 $O(\varepsilon)$ 进行常数缩放为 $\varepsilon$ ，该更弱的结论就变成了所要证的 $\text{FDE}$ 相似度的子下界

$\textbf{2.5. }$ 加上一定维度的投影后原子下界近似成立

➡️投影前后的对比：用 $\text{FDE}_{\text{orgn}}$ 和 $\text{FDE}_{\text{proj}}$ 表示区分

投影前为 $\displaystyle{}\text{FDE}_{\text{orgn}}(q_i,P)\text{=}\left\langle{q_i,p_{q_i}^*}\right\rangle\text{=}\left\langle{}q_i,\cfrac{1}{|S|}\sum_{p_j\text{∈}S}p_j\right\rangle{}\text{=}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}{\langle{}q_i,p_j\rangle}$
投影后为 $\displaystyle{}\text{FDE}_{\text{proj}}(q_i,P)\text{=}\left\langle{\psi(q_i),\psi\left(p_{q_i}^*\right)}\right\rangle\text{=}\left\langle{}{\psi}(q_i),{\psi}\left(\cfrac{1}{|S|}\sum_{p_j\text{∈}S}p_j\right)\right\rangle{}\text{=}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}\left\langle{\psi(q_i),\psi\left(p_j\right)}\right\rangle$

➡️应用事实 $\text{A2}$ ：用 $\cfrac{\varepsilon\delta}{|Q|}$ 替代 $\delta$ 以设定 $d_{\text{proj}}\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log\left(\cfrac{|Q|}{\varepsilon\delta}\right)\right)\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log\left(\cfrac{m}{\varepsilon\delta}\right)\right)$

则有内积的偏差 $\langle{}x,y\rangle\text{–}\varepsilon\text{≤}\langle\psi(x),\psi(y)\rangle{}\text{≤}\langle{}x,y\rangle\text{+}\varepsilon$ 以 $\text{Pr}\text{≥}1\text{–}\cfrac{\varepsilon\delta}{|Q|}$ 概率成立概率成立
将事实 $\text{A2}$ 代回则有 $\displaystyle{}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}{\langle{}q_i,p_j\rangle}\text{–}\varepsilon\text{≤}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}\left\langle{\psi(q_i),\psi{}p_j}\right\rangle\text{≤}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}{\langle{}q_i,p_j\rangle}\text{+}\varepsilon$ ，以 $\text{Pr}\text{≥}1\text{–}\cfrac{\varepsilon\delta}{|Q|}$ 概率成立概率成立
其中 $\displaystyle{}\text{FDE}_{\text{orgn}}(q_i,P)\text{=}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}{\langle{}q_i,p_j\rangle}$ ，以及 $\displaystyle{}\text{FDE}_{\text{proj}}(q_i,P)\text{=}\cfrac{1}{|S|}\sum_{p_j\text{∈}S}\left\langle{\psi(q_i),\psi\left(p_j\right)}\right\rangle$
所以 $\displaystyle{}\text{FDE}_{\text{orgn}}(q_i,P)\text{–}\varepsilon\text{≤}\text{FDE}_{\text{proj}}(q_i,P)\text{≤}\text{FDE}_{\text{orgn}}(q_i,P)\text{+}\varepsilon$ ，以 $\text{Pr}\text{≥}1\text{–}\cfrac{\varepsilon\delta}{|Q|}$ 概率成立概率成立

已证 $\text{MaxSim}(q_i,P)–O(\varepsilon)\text{≤}\text{FDE}_{\text{proj}}(q_i,P)\text{≤}\text{MaxSim}(q_i,P)\text{+}O(\varepsilon)$ 以 $\text{Pr}\text{≥}1–\cfrac{\varepsilon\delta}{|Q|}$ 概率成立
代入得 $\displaystyle\text{FDE}_{\text{proj}}(q_i,P)\text{≥}\text{FDE}_{\text{orgn}}(q_i,P)\text{–}\varepsilon\text{≥}\displaystyle{}\text{MaxSim}(q_i)\text{–}\varepsilon–O(\varepsilon)$
对 $\varepsilon$ 进行常数因子缩放后，即证毕

$\textbf{3. }$ 定理 $\textbf{2.2}$ 证明的思路

$\textbf{3.0. }$ 定理 $\textbf{2.2}$ 的主要内容

👉条件 $1$ ：给定单个查询 $Q$ 以及多个段落 $P\text{=}\left\{P_{1},\ldots,P_{n}\right\}$ 并且 $Q,\forall{}P_i\text{⊆}\mathbb{R}^{d}$ ，并令 $\displaystyle{}m\text{=}|Q|\text{+}\max_{i\text{∈}[n]}\left|P_{i}\right|$

👉条件 $2$ ：给定 $\forall\varepsilon\text{>}0$ ，设置参数 $k_{\text{sim}}\text{=}O\left(\cfrac{\log{m}}{\varepsilon}\right),d_{\text {proj}}\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log\left(\cfrac{m}{\varepsilon}\right)\right),R_{\text{reps}}\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log{n}\right)$

👉条件 $3$ ：令 $\displaystyle{}i^{*}\text{=}\arg\max_{i\text{∈}[n]}\text{FDE}(Q,P_i)$ ，即 $P_{i^*}$ 是通过 $\text{Muvera}$ 方法找到的，与查询 $Q$ 最相似的段落

👉结论 $1$ ： $\displaystyle{}\cfrac{1}{|Q|}\text{Chamfer}\left(Q, P_{i^{*}}\right)\text{≥}\max_{i\text{∈}[n]}\cfrac{1}{|Q|}\text{Chamfer}\left(Q, P_{i}\right)–\varepsilon$ 以 $\text{Pr=}1\text{–}\cfrac{1}{\text{poly}(n)}$ 概率成立

$\textbf{3.1. }$ 定理 $\textbf{2.2}$ 的主要内容

➡️在考虑重复 $R_{\text{reps}}$ 次的情况下，对于每个重复 $k\text{∈}\left[R_{\text{reps}}\right]$ ，设定每次重复对最终相似度的贡献为 $\text{FDE}^k(Q,P_\alpha)$

对于最终相似度，有 $\text{FDE}(Q,P_\alpha)\text{=}\displaystyle\sum_{k\text{=}1}^{R_{\text{reps}}}\text{FDE}^k(Q,P_\alpha)$ ，不妨设定随机变量 $X_k\text{=}\cfrac{1}{|Q|}\text{FDE}^k(Q,P_\alpha)$

➡️最关键的一步在于，对 $X_k$ 尝试运用 $\text{Chernoff}$ 界限，即 $\forall{X_i}\text{∈}[a,b]$ 有 $\displaystyle{}\text{Pr}\left[\left|\frac{1}{R}\sum_{i=1}^RX_i–\mu\right|\text{≥}\varepsilon\right]\text{≤}2e^{\left(–\frac{2R\varepsilon^2}{(b–a)^2}\right)}$

对 $\text{Chernoff}$ 界限中参数的确定
将上式中 $R$ 视作 $R_{\text{reps}}$ ，并将 $R_{\text{reps}}\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log{n}\right)$ 作为前提引入
对于 $\mu$ 即均值，根据定理 $\text{2.1}$ 引入前提 $k_{\text{sim}}\text{=}O\left(\cfrac{\log{m}}{\varepsilon}\right),d_{\text {proj}}\text{=}O\left(\cfrac{1}{\varepsilon^{2}}\log\left(\cfrac{m}{\varepsilon}\right)\right)$ 后，有 $\mathbb{E}[X_k]\text{∈}\cfrac{1}{|Q|}\text{Chamfer}(Q,P_\alpha)\text{±}\varepsilon$
对于 $[a, b]$ 即 $X_k$ 的范围，不难得到 $X_k\text{∈}[–m,m]$

将以上参数套用到 $\text{Chernoff}$ 界限则有
概率：以 $\text{Pr}\text{≥}1–2e^{\left(–\frac{R_{\text{reps}}\varepsilon^2}{2m^2}\right)}$ 概率成立，可以进一步转化为 $\text{Pr}\text{≥}1–2e^{\left(–\frac{R_{\text{reps}}\varepsilon^2}{2m^2}\right)}\text{≥}1–\cfrac{2}{n^C}\text{=}1\text{–}\cfrac{1}{\text{poly}(n)}$
事件： $\displaystyle{}\left|\sum_{k\text{=}1}^{R_{\text{reps}}}\cfrac{X_k}{R_{\text{reps}}}–\cfrac{1}{|Q|}\text{Chamfer}(Q,P_\alpha)\right|\text{≤}2\varepsilon$
代入 $\text{FED}$ 最相似文档 $P_{\alpha^*}$ 后，有 $\cfrac{1}{|Q|}\text{Chamfer}(Q,P_\alpha^*)\text{≥}\cfrac{1}{|Q|R_{\text{reps}}}\text{FDE}(Q,P_\alpha^*)–2\varepsilon\text{=}\displaystyle{}\max_{\alpha\text{∈}[n]}\cfrac{1}{|Q|R_{\text{reps}}}\text{FDE}(Q,P_\alpha)–2\varepsilon$
根据定理 $\text{2.1}$ 又可以知道 $\displaystyle{}\max_{\alpha\text{∈}[n]}\cfrac{1}{|Q|R_{\text{reps}}}\text{FDE}(Q,P_\alpha)\text{≥}\max_{\alpha\text{∈}[n]}\cfrac{1}{|Q|}\text{Chamfer}(Q,P_\alpha)\text{–}\varepsilon$
所以最终原事件可转化为 $\displaystyle{}\cfrac{1}{|Q|}\text{Chamfer}(Q,P_\alpha^*)\text{≥}\max_{\alpha\text{∈}[n]}\cfrac{1}{|Q|}\text{Chamfer}(Q,P_\alpha)\text{–}3\varepsilon$ ，对 $\varepsilon$ 做常数倍变换即证毕