why lower bound ?
在之前的UCB / greedy等算法中,我们实际上关注的是 “upper bound”, 也即“算法最坏也不会比nk 差“(以UCB 为例)。但很自然的会有一个问题是:nk 足够好了么? 会不会有regret为常数的算法?
lower bound analysis 解决的就是这一问题,我们通过证明问题的lower bound 来展示我们的算法足够优秀
准备工作
lower bound 的分析 根源上类似于传统统计学中假设检验的问题。 假设检验中“最好的检验rule”就类似于在找“最棒的bandits algorithm”。
例子:
X1X2⋯Xniidsample , 判断假设(1)是否为真
(1) X1∼N(0,1)
(2) X1∼N(Δ,1)Δ>0
Rule : {x1,⋯,xn}→{0,Δ}
考虑一个naive 的rule : 若xˉ>Δ/2 则判断为(2),反之为(1)
Type I error 概率(real mean为0但sample mean>Δ/2) :
P0(xˉn⩾2Δ)∼exp(−8nΔ2)
Type II error 概率(real mean为Δ但sample mean<Δ/2):
PΔ(xˉn≤2Δ)∼exp(−8nΔ2)
I + II 概率合: ∼2exp(−8nΔ2)
有没有rule 能实现比这个更小的error? or 最棒的rule 能实现的error 概率是多少?
Def : Total Variance (TV)
For probability measures P andQ
∥P−.Q∣TV:=Asup∣P(A)−Q(A)∣
Total Variance 衡量的是 “2个分布间的距离”
Theorem: Le Cam’s Inequality
Le Cam 不等式把判断出错的概率 与 分布间的距离,建立了联系。
For 2 distributions P1,P2 . Let v={1,2} with probability 21, and X∼Pv
Let ψ:Ω→{1,2}
We have:
\begin{align}
P(\psi(x) \neq v)&=\frac{1}{2} P_{1}(\psi(x) \neq 1)+\frac{1}{2} P_{2}(\psi(x) \neq 2)\\&\geq\frac{1}{2}(1-|| P_{1}-P_{2} \|_{T V})\end
{align}
-
Proof:
let A={ψ(x)=1}
==≥P1(ψ(x)=1)+P2(ψ(x)=2)=P1( Ac)+P2( A)1−P1( A)+P2( A)1−(P1( A)−P2( A))1−Asup∣P1( A)−P2( A)∣=1−∥P1−P2∥Tv
KL Divergence
TV的定义很棒,但在计算上有较大的intractability。因此我们提出KL- Divergence作为替代。
KL(P,Q)=∑xP(x)logQ(x)P(x)=EP[logQ(x)P(x)]
Properties of KL-Divergence:
基础性质:
- K(P,Q)⩾0,(andK(P,Q)=0⇔P=Q)
- It is not a distance; no triangle inequality
- It is not symmetric
加和性:
P=P1×P2×⋯×Pn and Q=Q1×Q2⋯Qn
We have KL(P,Q)=∑i=1nKL(Pi,Qi)
Pinker’s Inequality:
建立了total variance 与kl divergence 之间的联系
2∥P−Q∥TV2≤KL(P,Q)
Condition KL-Divergence
KL(P(X,Y),Q(XY))=KL(P(X),Q(X))+EP(x)[K(P(Y∣X),Q(Y∣X))]
对于特殊分布
(1) If P1 and P2∼ Bermoulli with mean μ1μ2KL(P1,P2)=2(μ1−μ2)2
(2) if P1∼N(μ1,1),P2∼N(μ2,1)
KL(P1,P2)=(μ1−μ2)2/2
Back To Lower Bound
要解决的问题是:
maxv∈εRn(v,π)⩾nk∀π
直接证明“max v” 是不好下手的,一般的方法为:
- 构造一个特殊的 set {v1,v2…vk}
- 证明即便只是在这个set上取环境,regret 也是很大的
Lemma 1:
KL(Pv,Pv′)=∑i=1KEv[Ti(n)]KL(Pvi,Pv′i)
对于2个不同的environment v,其KL可以拆为:
每个arm被拉的次数 * 2个环境在这一arm上的distribution的KL-divergence
直观上非常好理解,证明如下:
-
Proof:
=KL(Pv,Pv)EPv[logPv(A1,x1,A2,X2,…,An,xn)Pv(A1,x1,A2,x2,…,An,xn)]
Pv(a1,x1,⋯,an,xn)=π1(a1)Pv,a1(x1)π2(a1,x1)Pv,a2(x2)
因此
logPv′(a1x1,…,anxn)Pv(a1x1,…,anxn)=log∏t=1nπt(at∣a1,x1,,…,at−1,xt−1)Pv′at(xt)∏t=1nπt(at∣a1,x1,,…,at−1,xt−1)Pvat(xt)=∑t=1nlogPv′at(Xt)Pvat(Xt)
KL(Pv,Pv′)=EPv(t=1∑nlogPv′⋅At(Xt)Pv⋅At(Xt))=t=1∑nEPv[E[logPv’At(xt)PvAt(xt)∣At]]=t=1∑nEPv[KL(PvAt,PvAt)]=i=1∑nEpv[i=1∑k1(At=i)KL(Pv,i,Pv′,i)]=i=1∑kEPv[Ti(n)]KL(Pvi,Pv′i)
Proof of Lower Bound:
正如前文所说,首先需要构造一个environments set,我们要证明的是:
即便只是在这个sets上regret就要大于 nk(lower bound)
V0 - Vk 共计k+1个 environments, 其中第i个环境下arm i的reward 均值为Δ 其他arm均值为0
V(0):μ(0)=(0…0)V(1):μ(1)=(Δ,0,…0)V(2):μ(2)=(0,Δ,0…0)⋮V(k):μ(k)=(0,…0,Δ)
-
Proof:
第一步: pinker inequality
第二步: lemma 1
第三步:根据构造,只有arm i上的分布是有区别的,其KL-divergence根据property of KL divergence 可以显式地写出来
Ei[Ti(n)]−E0[Ti(n)]≤n21KL(P0⋅Pi)≤n21j=1∑kE[Tj(n)]KL(μj(0),μj(i))≤n21Eq[Ti(n)]2Δ2=2ΔnE[Ti(n)]
第2步: E0求和为n(因为全是0,必对称)+ jensen‘s inequality
第3步:E0求和为n(因为全是0,必对称)
i=1∑kEi[Ti(n)]≤i=1∑kE0[Ti(n)]+2nΔi=1∑kE0[Ti(n)]≤n+2nΔki=1∑kE0[Ti(n)]≤n+2nΔkn