]> AND Private Git Repository - 16dcc.git/blob - stopping.tex
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
409dd83c971a5402faba645fedce5ebf85c777ae
[16dcc.git] / stopping.tex
1 This section considers functions $f: \Bool^{\mathsf{N}} \rightarrow \Bool^{\mathsf{N}} $ 
2 issued from an hypercube where an Hamiltonian path has been removed
3 as described in previous section.
4 Notice that the iteration graph is always a subgraph of 
5 ${\mathsf{N}}$-cube augmented with all the self-loop, \textit{i.e.}, all the 
6 edges $(v,v)$ for any $v \in \Bool^{\mathsf{N}}$. 
7 Next, if we add probabilities on the transition graph, iterations can be 
8 interpreted as Markov chains.
9
10 \begin{xpl}
11 Let us consider for instance  
12 the graph $\Gamma(f)$ defined 
13 in \textsc{Figure~\ref{fig:iteration:f*}.} and 
14 the probability function $p$ defined on the set of edges as follows:
15 $$
16 p(e) \left\{
17 \begin{array}{ll}
18 = \frac{2}{3} \textrm{ if $e=(v,v)$ with $v \in \Bool^3$,}\\
19 = \frac{1}{6} \textrm{ otherwise.}
20 \end{array}
21 \right.  
22 $$
23 The matrix $P$ of the Markov chain associated to the function $f^*$ and to its probability function $p$ is 
24 \[
25 P=\dfrac{1}{6} \left(
26 \begin{array}{llllllll}
27 4&1&1&0&0&0&0&0 \\
28 1&4&0&0&0&1&0&0 \\
29 0&0&4&1&0&0&1&0 \\
30 0&1&1&4&0&0&0&0 \\
31 1&0&0&0&4&0&1&0 \\
32 0&0&0&0&1&4&0&1 \\
33 0&0&0&0&1&0&4&1 \\
34 0&0&0&1&0&1&0&4 
35 \end{array}
36 \right)
37 \]
38 \end{xpl}
39
40
41 A specific random walk in this modified hypercube is first 
42 introduced (See section~\ref{sub:stop:formal}). We further 
43 theoretical study this random walk to 
44 provide a upper bound of fair sequences 
45 (See section~\ref{sub:stop:bound}).
46 We finally complete these study with experimental
47 results that reduce this bound (Sec.~\ref{sub:stop:stop}).
48 Notice that for a general references on Markov chains
49 see~\cite{LevinPeresWilmer2006}, 
50 and particularly Chapter~5 on stopping times.  
51
52
53 \subsection{Formalizing the Random Walk}\label{sub:stop:formal}
54
55 First of all, let $\pi$, $\mu$ be two distributions on $\Bool^{\mathsf{N}}$. The total
56 variation distance between $\pi$ and $\mu$ is denoted $\tv{\pi-\mu}$ and is
57 defined by
58 $$\tv{\pi-\mu}=\max_{A\subset \Bool^{\mathsf{N}}} |\pi(A)-\mu(A)|.$$ It is known that
59 $$\tv{\pi-\mu}=\frac{1}{2}\sum_{X\in\Bool^{\mathsf{N}}}|\pi(X)-\mu(X)|.$$ Moreover, if
60 $\nu$ is a distribution on $\Bool^{\mathsf{N}}$, one has
61 $$\tv{\pi-\mu}\leq \tv{\pi-\nu}+\tv{\nu-\mu}$$
62
63 Let $P$ be the matrix of a Markov chain on $\Bool^{\mathsf{N}}$. $P(X,\cdot)$ is the
64 distribution induced by the $X$-th row of $P$. If the Markov chain induced by
65 $P$ has a stationary distribution $\pi$, then we define
66 $$d(t)=\max_{X\in\Bool^{\mathsf{N}}}\tv{P^t(X,\cdot)-\pi}.$$
67
68 and
69
70 $$t_{\rm mix}(\varepsilon)=\min\{t \mid d(t)\leq \varepsilon\}.$$
71
72 Intuitively speaking, $t_{\rm mix}$ is a mixing time 
73 \textit{i.e.}, is the time until the matrix $X$ of a Markov chain  
74 is $\epsilon$-close to a stationary distribution.
75
76
77
78 One can prove that
79
80 $$t_{\rm mix}(\varepsilon)\leq \lceil\log_2(\varepsilon^{-1})\rceil t_{\rm mix}(\frac{1}{4})$$
81
82
83
84
85 % It is known that $d(t+1)\leq d(t)$. \JFC{references ? Cela a-t-il 
86 % un intérêt dans la preuve ensuite.}
87
88
89
90 %and
91 % $$t_{\rm mix}(\varepsilon)=\min\{t \mid d(t)\leq \varepsilon\}.$$
92 % One can prove that \JFc{Ou cela a-t-il été fait?}
93 % $$t_{\rm mix}(\varepsilon)\leq \lceil\log_2(\varepsilon^{-1})\rceil t_{\rm mix}(\frac{1}{4})$$
94
95
96
97 Let $(X_t)_{t\in \mathbb{N}}$ be a sequence of $\Bool^{\mathsf{N}}$ valued random
98 variables. A $\mathbb{N}$-valued random variable $\tau$ is a {\it stopping
99   time} for the sequence $(X_i)$ if for each $t$ there exists $B_t\subseteq
100 (\Bool^{\mathsf{N}})^{t+1}$ such that $\{\tau=t\}=\{(X_0,X_1,\ldots,X_t)\in B_t\}$. 
101 In other words, the event $\{\tau = t \}$ only depends on the values of 
102 $(X_0,X_1,\ldots,X_t)$, not on $X_k$ with $k > t$. 
103  
104
105 Let $(X_t)_{t\in \mathbb{N}}$ be a Markov chain and $f(X_{t-1},Z_t)$ a
106 random mapping representation of the Markov chain. A {\it randomized
107   stopping time} for the Markov chain is a stopping time for
108 $(Z_t)_{t\in\mathbb{N}}$. If the Markov chain is irreducible and has $\pi$
109 as stationary distribution, then a {\it stationary time} $\tau$ is a
110 randomized stopping time (possibly depending on the starting position $X$),
111 such that  the distribution of $X_\tau$ is $\pi$:
112 $$\P_X(X_\tau=Y)=\pi(Y).$$
113
114 \subsection{Upper bound of Stopping Time}\label{sub:stop:bound}
115
116
117 A stopping time $\tau$ is a {\emph strong stationary time} if $X_{\tau}$ is
118 independent of $\tau$. 
119
120
121 \begin{thrm}\label{thm-sst}
122 If $\tau$ is a strong stationary time, then $d(t)\leq \max_{X\in\Bool^{\mathsf{N}}}
123 \P_X(\tau > t)$.
124 \end{thrm}
125
126
127 %Let $\Bool^n$ be the set of words of length $n$. 
128 Let $E=\{(X,Y)\mid
129 X\in \Bool^{\mathsf{N}}, Y\in \Bool^{\mathsf{N}},\ X=Y \text{ or } X\oplus Y \in 0^*10^*\}$.
130 In other words, $E$ is the set of all the edges in the classical 
131 ${\mathsf{N}}$-cube. 
132 Let $h$ be a function from $\Bool^{\mathsf{N}}$ into $\llbracket 1, {\mathsf{N}} \rrbracket$.
133 Intuitively speaking $h$ aims at memorizing for each node 
134 $X \in \Bool^{\mathsf{N}}$ which edge is removed in the Hamiltonian cycle,
135 \textit{i.e.} which bit in $\llbracket 1, {\mathsf{N}} \rrbracket$ 
136 cannot be switched.
137
138
139
140 We denote by $E_h$ the set $E\setminus\{(X,Y)\mid X\oplus Y =
141 0^{{\mathsf{N}}-h(X)}10^{h(X)-1}\}$. This is the set of the modified hypercube, 
142 \textit{i.e.}, the ${\mathsf{N}}$-cube where the Hamiltonian cycle $h$ 
143 has been removed.
144
145 We define the Markov matrix $P_h$ for each line $X$ and 
146 each column $Y$  as follows:
147 \begin{equation}
148 \left\{
149 \begin{array}{ll}
150 P_h(X,X)=\frac{1}{2}+\frac{1}{2{\mathsf{N}}} & \\
151 P_h(X,Y)=0 & \textrm{if  $(X,Y)\notin E_h$}\\
152 P_h(X,Y)=\frac{1}{2{\mathsf{N}}} & \textrm{if $X\neq Y$ and $(X,Y) \in E_h$}
153 \end{array}
154 \right.
155 \label{eq:Markov:rairo}
156 \end{equation} 
157
158 We denote by $\ov{h} : \Bool^{\mathsf{N}} \rightarrow \Bool^{\mathsf{N}}$ the function 
159 such that for any $X \in \Bool^{\mathsf{N}} $, 
160 $(X,\ov{h}(X)) \in E$ and $X\oplus\ov{h}(X)=0^{{\mathsf{N}}-h(X)}10^{h(X)-1}$. 
161 The function $\ov{h}$ is said {\it square-free} if for every $X\in \Bool^{\mathsf{N}}$,
162 $\ov{h}(\ov{h}(X))\neq X$. 
163
164 \begin{lmm}\label{lm:h}
165 If $\ov{h}$ is bijective and square-free, then $h(\ov{h}^{-1}(X))\neq h(X)$.
166 \end{lmm}
167
168 \begin{proof}
169 Let $\ov{h}$ be bijective.
170 Let $k\in \llbracket 1, {\mathsf{N}} \rrbracket$ s.t. $h(\ov{h}^{-1}(X))=k$.
171 Then $(\ov{h}^{-1}(X),X)$ belongs to $E$ and 
172 $\ov{h}^{-1}(X)\oplus X = 0^{{\mathsf{N}}-k}10^{k-1}$.
173 Let us suppose $h(X) = h(\ov{h}^{-1}(X))$. In such a case, $h(X) =k$.
174 By definition of $\ov{h}$, $(X, \ov{h}(X)) \in E $ and 
175 $X\oplus\ov{h}(X)=0^{{\mathsf{N}}-h(X)}10^{h(X)-1} = 0^{{\mathsf{N}}-k}10^{k-1}$.
176 Thus $\ov{h}(X)= \ov{h}^{-1}(X)$, which leads to $\ov{h}(\ov{h}(X))= X$.
177 This contradicts the square-freeness of $\ov{h}$.
178 \end{proof}
179
180 Let $Z$ be a random variable that is uniformly distributed over
181 $\llbracket 1, {\mathsf{N}} \rrbracket \times \Bool$.
182 For $X\in \Bool^{\mathsf{N}}$, we
183 define, with $Z=(i,b)$,  
184 $$
185 \left\{
186 \begin{array}{ll}
187 f(X,Z)=X\oplus (0^{{\mathsf{N}}-i}10^{i-1}) & \text{if } b=1 \text{ and } i\neq h(X),\\
188 f(X,Z)=X& \text{otherwise.} 
189 \end{array}\right.
190 $$
191
192 The Markov chain is thus defined as 
193 $$
194 X_t= f(X_{t-1},Z_t)
195 $$
196
197
198
199 %%%%%%%%%%%%%%%%%%%%%%%%%%%ù
200 %\section{Stopping time}
201
202 An integer $\ell\in \llbracket 1,{\mathsf{N}} \rrbracket$ is said {\it fair} 
203 at time $t$ if there
204 exists $0\leq j <t$ such that $Z_{j+1}=(\ell,\cdot)$ and $h(X_j)\neq \ell$.
205 In other words, there exist a date $j$ before $t$ where 
206 the first element of the random variable $Z$ is exactly $l$ 
207 (\textit{i.e.}, $l$ is the strategy at date $j$) 
208 and where the configuration $X_j$ allows to traverse the edge $l$.  
209  
210 Let $\ts$ be the first time all the elements of $\llbracket 1, {\mathsf{N}} \rrbracket$
211 are fair. The integer $\ts$ is a randomized stopping time for
212 the Markov chain $(X_t)$.
213
214
215 \begin{lmm}
216 The integer $\ts$ is a strong stationary time.
217 \end{lmm}
218
219 \begin{proof}
220 Let $\tau_\ell$ be the first time that $\ell$ is fair. The random variable
221 $Z_{\tau_\ell}$ is of the form $(\ell,b)$ %with $\delta\in\{0,1\}$ and
222 such that 
223 $b=1$ with probability $\frac{1}{2}$ and $b=0$ with probability
224 $\frac{1}{2}$. Since $h(X_{\tau_\ell-1})\neq\ell$ the value of the $\ell$-th
225 bit of $X_{\tau_\ell}$ 
226 is $0$ or $1$ with the same probability ($\frac{1}{2}$).
227 This probability is independent of the value of the other bits.
228
229
230
231 Moving next in the chain, at each step,
232 the $l$-th bit  is switched from $0$ to $1$ or from $1$ to $0$ each time with
233 the same probability. Therefore,  for $t\geq \tau_\ell$, the
234 $\ell$-th bit of $X_t$ is $0$ or $1$ with the same probability, proving the
235 lemma.\end{proof}
236
237 \begin{thrm} \label{prop:stop}
238 If $\ov{h}$ is bijective and square-free, then
239 $E[\ts]\leq 8{\mathsf{N}}^2+ 4{\mathsf{N}}\ln ({\mathsf{N}}+1)$. 
240 \end{thrm}
241
242 For each $X\in \Bool^{\mathsf{N}}$ and $\ell\in\llbracket 1,{\mathsf{N}}\rrbracket$, 
243 let $S_{X,\ell}$ be the
244 random variable that counts the number of steps 
245 from $X$ until we reach a configuration where
246 $\ell$ is fair. More formally
247 $$S_{X,\ell}=\min \{t \geq 1\mid h(X_{t-1})\neq \ell\text{ and }Z_t=(\ell,.)\text{ and } X_0=X\}.$$
248
249 %  We denote by
250 % $$\lambda_h=\max_{X,\ell} S_{X,\ell}.$$
251
252
253 \begin{lmm}\label{prop:lambda}
254 Let $\ov{h}$ is a square-free bijective function. Then
255 for all $X$ and 
256 all $\ell$, 
257 the inequality 
258 $E[S_{X,\ell}]\leq 8{\mathsf{N}}^2$ is established.
259 \end{lmm}
260
261 \begin{proof}
262 For every $X$, every $\ell$, one has $\P(S_{X,\ell})\leq 2)\geq
263 \frac{1}{4{\mathsf{N}}^2}$. 
264 Let $X_0= X$.
265 Indeed, 
266 \begin{itemize}
267 \item if $h(X)\neq \ell$, then
268 $\P(S_{X,\ell}=1)=\frac{1}{2{\mathsf{N}}}\geq \frac{1}{4{\mathsf{N}}^2}$. 
269 \item otherwise, $h(X)=\ell$, then
270 $\P(S_{X,\ell}=1)=0$.
271 But in this case, intuitively, it is possible to move
272 from $X$ to $\ov{h}^{-1}(X)$ (with probability $\frac{1}{2N}$). And in
273 $\ov{h}^{-1}(X)$ the $l$-th bit can be switched. 
274 More formally,
275 since $\ov{h}$ is square-free,
276 $\ov{h}(X)=\ov{h}(\ov{h}(\ov{h}^{-1}(X)))\neq \ov{h}^{-1}(X)$. It follows
277 that $(X,\ov{h}^{-1}(X))\in E_h$. We thus have
278 $P(X_1=\ov{h}^{-1}(X))=\frac{1}{2{\mathsf{N}}}$. Now, by Lemma~\ref{lm:h},
279 $h(\ov{h}^{-1}(X))\neq h(X)$. Therefore $\P(S_{x,\ell}=2\mid
280 X_1=\ov{h}^{-1}(X))=\frac{1}{2{\mathsf{N}}}$, proving that $\P(S_{x,\ell}\leq 2)\geq
281 \frac{1}{4{\mathsf{N}}^2}$.
282 \end{itemize}
283
284
285
286
287 Therefore, $\P(S_{X,\ell}\geq 3)\leq 1-\frac{1}{4{\mathsf{N}}^2}$. By induction, one
288 has, for every $i$, $\P(S_{X,\ell}\geq 2i)\leq
289 \left(1-\frac{1}{4{\mathsf{N}}^2}\right)^i$.
290  Moreover,
291 since $S_{X,\ell}$ is positive, it is known~\cite[lemma 2.9]{proba}, that
292 $$E[S_{X,\ell}]=\sum_{i=1}^{+\infty}\P(S_{X,\ell}\geq i).$$
293 Since $\P(S_{X,\ell}\geq i)\geq \P(S_{X,\ell}\geq i+1)$, one has
294 $$E[S_{X,\ell}]=\sum_{i=1}^{+\infty}\P(S_{X,\ell}\geq i)\leq
295 \P(S_{X,\ell}\geq 1)+\P(S_{X,\ell}\geq 2)+2 \sum_{i=1}^{+\infty}\P(S_{X,\ell}\geq 2i).$$
296 Consequently,
297 $$E[S_{X,\ell}]\leq 1+1+2
298 \sum_{i=1}^{+\infty}\left(1-\frac{1}{4{\mathsf{N}}^2}\right)^i=2+2(4{\mathsf{N}}^2-1)=8{\mathsf{N}}^2,$$
299 which concludes the proof.
300 \end{proof}
301
302 Let $\ts^\prime$ be the time used to get all the bits but one fair.
303
304 \begin{lmm}\label{lm:stopprime}
305 One has $E[\ts^\prime]\leq 4{\mathsf{N}} \ln ({\mathsf{N}}+1).$
306 \end{lmm}
307
308 \begin{proof}
309 This is a classical  Coupon Collector's like problem. Let $W_i$ be the
310 random variable counting the number of moves done in the Markov chain while
311 we had exactly $i-1$ fair bits. One has $\ts^\prime=\sum_{i=1}^{{\mathsf{N}}-1}W_i$.
312  But when we are at position $X$ with $i-1$ fair bits, the probability of
313  obtaining a new fair bit is either $1-\frac{i-1}{{\mathsf{N}}}$ if $h(X)$ is fair,
314  or  $1-\frac{i-2}{{\mathsf{N}}}$ if $h(X)$ is not fair. 
315
316 Therefore,
317 $\P (W_i=k)\leq \left(\frac{i-1}{{\mathsf{N}}}\right)^{k-1} \frac{{\mathsf{N}}-i+2}{{\mathsf{N}}}.$
318 Consequently, we have $\P(W_i\geq k)\leq \left(\frac{i-1}{{\mathsf{N}}}\right)^{k-1} \frac{{\mathsf{N}}-i+2}{{\mathsf{N}}-i+1}.$
319 It follows that $E[W_i]=\sum_{k=1}^{+\infty} \P (W_i\geq k)\leq {\mathsf{N}} \frac{{\mathsf{N}}-i+2}{({\mathsf{N}}-i+1)^2}\leq \frac{4{\mathsf{N}}}{{\mathsf{N}}-i+2}$.
320
321
322
323 It follows that 
324 $E[W_i]\leq \frac{4{\mathsf{N}}}{{\mathsf{N}}-i+2}$. Therefore
325 $$E[\ts^\prime]=\sum_{i=1}^{{\mathsf{N}}-1}E[W_i]\leq 
326 4{\mathsf{N}}\sum_{i=1}^{{\mathsf{N}}-1} \frac{1}{{\mathsf{N}}-i+2}=
327 4{\mathsf{N}}\sum_{i=3}^{{\mathsf{N}}+1}\frac{1}{i}.$$
328
329 But $\sum_{i=1}^{{\mathsf{N}}+1}\frac{1}{i}\leq 1+\ln({\mathsf{N}}+1)$. It follows that
330 $1+\frac{1}{2}+\sum_{i=3}^{{\mathsf{N}}+1}\frac{1}{i}\leq 1+\ln({\mathsf{N}}+1).$
331 Consequently,
332 $E[\ts^\prime]\leq 
333 4{\mathsf{N}} (-\frac{1}{2}+\ln({\mathsf{N}}+1))\leq 
334 4{\mathsf{N}}\ln({\mathsf{N}}+1)$.
335 \end{proof}
336
337 One can now prove Theorem~\ref{prop:stop}.
338
339 \begin{proof}
340 Since $\ts^\prime$ is the time used to obtain $\mathsf{N}-1$ fair bits.
341 Assume that the last unfair bit is $\ell$. One has
342 $\ts=\ts^\prime+S_{X_\tau,\ell}$, and therefore $E[\ts] =
343 E[\ts^\prime]+E[S_{X_\tau,\ell}]$. Therefore, Theorem~\ref{prop:stop} is a
344 direct application of lemma~\ref{prop:lambda} and~\ref{lm:stopprime}.
345 \end{proof}
346
347 Now using Markov Inequality, one has $\P_X(\tau > t)\leq \frac{E[\tau]}{t}$.
348 With $t=32N^2+16N\ln (N+1)$, one obtains:  $\P_X(\tau > t)\leq \frac{1}{4}$. 
349 Therefore, using the defintion of $t_{\rm mix)}$ and
350 Theorem~\ref{thm-sst}, it follows that
351 $t_{\rm mix}\leq 32N^2+16N\ln (N+1)=O(N^2)$.
352
353
354 Notice that the calculus of the stationary time upper bound is obtained
355 under the following constraint: for each vertex in the $\mathsf{N}$-cube 
356 there are one ongoing arc and one outgoing arc that are removed. 
357 The calculus does not consider (balanced) Hamiltonian cycles, which 
358 are more regular and more binding than this constraint.
359 Moreover, the bound
360 is obtained using Markov Inequality which is frequently coarse. For the
361 classical random walkin the  $\mathsf{N}$-cube, without removing any
362 Hamiltonian cylce, the mixing time is in $\Theta(N\ln N)$. 
363 We conjecture that in our context, the mixing time is also in $\Theta(N\ln
364 N)$.
365
366
367 In this later context, we claim that the upper bound for the stopping time 
368 should be reduced. This fact is studied in the next section.
369
370 \subsection{Practical Evaluation of Stopping Times}\label{sub:stop:exp}
371  
372 Let be given a function $f: \Bool^{\mathsf{N}} \rightarrow \Bool^{\mathsf{N}}$
373 and an initial seed $x^0$.
374 The pseudo code given in algorithm~\ref{algo:stop} returns the smallest 
375 number of iterations such that all elements $\ell\in \llbracket 1,{\mathsf{N}} \rrbracket$ are fair. It allows to deduce an approximation of $E[\ts]$
376 by calling this code many times with many instances of function and many 
377 seeds.
378
379 Practically speaking, for each number $\mathsf{N}$,$ 3 \le \mathsf{N} \le 16$, 
380 10 functions have been generaed according to method presented in section~\ref{sec:hamilton}. For each of them, the calculus of the approximation of $E[\ts]$
381 is executed 10000 times with a random seed. The table~\ref{table:stopping:moy}
382 summarizes results. It can be observed that the approximation is largely
383 wœsmaller than the upper bound given in theorem~\ref{prop:stop}.
384
385 \begin{algorithm}[ht]
386 %\begin{scriptsize}
387 \KwIn{a function $f$, an initial configuration $x^0$ ($\mathsf{N}$ bits)}
388 \KwOut{a number of iterations $\textit{nbit}$}
389
390 $\textit{nbit} \leftarrow 0$\;
391 $x\leftarrow x^0$\;
392 $\textit{visited}\leftarrow\emptyset$\;
393
394 \While{$\left\vert{\textit{visited}}\right\vert < \mathsf{N} $}
395 {
396         $ s \leftarrow \textit{Random}(n)$ \;
397         $\textit{image} \leftarrow f(x) $\;
398         \If{$x[s] \neq \textit{image}[s]$}{
399             $\textit{visited} \leftarrow \textit{visited} \cup \{s\}$
400           }
401         $x[s] \leftarrow \textit{image}[s]$\;
402         $\textit{nbit} \leftarrow \textit{nbit}+1$\;
403 }
404 \Return{$\textit{nbit}$}\;
405 %\end{scriptsize}
406 \caption{Pseudo Code of the stoping time calculus}
407 \label{algo:stop}
408 \end{algorithm}
409
410
411
412
413 \begin{table}
414 $$
415 \begin{array}{|*{15}{l|}}
416 \hline
417 \mathsf{N}  & 3 & 4 & 5 & 6 & 7& 8 & 9 & 10& 11 & 12 & 13 & 14 & 15 & 16 \\
418 \hline
419 \mathsf{N}  & 3 & 10.9 & 5 & 17.7 & 7& 25 & 9 & 32.7& 11 & 40.8 & 13 & 49.2 & 15 & 16 \\
420 \hline
421 \end{array}
422 $$
423 \caption{Average Stopping Time}\label{table:stopping:moy}
424 \end{table}