]> AND Private Git Repository - chaos1.git/blob - main.tex
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
Merge branch 'master' of ssh://bilbo.iut-bm.univ-fcomte.fr/chaos1
[chaos1.git] / main.tex
1 % ****** Start of file chaos-paper.tex ******
2 %
3 \documentclass[%
4 aip,
5 cha,% long, 
6 numerical bibliography, %(default)
7 %jcp,% short, numerical bibliography, 
8 %jmp,
9 amsmath,amssymb,
10 preprint,%
11 %reprint,%
12 %author-year,%
13 %author-numerical,%
14 ]{revtex4-1}
15
16 \usepackage{graphicx}% Include figure files
17 \usepackage{dcolumn}% Align table columns on decimal point
18 \usepackage{bm}% bold math
19 \usepackage{color}
20 \usepackage{ulem}
21 \usepackage[mathlines]{lineno}% Enable numbering of text and display math
22 \linenumbers\relax % Commence numbering lines
23 % The amssymb package provides various useful mathematical symbols
24 \usepackage{amssymb}
25 % The amsthm package provides various useful mathematical fonts
26 \usepackage{amsfonts}
27 % Various mathematical packages
28 \PassOptionsToPackage{cmex10draft}{graphics}
29 \usepackage[standard]{ntheorem}
30 % Various packages
31 \usepackage{stmaryrd} % llbracket
32 \usepackage{dsfont}   % mathds
33 \usepackage{multirow} % tables
34
35 \newcommand{\ie}{\textit{i.e.}}
36 \newcommand{\Nats}[0]{\ensuremath{\mathds{N}}}
37 \newcommand{\R}[0]{\ensuremath{\mathds{R}}}
38 \newcommand{\Bool}[0]{\ensuremath{\mathds{B}}}
39
40 \begin{document}
41
42 \title[Recurrent Neural Networks and Chaos]{Recurrent Neural Networks 
43 and Chaos: Construction, Evaluation, \\
44 and Prediction Ability}
45
46 \author{Jacques M. Bahi}
47 \author{Jean-Fran\c{c}ois Couchot}
48 \author{Christophe Guyeux}
49 \email{christophe.guyeux@univ-fcomte.fr.}
50 \author{Michel Salomon}
51 \altaffiliation[Authors in ]{alphabetic order} 
52 \affiliation{
53 Computer Science Laboratory (LIFC), University of Franche-Comt\'e, \\
54 IUT de Belfort-Montb\'eliard, BP 527, \\
55 90016 Belfort Cedex, France
56 }
57
58 \date{\today}
59
60 \newcommand{\CG}[1]{\begin{color}{red}\textit{#1}\end{color}}
61 \newcommand{\JFC}[1]{\begin{color}{blue}\textit{#1}\end{color}}
62
63
64
65
66
67 \begin{abstract}
68 %% Text of abstract
69 Many  research works  deal with  chaotic neural  networks  for various
70 fields  of application. Unfortunately,  up to  now these  networks are
71 usually  claimed to be  chaotic without  any mathematical  proof.  The
72 purpose of this paper is to establish, based on a rigorous theoretical
73 framework, an equivalence between  chaotic iterations according to 
74 Devaney  and  a  particular  class of  neural
75 networks. On the one hand we show  how to build such a network, on the
76 other  hand we provide  a method  to check  if a  neural network  is a
77 chaotic one.  Finally, the ability of classical feedforward multilayer
78 perceptrons to  learn sets of  data obtained from a  chaotic dynamical
79 system is regarded.  Various  Boolean functions are iterated on finite
80 states. Iterations of some of them  are proven to  be chaotic 
81  as it is  defined by
82 Devaney.  In that context, important differences occur in the training
83 process,  establishing  with  various  neural  networks  that  chaotic
84 behaviors are far more difficult to learn.
85 \end{abstract}
86
87 %%\pacs{Valid PACS appear here}% PACS, the Physics and Astronomy
88                              % Classification Scheme.
89 %%\keywords{Suggested keywords}%Use showkeys class option if keyword
90                               %display desired
91 \maketitle
92
93 \begin{quotation}
94
95 Chaotic neural  networks have received a  lot of attention  due to the
96 appealing   properties  of   deterministic   chaos  (unpredictability,
97 sensitivity,  and so  on). However,  such networks  are  often claimed
98 chaotic without  any rigorous mathematical proof.   Therefore, in this
99 work  a theoretical  framework based  on the  Devaney's  definition of
100 chaos  is introduced.   Starting with  a relationship  between chaotic
101 iterations  and  Devaney's chaos,  we  firstly  show  how to  build  a
102 recurrent  neural networks  that is  equivalent to  a chaotic  map and
103 secondly  a way  to check  whether  an already  available network,  is
104 chaotic  or not.  We also  study different  topological  properties of
105 these  truly  chaotic neural  networks.   Finally,  we  show that  the
106 learning,  with neural  networks  having a  feedforward structure,  of
107 chaotic behaviors represented by data sets obtained from chaotic maps,
108 is far more difficult than non chaotic behaviors.
109 \end{quotation}
110
111 %% Main text
112 \section{Introduction}
113 \label{S1}
114
115 REVOIR TOUT L'INTRO et l'ABSTRACT en fonction d'asynchrone, chaotic
116
117
118 Several research  works have proposed  or run chaotic  neural networks
119 these last  years.  The complex dynamics  of such a  networks leads to
120 various       potential      application       areas:      associative
121 memories~\cite{Crook2007267}  and  digital  security tools  like  hash
122 functions~\cite{Xiao10},                                       digital
123 watermarking~\cite{1309431,Zhang2005759},           or          cipher
124 schemes~\cite{Lian20091296}.  In the  former case, the background idea
125 is to  control chaotic dynamics in  order to store  patterns, with the
126 key advantage  of offering a  large storage capacity.  For  the latter
127 case,   the  use   of   chaotic  dynamics   is   motivated  by   their
128 unpredictability and  random-like behaviors.  Thus,  investigating new
129 concepts is crucial in this  field, because new threats are constantly
130 emerging.   As an illustrative  example, the  former standard  in hash
131 functions,  namely the  SHA-1  algorithm, has  been recently  weakened
132 after flaws were discovered.
133
134 Chaotic neural networks have  been built with different approaches. In
135 the context of associative  memory, chaotic neurons like the nonlinear
136 dynamic  state neuron  \cite{Crook2007267}  frequently constitute  the
137 nodes of the network. These neurons have an inherent chaotic behavior,
138 which  is usually  assessed through  the computation  of  the Lyapunov
139 exponent.  An alternative approach  is to consider a well-known neural
140 network architecture: the  MultiLayer Perceptron (MLP). These networks
141 are  suitable to model  nonlinear relationships  between data,  due to
142 their universal approximator capacity.
143 \JFC{Michel, peux-tu donner une ref la dessus}
144 Thus, this kind of networks can
145 be trained to model a physical  phenomenon known to be chaotic such as
146 Chua's circuit  \cite{dalkiran10}.  Sometimes, a  neural network which
147 is build by combining  transfer functions and initial conditions that are both
148 chaotic,      is      itself      claimed      to      be      chaotic
149 \cite{springerlink:10.1007/s00521-010-0432-2}.
150
151 What all of these chaotic neural  networks have in common is that they
152 are claimed to be chaotic  despite a lack of any rigorous mathematical
153 proof.   The first contribution of  this paper  is  to fill  this  gap, 
154 using  a theoretical  framework  based on  the  Devaney's  definition of  chaos
155 \cite{Devaney}.   This  mathematical  theory  of chaos  provides  both
156 qualitative and quantitative tools to evaluate the complex behavior of
157 a  dynamical  system:  ergodicity,   expansivity,  and  so  on.   More
158 precisely, in  this paper,  which is an  extension of a  previous work
159 \cite{bgs11:ip},   we  establish   the  equivalence  between asynchronous
160 iterations and  a class of globally  recurrent MLP.
161 The investigation the  converse problem is the second contribution: 
162 we indeed study the  ability for
163 classical MultiLayer Perceptrons  to learn a particular family of
164 discrete  chaotic  dynamical  systems.   This family,  called  chaotic
165 iterations, is defined by a  Boolean vector, an update function, and a
166 sequence giving  which component  to update at  each iteration.   It has
167 been  previously established  that such  dynamical systems is 
168 chaotically iterated (as it is defined by Devaney) when the chosen function has
169 a  strongly connected  iterations graph.   In this  document,  we 
170 experiment several MLPs and try to learn some iterations of this kind.
171 We  show that non-chaotic iterations can be learned, whereas it is
172 far  more  difficult  for chaotic  ones.   That  is  to say,  we  have
173 discovered at  least one  family of problems  with a  reasonable size,
174 such  that artificial  neural networks  should not  be applied  
175 due to their inability to  learn chaotic behaviors in this context.
176
177 The remainder of this research  work is organized as follows. The next
178 section is devoted  to the basics of Devaney's
179 chaos.   Section~\ref{S2} formally  describes  how to  build a  neural
180 network  that operates  chaotically.  Section~\ref{S3} is 
181 devoted to the dual case of  checking whether an existing neural network
182 is chaotic  or not. 
183 Topological properties  of   chaotic  neural  networks  
184 are discussed in Sect.~\ref{S4}.   The
185 Section~\ref{section:translation}   shows   how   to  translate   such
186 iterations  into  an Artificial  Neural  Network  (ANN),  in order  to
187 evaluate the  capability for this  latter to learn  chaotic behaviors.
188 This  ability  is  studied in  Sect.~\ref{section:experiments},  where
189 various ANNs try to learn two  sets of data: the first one is obtained
190 by chaotic iterations while the  second one results from a non-chaotic
191 system.  Prediction success rates are  given and discussed for the two
192 sets.  The paper ends with a conclusion section where our contribution
193 is summed up and intended future work is exposed.
194
195 \section{Chaotic Iterations according to  Devaney}
196
197 In this section, the well-established notion of Devaney's mathematical
198 chaos is  firstly recalled.  Preservation of  the unpredictability of
199 such dynamical  system when implemented  on a computer is  obtained by
200 using  some discrete iterations  called ``asynchronous  iterations'', which
201 are thus introduced.  The result establishing the link between such
202 iterations and Devaney's chaos is  finally presented at the end of this
203 section.
204
205 In what follows and for  any function $f$, $f^n$ means the composition
206 $f \circ f \circ \hdots \circ f$ ($n$ times) and an \emph{iteration}
207 of a \emph{dynamical system} the step that consists in
208 updating the global state $x$ with respect to a function $f$ s.t.
209 $x^{t+1} = f(x^t)$.    
210
211 \subsection{Devaney's chaotic dynamical systems}
212
213 Various domains such as  physics, biology, or economy, contain systems
214 that exhibit a chaotic behavior,  a well-known example is the weather.
215 These  systems   are  in   particular  highly  sensitive   to  initial
216 conditions, a concept usually presented as the butterfly effect: small
217 variations in the initial conditions possibly lead to widely different
218 behaviors.  Theoretically speaking, a  system is sensitive if for each
219 point  $x$ in  the  iteration space,  one  can find  a  point in  each
220 neighborhood of $x$ having a significantly different future evolution.
221 Conversely, a  system seeded with  the same initial  conditions always
222 has  the same  evolution.   In  other words,  chaotic  systems have  a
223 deterministic  behavior  defined through  a  physical or  mathematical
224 model  and a  high  sensitivity to  the  initial conditions.   Besides
225 mathematically this  kind of unpredictability  is also referred  to as
226 deterministic chaos.  For example, many weather forecast models exist,
227 but they give only suitable predictions for about a week, because they
228 are initialized with conditions  that reflect only a partial knowledge
229 of the current weather.  Even  the  differences are  initially small,
230 they are  amplified in the course  of time, and thus  make difficult a
231 long-term prediction.  In fact,  in a chaotic system, an approximation
232 of  the current  state is  a  quite useless  indicator for  predicting
233 future states.
234
235 From  mathematical  point  of   view,  deterministic  chaos  has  been
236 thoroughly studied  these last decades, with  different research works
237 that  have   provide  various  definitions  of   chaos.   Among  these
238 definitions,   the  one  given   by  Devaney~\cite{Devaney}   is  
239 well-established.    This   definition   consists  of   three   conditions:
240 topological  transitivity, density of  periodic points,  and sensitive
241 point dependence on initial conditions.
242
243 Topological  transitivity   is  checked  when,  for   any  point,  any
244 neighborhood of its future evolution eventually overlap with any other
245 given region. More precisely, 
246
247 \begin{definition} \label{def2}
248 A continuous function $f$  on a topological space $(\mathcal{X},\tau)$
249 is defined  to be  {\emph{topologically transitive}}  if for any  pair of
250 open  sets $U$,  $V  \in  \mathcal{X}$ there  exists  
251 $k \in
252 \mathds{N}^{\ast}$
253  such  that
254 $f^k(U) \cap V \neq \emptyset$.
255 \end{definition}
256
257 This property  implies that a  dynamical system cannot be  broken into
258 simpler  subsystems.  
259 Intuitively, its complexity does not allow any simplification.
260 On  the contrary,  a dense set  of periodic points  is an
261 element of regularity that a chaotic dynamical system has to exhibit.
262
263 \begin{definition} \label{def3}
264 A point $x$ is called a  {\emph{periodic point}} for $f$ of period~$n \in
265 \mathds{N}^{\ast}$ if $f^{n}(x)=x$.
266 \end{definition}
267
268 \begin{definition} \label{def4}
269 $f$ is said to be {\emph{ regular}} on $(\mathcal{X},\tau)$ if the set of
270   periodic points  for $f$ is  dense in $\mathcal{X}$ ( for any $x \in
271   \mathcal{X}$, we can find at least  one periodic point in any of its
272   neighborhood).
273 \end{definition}
274
275 This  regularity ``counteracts'' the  effects of  transitivity.  Thus,
276 due to these two properties, two points close to each other can behave
277 in a completely different  manner, leading to unpredictability for the
278 whole system. Then,
279
280 \begin{definition} \label{sensitivity}
281 $f$  has {\emph{  sensitive dependence  on initial  conditions}}  if there
282   exists $\delta  >0$ such  that, for any  $x\in \mathcal{X}$  and any
283   neighborhood $V$ of $x$, there exist  $y\in V$ and $n > 0$ such that
284   $d\left(f^{n}(x), f^{n}(y)\right) >\delta  $. The value $\delta$ is called the
285   {\emph{constant of sensitivity}} of $f$.
286 \end{definition}
287
288 Finally,
289
290 \begin{definition} \label{def5}
291 The dynamical system that iterates $f$ is {\emph{ chaotic according to Devaney}}  
292 on $(\mathcal{X},\tau)$ if $f$  is   regular,  topologically  transitive,   
293 and  has  sensitive dependence to its initial conditions.
294 \end{definition}
295
296 In what follows, iterations are said to be \emph{chaotic according Devaney}
297 when corresponding dynamical system  is chaotic according Devaney.
298
299
300 %Let us notice that for a  metric space the last condition follows from
301 %the two first ones~\cite{Banks92}.
302
303 \subsection{Asynchronous Iterations}
304
305 %This section  presents some basics on  topological chaotic iterations.
306 Let us  firstly discuss about the  domain of iteration.  As  far as we
307 know, no result rules that the chaotic behavior of a dynamical system 
308 that has been theoretically proven on  $\R$ remains valid on the
309 floating-point
310 numbers, which is  the implementation domain.  Thus, to  avoid loss of
311 chaos this  work presents an  alternative, that is to  iterate Boolean
312 maps:  results that  are  theoretically obtained  in  that domain  are
313 preserved in implementations.
314
315 Let us denote by $\llbracket  a ; b \rrbracket$ the following interval
316 of integers:  $\{a, a+1,  \hdots, b\}$, where $a~<~b$.  
317 In that section,  a  system 
318 under   consideration    iteratively   modifies   a    collection   of
319 $n$~components.   Each component  $i \in  \llbracket 1;  n \rrbracket$
320 takes  its  value  $x_i$  among the  domain  $\Bool=\{0,1\}$.   A~{\it
321   configuration} of the system at discrete time $t$  is the vector
322 %\begin{equation*}   
323 $x^{t}=(x_1^{t},\ldots,x_{n}^{t}) \in \Bool^n$.
324 %\end{equation*}
325 The dynamics of the system is  described according to a  function $f :
326 \Bool^n \rightarrow \Bool^n$ such that
327 %\begin{equation*} 
328 $f(x)=(f_1(x),\ldots,f_n(x))$.
329 %\end{equation*}
330 % Notice that $f^k$ denotes the 
331 % $k-$th composition $f\circ \ldots \circ f$ of the function $f$.
332
333 Let    be   given    a    configuration   $x$.    In   what    follows
334 $N(i,x)=(x_1,\ldots,\overline{x_i},\ldots,x_n)$  is  the configuration
335 obtained by switching the $i-$th component of $x$ ($\overline{x_i}$ is
336 indeed  the negation  of $x_i$).   Intuitively, $x$  and  $N(i,x)$ are
337 neighbors.   The discrete  iterations of  $f$ are  represented  by the
338 oriented  {\it graph  of iterations}  $\Gamma(f)$.  In  such  a graph,
339 vertices are configurations  of $\Bool^n$ and there is  an arc labeled
340 $i$ from $x$ to $N(i,x)$ if and only if  $f_i(x)$ is $N(i,x)$.
341
342 In the  sequel, the  {\it strategy} $S=(S^{t})^{t  \in \Nats}$  is the
343 sequence  defining which  component to  update at  time $t$  and $S^{t}$
344 denotes its  $t-$th term. 
345 This iteration scheme that only modifies one element at each iteration 
346 is clasically refered as \emph{asynchronous iterations}.
347 More préciselly, we have here
348 $$
349 x^{t+1}_i = \left\{ 
350 \begin{array}{l}
351   f_i(x^t) \textrm{ if $S^t = i$} \\
352   x_i^t \textrm{ otherwise} 
353  \end{array}
354 \right.
355 $$
356
357 Next section shows the link between asynchronous iterations and 
358 Devaney's Chaos.
359
360 \subsection{On the link between asynchronous iterations and
361   Devaney's Chaos}
362
363 In  this subsection  we recall  the link  we have  established between
364 asynchronous iterations and Devaney's  chaos.  The theoretical framework is
365 fully described in \cite{guyeux09}.
366
367 We  introduce the function $F_{f}$  that is
368 defined  for  any given  application  $f:\Bool^{n}  \to \Bool^{n}$  by
369 $F_{f}:   \llbracket1;n\rrbracket\times   \mathds{B}^{n}   \rightarrow
370 \mathds{B}^{n}$, s.t.
371 \begin{equation}
372 \label{eq:CIs}
373   F_{f}(s,x)_j  =  
374     \left\{
375     \begin{array}{l}
376     f_j(x) \textrm{ if } j= s \enspace , \\ 
377     x_{j} \textrm{ otherwise} \enspace .
378     \end{array}
379     \right. 
380 \end{equation}
381
382 \noindent With such a notation, configurations 
383 asynchronously obtained are defined for times 
384 $t=0,1,2,\ldots$ by:
385 \begin{equation}\label{eq:sync}   
386 \left\{\begin{array}{l}   
387   x^{0}\in \mathds{B}^{n} \textrm{ and}\\
388   x^{t+1}=F_{f}(S^t,x^{t}) \enspace .
389 \end{array}\right.
390 \end{equation}
391
392 \noindent  Finally, iterations defined  in Eq.~(\ref{eq:sync})  can be
393 described by the following system:
394 \begin{equation} 
395 \left\{
396 \begin{array}{lll} 
397 X^{0} & = &  ((S^t)^{t \in \Nats},x^0) \in 
398 \llbracket1;n\rrbracket^\Nats \times \Bool^{n}\\ 
399 X^{k+1}& = & G_{f}(X^{k})\\
400 \multicolumn{3}{c}{\textrm{where } G_{f}\left(((S^t)^{t \in \Nats},x)\right)
401 = \left(\sigma((S^t)^{t \in \Nats}),F_{f}(S^0,x)\right) \enspace ,}
402 \end{array} 
403 \right.
404 \label{eq:Gf}
405 \end{equation}
406 where  $\sigma$ is the  function that  removes the  first term  of the
407 strategy  ({\it i.e.},~$S^0$).  
408 This definition  allows to links asynchronous iterations with 
409 classical iterations of a dynamical system.
410
411
412 %means that  only one
413 %component  of the  system is  updated  at an  iteration: the  $S^t$-th
414 %element. But it can be extended by considering subsets for $S^t$.
415
416
417 To study topological properties of these iteations, we are then left to
418 introduce a  {\emph{  distance}}   $d$    between   two   points   $(S,x)$   and
419 $(\check{S},\check{x})\in  \mathcal{X} = \llbracket1;n\rrbracket^\Nats. 
420 \times \Bool^{n}$. It is defined by
421 \begin{equation}
422 d((S,x);(\check{S},\check{x}))=d_{e}(x,\check{x})+d_{s}(S,\check{S})
423 \enspace ,
424 \end{equation}
425 where
426 \begin{equation}
427 d_{e}(x,\check{x})=\sum_{j=1}^{n}\Delta
428 (x_{j},\check{x}_{j}) \in \llbracket  0 ; n \rrbracket 
429 \end{equation}
430 \noindent and   
431 \begin{equation}
432 d_{s}(S,\check{S})=\frac{9}{2n}\sum_{t=0}^{\infty
433 }\frac{|S^{t}-\check{S}^{t}|}{10^{t+1}} \in [0 ; 1] \enspace .
434 \end{equation}
435
436 Notice that the more  two systems have different components,
437 the  larger the  distance  between them is.  Secondly,  two systems  with
438 similar components and strategies, which have the same starting terms,
439 must  induce only  a small  distance.  The  proposed  distance fulfill
440 these  requirements: on  the one  hand  its floor  value reflects  the
441 difference between  the cells, on  the other hand its  fractional part
442 measures the difference between the strategies.
443
444 The relation  between $\Gamma(f)$ and  $G_f$ is clear: there  exists a
445 path from  $x$ to $x'$  in $\Gamma(f)$ if  and only if there  exists a
446 strategy  $s$ such  that  the  parallel iteration  of  $G_f$ from  the
447 initial  point $(s,x)$  reaches  the configuration  $x'$.  Using  this
448 link, Guyeux~\cite{GuyeuxThese10} has proven that,
449 \begin{theorem}%[Characterization of $\mathcal{C}$]
450 \label{Th:Caracterisation   des   IC   chaotiques}  
451 Let $f:\Bool^n\to\Bool^n$. Iterations of $G_f$ are chaotic  according 
452 to  Devaney if and only if  $\Gamma(f)$ is strongly connected.
453 \end{theorem}
454
455 Checking  if a  graph  is  strongly connected  is  not difficult 
456 (by the Tarjan's algorithm for instance). 
457 Let be given  a strategy $S$ and a function $f$ such that 
458 $\Gamma(f)$ is strongly connected.
459 In that case, iterations of the function $G_f$ as defined in 
460 Eq.~(\ref{eq:Gf}) are chaotic according to Devaney.
461
462
463 Let us then consider two function $f_0$ and $f_1$ both in 
464 $\Bool^n\to\Bool^n$ defined as follows that are used all along this article. 
465 The former is the  vectorial negation, \textit{i.e.},
466 $f_{0}(x_{1},\dots,x_{n}) =(\overline{x_{1}},\dots,\overline{x_{n}})$.
467 The latter is  $f_1\left(x_1,\dots,x_n\right)=\left(
468 \overline{x_1},x_1,x_2,\dots,x_{n-1}\right)$.
469 It is not hard to see that  $\Gamma(f_0)$ and $\Gamma(f_1)$ are 
470 both strongly connected, then iterations of $G_{f_0}$ and of 
471 $G_{f_1}$ are chaotic according to Devaney.
472
473 With this  material, we are now  able to build a  first chaotic neural
474 network, as defined in the Devaney's formulation.
475
476 \section{A chaotic neural network in the sense of Devaney}
477 \label{S2}
478
479 Firstly, let us build a
480 multilayer perceptron  neural network modeling 
481 $F_{f_0}:\llbracket 1;  n \rrbracket \times  \mathds{B}^n \to
482 \mathds{B}^n$  associated to the  vectorial negation.
483 More precisely, for all inputs  
484 $(s,x) \in \llbracket  1;n\rrbracket \times \mathds{B}^n$,
485 the output layer  produces  $F_{f_0}(s,x)$.  It is then possible to
486 link  the output  layer  and the  input  one, in  order  to model  the
487 dependence between two successive iterations.  As a result we obtain a
488 global  recurrent   neural  network  that  behaves   as  follows  (see
489 Fig.~\ref{Fig:perceptron}).
490
491 \begin{itemize}
492 \item   The   network   is   initialized   with   the   input   vector
493   $\left(S^0,x^0\right)    \in    \llbracket   1;n\rrbracket    \times
494   \mathds{B}^n$      and      computes      the     output      vector
495   $x^1=F_{f_0}\left(S^0,x^0\right)$. This last  vector is published as
496   an output one of the chaotic  neural network and is sent back to the
497   input layer through the feedback links.
498 \item When  the network  is activated at  the $t^{th}$  iteration, the
499   state of the system $x^t  \in \mathds{B}^n$ received from the output
500   layer and  the initial  term of the  sequence $(S^t)^{t  \in \Nats}$
501   ($S^0  \in \llbracket 1;n\rrbracket$)  are used  to compute  the new
502   output.   This new  output, which  represents the  new state  of the
503   dynamical system, satisfies:
504   \begin{equation}
505     x^{t+1}=F_{f_0}(S^0, x^t) \in \mathds{B}^n \enspace .
506   \end{equation}
507 \end{itemize}
508
509 \begin{figure}
510   \centering
511   \includegraphics[scale=0.625]{perceptron}
512   \caption{A perceptron equivalent to chaotic iterations}
513   \label{Fig:perceptron}
514 \end{figure}
515
516 The behavior of the neural network is such that when the initial state
517 is  $x^0~\in~\mathds{B}^n$ and  a  sequence $(S^t)^{t  \in \Nats}$  is
518 given  as outside  input,
519 \JFC{en dire davantage sur l'outside world}
520  then  the sequence  of  successive published
521 output vectors $\left(x^t\right)^{t \in \mathds{N}^{\ast}}$ is exactly
522 the  one produced  by  the chaotic  iterations  formally described  in
523 Eq.~(\ref{eq:CIs}).  It  means that  mathematically if we  use similar
524 input  vectors   they  both  generate  the   same  successive  outputs
525 $\left(x^t\right)^{t \in \mathds{N}^{\ast}}$,  and therefore that they
526 are  equivalent  reformulations  of  the iterations  of  $G_{f_0}$  in
527 $\mathcal{X}$. Finally, since the  proposed neural network is built to
528 model  the  behavior  of  $G_{f_0}$,  which is  chaotic  according  to
529 Devaney's definition  of chaos,  we can conclude  that the  network is
530 also chaotic in this sense.
531
532 The previous construction scheme  is not restricted to function $f_0$.
533 It can  be extended to any function  $f$ such that $G_f$  is a chaotic
534 map by training the network to model $F_{f}:\llbracket 1; n \rrbracket
535 \times      \mathds{B}^n      \to      \mathds{B}^n$.      Due      to
536 Theorem~\ref{Th:Caracterisation  des  IC  chaotiques},  we  can  find
537 alternative functions  $f$ for $f_0$  through a simple check  of their
538 graph of  iterations $\Gamma(f)$.  For  example, we can  build another
539 chaotic neural network by using $f_1$ instead of $f_0$.
540
541 \section{Checking whether a neural network is chaotic or not}
542 \label{S3}
543
544 We focus now on the case  where a neural network is already available,
545 and for which we  want to know if it is chaotic. Typically, in
546 many research papers neural network  are usually claimed to be chaotic
547 without any  convincing mathematical proof. We propose  an approach to
548 overcome  this  drawback  for  a  particular  category  of  multilayer
549 perceptrons defined below, and for the Devaney's formulation of chaos.
550 In  spite of  this restriction,  we think  that this  approach  can be
551 extended to  a large variety  of neural networks. 
552
553
554 We consider a multilayer perceptron  of the following form: inputs
555 are $n$ binary digits and  one integer value, while outputs are  $n$
556 bits.   Moreover, each  binary  output is  connected  with a  feedback
557 connection to an input one.
558
559 \begin{itemize}
560 \item During  initialization, the network is seeded with $n$~bits denoted
561   $\left(x^0_1,\dots,x^0_n\right)$  and an  integer  value $S^0$  that
562   belongs to $\llbracket1;n\rrbracket$.
563 \item     At     iteration~$t$,     the     last     output     vector
564   $\left(x^t_1,\dots,x^t_n\right)$   defines  the  $n$~bits   used  to
565   compute the new output one $\left(x^{t+1}_1,\dots,x^{t+1}_n\right)$.
566   While  the remaining  input receives  a new  integer value  $S^t \in
567   \llbracket1;n\rrbracket$, which is provided by the outside world.
568 \JFC{en dire davantage sur l'outside world}
569 \end{itemize}
570
571 The topological  behavior of these  particular neural networks  can be
572 proven to be chaotic through the following process. Firstly, we denote
573 by  $F:  \llbracket  1;n  \rrbracket \times  \mathds{B}^n  \rightarrow
574 \mathds{B}^n$     the     function     that     maps     the     value
575 $\left(s,\left(x_1,\dots,x_n\right)\right)    \in    \llbracket    1;n
576 \rrbracket      \times      \mathds{B}^n$   
577 \JFC{ici, cela devait etre $S^t$ et pas $s$, nn ?}
578    into     the      value
579 $\left(y_1,\dots,y_n\right)       \in       \mathds{B}^n$,       where
580 $\left(y_1,\dots,y_n\right)$  is the  response of  the  neural network
581 after    the    initialization     of    its    input    layer    with
582 $\left(s,\left(x_1,\dots, x_n\right)\right)$. 
583 \JFC{ici, cela devait etre $S^t$ et pas $s$, nn ?}
584 Secondly, we define $f:
585 \mathds{B}^n       \rightarrow      \mathds{B}^n$       such      that
586 $f\left(x_1,x_2,\dots,x_n\right)$ is equal to
587 \begin{equation}
588 \left(F\left(1,\left(x_1,x_2,\dots,x_n\right)\right),\dots,
589   F\left(n,\left(x_1,x_2,\dots,x_n\right)\right)\right) \enspace .
590 \end{equation}
591 Then $F=F_f$. If this recurrent  neural network is seeded with 
592 $\left(x_1^0,\dots,x_n^0\right)$    and   $S   \in    \llbracket   1;n
593 \rrbracket^{\mathds{N}}$, it produces  exactly the
594 same      output      vectors  than the 
595 chaotic iterations of $F_f$  with initial
596 condition  $\left(S,(x_1^0,\dots,  x_n^0)\right)  \in  \llbracket  1;n
597 \rrbracket^{\mathds{N}}  \times \mathds{B}^n$.
598 Theoretically speaking, such iterations of $F_f$ are thus a formal model of  
599 these kind of recurrent neural networks. In the  rest  of this
600 paper,  we will  call such  multilayer perceptrons  CI-MLP($f$), which
601 stands for ``Chaotic Iterations based MultiLayer Perceptron''.
602
603 Checking  if CI-MLP($f$)  behaves chaotically  according  to Devaney's
604 definition  of  chaos  is  simple:  we  need just  to  verify  if  the
605 associated graph  of iterations  $\Gamma(f)$ is strongly  connected or
606 not. As  an incidental consequence,  we finally obtain  an equivalence
607 between  chaotic  iterations   and  CI-MLP($f$).   Therefore,  we  can
608 obviously  study such multilayer  perceptrons with  mathematical tools
609 like  topology  to  establish,  for  example,  their  convergence  or,
610 contrarily, their unpredictable behavior.   An example of such a study
611 is given in the next section.
612
613 \section{Topological properties of chaotic neural networks}
614 \label{S4}
615
616 Let us first recall  two fundamental definitions from the mathematical
617 theory of chaos.
618
619 \begin{definition} \label{def8}
620 A  function   $f$  is   said  to  be   {\emph{  expansive}}   if  $\exists
621 \varepsilon>0$, $\forall  x \neq y$,  $\exists n \in  \mathds{N}$ such
622 that $d\left(f^n(x),f^n(y)\right) \geq \varepsilon$.
623 \end{definition}
624
625 \begin{definition} \label{def9}
626 A discrete dynamical  system is said to be  {\emph{ topologically mixing}}
627 if  and only  if,  for any  pair  of disjoint  open  sets $U$,$V  \neq
628 \emptyset$, we can find some $n_0  \in \mathds{N}$ such that  for any $n$, 
629 $n\geq n_0$, we have $f^n(U) \cap V \neq \emptyset$.
630 \end{definition}
631 \JFC{Donner un sens à ces definitions}
632
633
634 It has been proven in Ref.~\cite{gfb10:ip},  that chaotic iterations
635 are expansive and  topologically mixing when  $f$ is  the
636 vectorial  negation $f_0$.
637 Consequently,  these  properties are  inherited  by the  CI-MLP($f_0$)
638 recurrent neural network previously presented, which induce a greater
639 unpredictability.  Any  difference on the  initial value of  the input
640 layer is  in particular  magnified up to  be equal to  the expansivity
641 constant.
642
643 Let us then focus on the consequences for  a neural  network to  be chaotic
644 according  to  Devaney's definition.  Intuitively, the  topological
645 transitivity property implies indecomposability, which is formally defined 
646 as follows:
647
648
649 \begin{definition} \label{def10}
650 A   dynamical   system   $\left(   \mathcal{X},  f\right)$   is   
651 {\emph{not decomposable}}  if it  is not  the  union of  two closed  sets $A,  B
652 \subset \mathcal{X}$ such that $f(A) \subset A, f(B) \subset B$.
653 \end{definition}
654
655 \noindent Hence, reducing the set of outputs generated by CI-MLP($f$),
656 in order to  simplify its complexity, is impossible  if $\Gamma(f)$ is
657 strongly connected.  Moreover, under this  hypothesis CI-MLPs($f$) are
658 strongly transitive:
659
660 \begin{definition} \label{def11}
661 A  dynamical system  $\left( \mathcal{X},  f\right)$ is  {\emph{ strongly
662 transitive}} if $\forall x,y  \in \mathcal{X}$, $\forall r>0$, $\exists
663 z  \in  \mathcal{X}$,  $d(z,x)~\leq~r  \Rightarrow  \exists  n  \in
664 \mathds{N}^{\ast}$, $f^n(z)=y$.
665 \end{definition}
666 According to this definition, for all  pairs of points $(x, y)$ in the
667 phase space, a point $z$ can  be found in the neighborhood of $x$ such
668 that one of its iterates $f^n(z)$ is $y$. Indeed, this result has been
669 established  during  the  proof   of  the  transitivity  presented  in
670 Ref.~\cite{guyeux09}.  Among  other  things, the  strong  transitivity
671 leads  to the fact  that without  the knowledge  of the  initial input
672 layer, all outputs are possible.  Additionally, no point of the output
673 space  can   be  discarded  when  studying  CI-MLPs:   this  space  is
674 intrinsically complicated and it cannot be decomposed or simplified.
675
676 Furthermore, those  recurrent neural networks  exhibit the instability
677 property:
678 \begin{definition}
679 A dynamical  system $\left( \mathcal{X}, f\right)$ is  unstable if for
680 all  $x  \in  \mathcal{X}$,   the  orbit  $\gamma_x:n  \in  \mathds{N}
681 \longmapsto f^n(x)$  is unstable,  that means: $\exists  \varepsilon >
682 0$, $\forall  \delta>0$, $\exists y  \in \mathcal{X}$, $\exists  n \in
683 \mathds{N}$,        such        that        $d(x,y)<\delta$        and
684 $d\left(\gamma_x(n),\gamma_y(n)\right) \geq \varepsilon$.
685 \end{definition}
686 This property, which  is implied by the sensitive  point dependence on
687 initial conditions, leads to the fact that in all neighborhoods of any
688 point $x$, there are points that  can be apart by $\varepsilon$ in the
689 future through iterations of the  CI-MLP($f$). Thus, we can claim that
690 the behavior of  these MLPs is unstable when  $\Gamma (f)$ is strongly
691 connected.
692
693 Let  us  now consider  a  compact  metric space  $(M,  d)$  and $f:  M
694 \rightarrow M$  a continuous map. For  each natural number  $n$, a new
695 metric $d_n$ is defined on $M$ by
696 $$d_n(x,y)=\max\{d(f^i(x),f^i(y)): 0\leq i<n\} \enspace .$$
697
698 Given any $\varepsilon > 0$ and $n \geqslant 1$, two points of $M$ are
699 $\varepsilon$-close  with respect to  this metric  if their  first $n$
700 iterates are $\varepsilon$-close.
701
702 This metric  allows one to distinguish  in a neighborhood  of an orbit
703 the points  that move away from  each other during  the iteration from
704 the points  that travel together.  A subset  $E$ of $M$ is  said to be
705 $(n, \varepsilon)$-separated if each pair of distinct points of $E$ is
706 at  least $\varepsilon$  apart in  the metric  $d_n$. Denote  by $H(n,
707 \varepsilon)$     the    maximum     cardinality     of    an     $(n,
708 \varepsilon)$-separated set,
709 \begin{definition}
710 The {\it topological entropy} of the  map $f$ is defined by (see e.g.,
711 Ref.~\cite{Adler65} or Ref.~\cite{Bowen})
712 $$h(f)=\lim_{\varepsilon\to      0}      \left(\limsup_{n\to      \infty}
713 \frac{1}{n}\log H(n,\varepsilon)\right) \enspace .$$
714 \end{definition}
715
716 Then we have the following result \cite{GuyeuxThese10},
717 \begin{theorem}
718 $\left( \mathcal{X},d\right)$  is compact and  the topological entropy
719 of $(\mathcal{X},G_{f_0})$ is infinite.
720 \end{theorem}
721
722 \begin{figure}
723   \centering
724   \includegraphics[scale=0.625]{scheme}
725   \caption{Summary of addressed neural networks and chaos problems}
726   \label{Fig:scheme}
727 \end{figure}
728
729 The Figure~\ref{Fig:scheme} is a summary of addressed neural networks and chaos problems.
730 Section~\ref{S2} has explained how to  construct a truly chaotic neural
731 networks $A$ for instance.
732 Section~\ref{S3} has shown how to check whether a  given MLP
733 $A$ or $C$ is chaotic or not in the sens of Devaney.
734 %, and  how to study its topological behavior. 
735 The last thing to  investigate, when comparing
736 neural  networks   and  Devaney's  chaos,  is to  determine  whether
737 an artificial neural network $A$  is able to learn or  predict some chaotic
738 behaviors of $B$, as  it is defined  in the Devaney's formulation  (when they
739 are not specifically constructed for this purpose).  This statement is
740 studied in the next section.
741
742
743
744
745
746
747
748 \section{Suitability of Artificial Neural Networks 
749 for Predicting Chaotic Behaviors}
750
751 In  the context  of computer  science  different topic  areas have  an
752 interest       in       chaos,       as       for       steganographic
753 techniques~\cite{1309431,Zhang2005759}.    Steganography  consists  in
754 embedding a  secret message within  an ordinary one, while  the secret
755 extraction takes place once  at destination.  The reverse ({\it i.e.},
756 automatically detecting the presence  of hidden messages inside media)
757 is  called   steganalysis.   Among  the   deployed  strategies  inside
758 detectors,          there         are          support         vectors
759 machines~\cite{Qiao:2009:SM:1704555.1704664},                    neural
760 networks~\cite{10.1109/ICME.2003.1221665,10.1109/CIMSiM.2010.36},  and
761 Markov   chains~\cite{Sullivan06steganalysisfor}.    Most   of   these
762 detectors  give quite  good results  and are  rather  competitive when
763 facing steganographic  tools.  However, to  the best of  our knowledge
764 none of the considered information hiding schemes fulfills the Devaney
765 definition  of chaos~\cite{Devaney}.  Indeed,  one can  wonder whether
766 detectors  continue to  give good  results when  facing  truly chaotic
767 schemes.  More  generally, there remains the open  problem of deciding
768 whether artificial intelligence is suitable for predicting topological
769 chaotic behaviors.
770
771 \subsection{Representing Chaotic Iterations for Neural Networks} 
772 \label{section:translation}
773
774 The  problem  of  deciding  whether  classical  feedforward  ANNs  are
775 suitable  to approximate  topological chaotic  iterations may  then be
776 reduced  to evaluate  ANNs on  iterations of  functions  with Strongly
777 Connected  Component  (SCC)~graph  of  iterations.   To  compare  with
778 non-chaotic  iterations,  the experiments  detailed  in the  following
779 sections are  carried out  using both kinds  of function  (chaotic and
780 non-chaotic). Let us emphasize on  the difference between this kind of
781 neural   networks  and  the   Chaotic  Iterations   based  MultiLayer
782 Perceptron.
783
784 We are  then left to compute  two disjoint function  sets that contain
785 either functions  with topological chaos properties  or not, depending
786 on  the strong  connectivity of  their iterations graph.  This  can be
787 achieved for  instance by removing a  set of edges  from the iteration
788 graph $\Gamma(f_0)$ of the vectorial negation function~$f_0$.  One can
789 deduce whether  a function verifies the topological  chaos property or
790 not  by checking  the strong  connectivity of  the resulting  graph of
791 iterations.
792
793 For instance let us consider  the functions $f$ and $g$ from $\Bool^4$
794 to $\Bool^4$ respectively defined by the following lists:
795 $$[0,  0,  2,   3,  13,  13,  6,   3,  8,  9,  10,  11,   8,  13,  14,
796   15]$$ $$\mbox{and } [11, 14, 13, 14, 11, 10, 1, 8, 7, 6, 5, 4, 3, 2,
797   1, 0]  \enspace.$$ In  other words,  the image of  $0011$ by  $g$ is
798 $1110$: it  is obtained as the  binary value of the  fourth element in
799 the  second  list  (namely~14).   It   is  not  hard  to  verify  that
800 $\Gamma(f)$ is  not SCC  (\textit{e.g.}, $f(1111)$ is  $1111$) whereas
801 $\Gamma(g)$  is.  Next section  shows how  to translate  iterations of
802 such functions into a model amenable to be learned by an ANN.
803   
804 This  section  presents how  (not)  chaotic  iterations  of $G_f$  are
805 translated  into  another  model  more  suited  to  artificial  neural
806 networks.  
807 \JFC{détailler le more suited}
808 Formally, input and output vectors are pairs~$((S^t)^{t \in
809 \Nats},x)$ and $\left(\sigma((S^t)^{t \in \Nats}),F_{f}(S^0,x)\right)$
810 as defined in~Eq.~(\ref{eq:Gf}).
811
812 Firstly, let us focus on how to memorize configurations.  Two distinct
813 translations are  proposed.  In the first  case, we take  one input in
814 $\Bool$  per  component;  in   the  second  case,  configurations  are
815 memorized  as   natural  numbers.    A  coarse  attempt   to  memorize
816 configuration  as  natural  number  could  consist  in  labeling  each
817 configuration  with  its  translation  into  decimal  numeral  system.
818 However,  such a  representation induces  too many  changes  between a
819 configuration  labeled by  a  power  of two  and  its direct  previous
820 configuration: for instance, 16~(10000) and 15~(01111) are closed in a
821 decimal ordering, but  their Hamming distance is 5.   This is why Gray
822 codes~\cite{Gray47} have been preferred.
823
824 Let us secondly detail how to deal  with strategies.   Obviously,  it is  not
825 possible to  translate in a finite  way an infinite  strategy, even if
826 both $(S^t)^{t \in \Nats}$ and $\sigma((S^t)^{t \in \Nats})$ belong to
827 $\{1,\ldots,n\}^{\Nats}$.  Input strategies are then reduced to have a
828 length  of size  $l  \in  \llbracket 2,k\rrbracket$,  where  $k$ is  a
829 parameter of the evaluation. Notice  that $l$ is greater than or equal
830 to $2$ since  we do not want the shift  $\sigma$~function to return an
831 empty strategy.  Strategies are memorized as natural numbers expressed
832 in base  $n+1$.  At  each iteration, either  none or one  component is
833 modified  (among the  $n$ components)  leading to  a radix  with $n+1$
834 entries.  Finally,  we give an  other input, namely $m  \in \llbracket
835 1,l-1\rrbracket$, which  is the  number of successive  iterations that
836 are applied starting  from $x$.  Outputs are translated  with the same
837 rules.
838
839 To address  the complexity  issue of the  problem, let us  compute the
840 size of the data set an ANN has to deal with.  Each input vector of an
841 input-output pair  is composed of a configuration~$x$,  an excerpt $S$
842 of the strategy to iterate  of size $l \in \llbracket 2, k\rrbracket$,
843 and a  number $m \in  \llbracket 1, l-1\rrbracket$ of  iterations that
844 are executed.
845
846 Firstly, there are $2^n$  configurations $x$, with $n^l$ strategies of
847 size $l$ for  each of them. Secondly, for  a given configuration there
848 are $\omega = 1 \times n^2 +  2 \times n^3 + \ldots+ (k-1) \times n^k$
849 ways  of writing  the pair  $(m,S)$. Furthermore,  it is  not  hard to
850 establish that
851 \begin{equation}
852 \displaystyle{(n-1) \times \omega = (k-1)\times n^{k+1} - \sum_{i=2}^k n^i} \nonumber
853 \end{equation}
854 then
855 \begin{equation}
856 \omega =
857 \dfrac{(k-1)\times n^{k+1}}{n-1} - \dfrac{n^{k+1}-n^2}{(n-1)^2} \enspace . \nonumber
858 \end{equation}
859 \noindent And then, finally, the number of  input-output pairs for our 
860 ANNs is 
861 $$
862 2^n \times \left(\dfrac{(k-1)\times n^{k+1}}{n-1} - \dfrac{n^{k+1}-n^2}{(n-1)^2}\right) \enspace .
863 $$
864 For  instance, for $4$  binary components  and a  strategy of  at most
865 $3$~terms we obtain 2304~input-output pairs.
866
867 \subsection{Experiments}
868 \label{section:experiments}
869
870 To study  if chaotic iterations can  be predicted, we  choose to train
871 the MultiLayer Perceptron.  As stated  before, this kind of network is
872 in   particular    well-known   for   its    universal   approximation
873 property. Furthermore,  MLPs have been already  considered for chaotic
874 time series prediction.  For example, in~\cite{dalkiran10} the authors
875 have shown that a feedforward  MLP with two hidden layers, and trained
876 with Bayesian  Regulation back-propagation, can  learn successfully the
877 dynamics of Chua's circuit.
878
879 In these experiments  we consider  MLPs having one hidden layer of
880 sigmoidal  neurons  and  output   neurons  with  a  linear  activation
881 function.     They    are    trained    using    the    Limited-memory
882 Broyden-Fletcher-Goldfarb-Shanno quasi-newton algorithm in combination
883 with the Wolfe linear search.  The training process is performed until
884 a maximum number of epochs  is reached.  To prevent overfitting and to
885 estimate the  generalization performance we use  holdout validation by
886 splitting the  data set into  learning, validation, and  test subsets.
887 These subsets  are obtained through  random selection such  that their
888 respective size represents 65\%, 10\%, and 25\% of the whole data set.
889
890 Several  neural  networks  are  trained  for  both  iterations  coding
891 schemes.   In  both  cases   iterations  have  the  following  layout:
892 configurations of  four components and  strategies with at  most three
893 terms. Thus, for  the first coding scheme a data  set pair is composed
894 of 6~inputs and 5~outputs, while for the second one it is respectively
895 3~inputs and 2~outputs. As noticed at the end of the previous section,
896 this  leads to  data sets  that  consist of  2304~pairs. The  networks
897 differ  in the  size of  the hidden  layer and  the maximum  number of
898 training epochs.  We remember that  to evaluate the ability  of neural
899 networks to  predict a  chaotic behavior for  each coding  scheme, the
900 trainings of two data sets, one of them describing chaotic iterations,
901 are compared.
902
903 Thereafter we give,  for the different learning setups  and data sets,
904 the  mean prediction  success rate  obtained for  each  output.  These
905 values  are  computed  considering  10~trainings with  random  subsets
906 construction,  weights  and  biases initialization.   Firstly,  neural
907 networks having 10  and 25~hidden neurons are trained,  with a maximum
908 number  of  epochs that  takes  its  value  in $\{125,250,500\}$  (see
909 Tables~\ref{tab1}  and \ref{tab2}).   Secondly, we  refine  the second
910 coding scheme by splitting the  output vector such that each output is
911 learned by a specific  neural network (Table~\ref{tab3}). In this last
912 case, we increase  the size of the hidden layer  up to 40~neurons, and
913 we consider larger number of epochs.
914
915 \begin{table}[htbp!]
916 \caption{Prediction success rates for configurations expressed as boolean vectors.}
917 \label{tab1}
918 \centering {\small
919 \begin{tabular}{|c|c||c|c|c|}
920 \hline 
921 \multicolumn{5}{|c|}{Networks topology: 6~inputs, 5~outputs and one hidden layer} \\
922 \hline
923 \hline
924 \multicolumn{2}{|c||}{Hidden neurons} & \multicolumn{3}{c|}{10 neurons} \\
925 \cline{3-5} 
926 \multicolumn{2}{|c||}{Epochs} & 125 & 250 & 500 \\ 
927 \hline
928 \multirow{6}{*}{\rotatebox{90}{Chaotic}}&Output~(1) & 90.92\% & 91.75\% & 91.82\% \\ 
929 & Output~(2) & 69.32\% & 78.46\% & 82.15\% \\
930 & Output~(3) & 68.47\% & 78.49\% & 82.22\% \\
931 & Output~(4) & 91.53\% & 92.37\% & 93.4\% \\
932 & Config. & 36.10\% & 51.35\% & 56.85\% \\
933 & Strategy~(5) & 1.91\% & 3.38\% & 2.43\% \\
934 \hline
935 \multirow{6}{*}{\rotatebox{90}{Non-chaotic}}&Output~(1) & 97.64\% & 98.10\% & 98.20\% \\
936 & Output~(2) & 95.15\% & 95.39\% & 95.46\% \\
937 & Output~(3) & 100\% & 100\% & 100\% \\
938 & Output~(4) & 97.47\% & 97.90\% & 97.99\% \\
939 & Config. & 90.52\% & 91.59\% & 91.73\% \\
940 & Strategy~(5) & 3.41\% & 3.40\% & 3.47\% \\
941 \hline
942 \hline
943 \multicolumn{2}{|c||}{Hidden neurons} & \multicolumn{3}{c|}{25 neurons} \\ %& \multicolumn{3}{|c|}{40 neurons} \\
944 \cline{3-5} 
945 \multicolumn{2}{|c||}{Epochs} & 125 & 250 & 500 \\ %& 125 & 250 & 500 \\ 
946 \hline
947 \multirow{6}{*}{\rotatebox{90}{Chaotic}}&Output~(1) & 91.65\% & 92.69\% & 93.93\% \\ %& 91.94\% & 92.89\% & 94.00\% \\
948 & Output~(2) & 72.06\% & 88.46\% & 90.5\% \\ %& 74.97\% & 89.83\% & 91.14\% \\
949 & Output~(3) & 79.19\% & 89.83\% & 91.59\% \\ %& 76.69\% & 89.58\% & 91.84\% \\
950 & Output~(4) & 91.61\% & 92.34\% & 93.47\% \\% & 82.77\% & 92.93\% & 93.48\% \\
951 & Config. & 48.82\% & 67.80\% & 70.97\% \\%& 49.46\% & 68.94\% & 71.11\% \\
952 & Strategy~(5) & 2.62\% & 3.43\% & 3.78\% \\% & 3.10\% & 3.10\% & 3.03\% \\
953 \hline
954 \multirow{6}{*}{\rotatebox{90}{Non-chaotic}}&Output~(1) & 97.87\% & 97.99\% & 98.03\% \\ %& 98.16\% \\
955 & Output~(2) & 95.46\% & 95.84\% & 96.75\% \\ % & 97.4\% \\
956 & Output~(3) & 100\% & 100\% & 100\% \\%& 100\% \\
957 & Output~(4) & 97.77\% & 97.82\% & 98.06\% \\%& 98.31\% \\
958 & Config. & 91.36\% & 91.99\% & 93.03\% \\%& 93.98\% \\
959 & Strategy~(5) & 3.37\% & 3.44\% & 3.29\% \\%& 3.23\% \\
960 \hline
961 \end{tabular}
962 }
963 \end{table}
964
965 Table~\ref{tab1}  presents the  rates  obtained for  the first  coding
966 scheme.   For  the chaotic  data,  it can  be  seen  that as  expected
967 configuration  prediction becomes  better  when the  number of  hidden
968 neurons and maximum  epochs increases: an improvement by  a factor two
969 is observed (from 36.10\% for 10~neurons and 125~epochs to 70.97\% for
970 25~neurons  and  500~epochs). We  also  notice  that  the learning  of
971 outputs~(2)   and~(3)  is   more  difficult.    Conversely,   for  the
972 non-chaotic  case the  simplest training  setup is  enough  to predict
973 configurations.   For  all  network  topologies and  all  outputs  the
974 obtained  results  for the  non-chaotic  case  outperform the  chaotic
975 ones. Finally,  the rates for  the strategies show that  the different
976 networks are unable to learn them.
977
978 For the second coding  scheme (\textit{i.e.}, with Gray Codes)
979 Table~\ref{tab2} shows that any network
980 learns about  five times more non-chaotic  configurations than chaotic
981 ones. As in the previous scheme, the strategies cannot be predicted.
982
983 Let us now compare the  two coding schemes. Firstly, the second scheme
984 disturbs  the   learning  process.   In   fact  in  this   scheme  the
985 configuration is always expressed as  a natural number, whereas in the
986 first one  the number  of inputs follows  the increase of  the boolean
987 vectors coding configurations. In this latter case, the coding gives a
988 finer information on configuration evolution.
989 \JFC{Je n'ai pas compris le paragraphe precedent. Devrait être repris}
990 \begin{table}[b]
991 \caption{Prediction success rates for configurations expressed with Gray code}
992 \label{tab2}
993 \centering
994 \begin{tabular}{|c|c||c|c|c|}
995 \hline 
996 \multicolumn{5}{|c|}{Networks topology: 3~inputs, 2~outputs and one hidden layer} \\
997 \hline
998 \hline
999 & Hidden neurons & \multicolumn{3}{c|}{10 neurons} \\
1000 \cline{2-5}
1001 & Epochs & 125 & 250 & 500 \\ %& 1000 
1002 \hline
1003 \multirow{2}{*}{Chaotic}& Config.~(1) & 13.29\% & 13.55\% & 13.08\% \\ %& 12.5\%
1004 & Strategy~(2) & 0.50\% & 0.52\% & 1.32\% \\ %& 1.42\%
1005 \hline
1006 \multirow{2}{*}{Non-Chaotic}&Config.~(1) & 77.12\% & 74.00\% & 72.60\% \\ %& 75.81\% 
1007 & Strategy~(2) & 0.42\% & 0.80\% & 1.16\% \\ %& 1.42\% 
1008 \hline
1009 \hline
1010 & Hidden neurons & \multicolumn{3}{c|}{25 neurons} \\
1011 \cline{2-5}
1012 & Epochs & 125 & 250 & 500 \\ %& 1000 
1013 \hline
1014 \multirow{2}{*}{Chaotic}& Config.~(1) & 12.27\% & 13.15\% & 13.05\% \\ %& 15.44\%
1015 & Strategy~(2) & 0.71\% & 0.66\% & 0.88\% \\ %& 1.73\%
1016 \hline
1017 \multirow{2}{*}{Non-Chaotic}&Config.~(1) & 73.60\% & 74.70\% & 75.89\% \\ %& 68.32\%
1018 & Strategy~(2) & 0.64\% & 0.97\% & 1.23\% \\ %& 1.80\%
1019 \hline
1020 \end{tabular}
1021 \end{table}
1022
1023 Unfortunately, in  practical applications the number  of components is
1024 usually  unknown.   Hence, the  first  coding  scheme  cannot be  used
1025 systematically.   Therefore, we  provide  a refinement  of the  second
1026 scheme: each  output is learned  by a different  ANN. Table~\ref{tab3}
1027 presents the  results for  this approach.  In  any case,  whatever the
1028 network  topologies,  the  maximum   epoch  number  and  the  kind  of
1029 iterations,  the  configuration  success  rate is  slightly  improved.
1030 Moreover, the strategies predictions  rates reach almost 12\%, whereas
1031 in  Table~\ref{tab2}  they  never   exceed  1.5\%.   Despite  of  this
1032 improvement, a long term prediction of chaotic iterations still 
1033 appear to be
1034 an open issue.
1035
1036 \begin{table}
1037 \caption{Prediction success rates for split outputs.}
1038 \label{tab3}
1039 \centering
1040 \begin{tabular}{|c||c|c|c|}
1041 \hline 
1042 \multicolumn{4}{|c|}{Networks topology: 3~inputs, 1~output and one hidden layer} \\
1043 \hline
1044 \hline
1045 Epochs & 125 & 250 & 500 \\ 
1046 \hline
1047 \hline
1048 Chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1049 \hline
1050 10~neurons & 12.39\% & 14.06\% & 14.32\% \\
1051 25~neurons & 13.00\% & 14.28\% & 14.58\% \\
1052 40~neurons & 11.58\% & 13.47\% & 14.23\% \\
1053 \hline
1054 \hline
1055 Non chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1056 \cline{2-4}
1057 %Epochs & 125 & 250 & 500 \\ 
1058 \hline
1059 10~neurons & 76.01\% & 74.04\% & 78.16\% \\
1060 25~neurons & 76.60\% & 72.13\% & 75.96\% \\
1061 40~neurons & 76.34\% & 75.63\% & 77.50\% \\
1062 \hline
1063 \hline
1064 Chaotic/non chaotic & \multicolumn{3}{c|}{Output = Strategy} \\
1065 \cline{2-4}
1066 %Epochs & 125 & 250 & 500 \\ 
1067 \hline
1068 10~neurons & 0.76\% & 0.97\% & 1.21\% \\
1069 25~neurons & 1.09\% & 0.73\% & 1.79\% \\
1070 40~neurons & 0.90\% & 1.02\% & 2.15\% \\
1071 \hline
1072 \multicolumn{4}{c}{} \\
1073 \hline
1074 Epochs & 1000 & 2500 & 5000 \\ 
1075 \hline
1076 \hline
1077 Chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1078 \hline
1079 10~neurons & 14.51\% & 15.22\% & 15.22\% \\
1080 25~neurons & 16.95\% & 17.57\% & 18.46\% \\
1081 40~neurons & 17.73\% & 20.75\% & 22.62\% \\
1082 \hline
1083 \hline
1084 Non chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1085 \cline{2-4}
1086 %Epochs & 1000 & 2500 & 5000 \\ 
1087 \hline
1088 10~neurons & 78.98\% & 80.02\% & 79.97\% \\
1089 25~neurons & 79.19\% & 81.59\% & 81.53\% \\
1090 40~neurons & 79.64\% & 81.37\% & 81.37\% \\
1091 \hline
1092 \hline
1093 Chaotic/non chaotic & \multicolumn{3}{c|}{Output = Strategy} \\
1094 \cline{2-4}
1095 %Epochs & 1000 & 2500 & 5000 \\ 
1096 \hline
1097 10~neurons & 3.47\% & 9.98\% & 11.66\% \\
1098 25~neurons & 3.92\% & 8.63\% & 10.09\% \\
1099 40~neurons & 3.29\% & 7.19\% & 7.18\% \\
1100 \hline
1101 \end{tabular}
1102 \end{table}
1103
1104 \section{Conclusion}
1105
1106 In  this paper,  we have  established an  equivalence  between chaotic
1107 iterations,  according to  the Devaney's  definition of  chaos,  and a
1108 class  of  multilayer perceptron  neural  networks.  Firstly, we  have
1109 described how to build a neural network that can be trained to learn a
1110 given chaotic map function.  Then,  we found a condition that allow to
1111 check whether the iterations induced by a function are chaotic or not,
1112 and thus  if a chaotic map  is obtained. Thanks to  this condition our
1113 approach is not limited to a particular function. In the dual case, we
1114 show  that  checking  if  a  neural network  is  chaotic  consists  in
1115 verifying  a property  on an  associated  graph, called  the graph  of
1116 iterations.   These results  are valid  for recurrent  neural networks
1117 with a  particular architecture.  However,  we believe that  a similar
1118 work can be done for  other neural network architectures.  Finally, we
1119 have  discovered at  least one  family of  problems with  a reasonable
1120 size, such  that artificial neural  networks should not be  applied in
1121 the  presence  of chaos,  due  to  their  inability to  learn  chaotic
1122 behaviors in this  context.  Such a consideration is  not reduced to a
1123 theoretical detail:  this family of discrete  iterations is concretely
1124 implemented  in a  new steganographic  method  \cite{guyeux10ter}.  As
1125 steganographic   detectors  embed  tools   like  neural   networks  to
1126 distinguish between  original and stego contents, our  studies tend to
1127 prove that such  detectors might be unable to  tackle with chaos-based
1128 information hiding schemes.  Furthermore, iterations such that not all
1129 of  the  components  are updated  at  each  step  are very  common  in
1130 biological  and  physics mechanisms.   Therefore,  one can  reasonably
1131 wonder whether neural networks should be applied in these contexts.
1132
1133 In  future  work we  intend  to  enlarge  the comparison  between  the
1134 learning   of  truly   chaotic  and   non-chaotic   behaviors.   Other
1135 computational intelligence tools such  as support vector machines will
1136 be investigated  too, to  discover which tools  are the  most relevant
1137 when facing a truly chaotic phenomenon.  A comparison between learning
1138 rate  success  and  prediction  quality will  be  realized.   Concrete
1139 consequences in biology, physics, and computer science security fields
1140 will be  stated.  Lastly,  thresholds separating systems  depending on
1141 the ability to learn their dynamics will be established.
1142
1143 \bibliography{chaos-paper}% Produces the bibliography via BibTeX.
1144
1145 \end{document}
1146 %
1147 % ****** End of file chaos-paper.tex ******