]> AND Private Git Repository - chaos1.git/blob - main.tex
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
Relecture
[chaos1.git] / main.tex
1 % ****** Start of file chaos-paper.tex ******
2 %
3 \documentclass[%
4 aip,
5 cha,% long, 
6 numerical bibliography, %(default)
7 %jcp,% short, numerical bibliography, 
8 %jmp,
9 amsmath,amssymb,
10 preprint,%
11 %reprint,%
12 %author-year,%
13 %author-numerical,%
14 ]{revtex4-1}
15
16 \usepackage{graphicx}% Include figure files
17 \usepackage{dcolumn}% Align table columns on decimal point
18 \usepackage{bm}% bold math
19 \usepackage{color}
20 \usepackage{ulem}
21 \usepackage[mathlines]{lineno}% Enable numbering of text and display math
22 \linenumbers\relax % Commence numbering lines
23 % The amssymb package provides various useful mathematical symbols
24 \usepackage{amssymb}
25 % The amsthm package provides various useful mathematical fonts
26 \usepackage{amsfonts}
27 % Various mathematical packages
28 \PassOptionsToPackage{cmex10draft}{graphics}
29 \usepackage[standard]{ntheorem}
30 % Various packages
31 \usepackage{stmaryrd} % llbracket
32 \usepackage{dsfont}   % mathds
33 \usepackage{multirow} % tables
34
35 \newcommand{\ie}{\textit{i.e.}}
36 \newcommand{\Nats}[0]{\ensuremath{\mathds{N}}}
37 \newcommand{\R}[0]{\ensuremath{\mathds{R}}}
38 \newcommand{\Bool}[0]{\ensuremath{\mathds{B}}}
39
40 \begin{document}
41
42 \title[Neural Networks and Chaos]{Neural Networks and Chaos:
43 Construction, Evaluation of Chaotic Networks, \\
44 and Prediction of Chaos with Multilayer Feedforward Networks
45 }
46
47 \author{Jacques M. Bahi}
48 \author{Jean-Fran\c{c}ois Couchot}
49 \author{Christophe Guyeux}
50 \email{christophe.guyeux@univ-fcomte.fr.}
51 \author{Michel Salomon}
52 \altaffiliation[Authors in ]{alphabetic order} 
53 \affiliation{
54 Computer Science Laboratory (LIFC), University of Franche-Comt\'e, \\
55 IUT de Belfort-Montb\'eliard, BP 527, \\
56 90016 Belfort Cedex, France
57 }
58
59 \date{\today}
60
61 \newcommand{\CG}[1]{\begin{color}{red}\textit{#1}\end{color}}
62 \newcommand{\JFC}[1]{\begin{color}{blue}\textit{#1}\end{color}}
63 \newcommand{\MS}[1]{\begin{color}{green}\textit{#1}\end{color}}
64
65 \begin{abstract}
66 %% Text of abstract
67 Many  research works  deal with  chaotic neural  networks  for various
68 fields  of application. Unfortunately,  up to  now these  networks are
69 usually  claimed to be  chaotic without  any mathematical  proof.  The
70 purpose of this paper is to establish, based on a rigorous theoretical
71 framework,  an  equivalence between  chaotic  iterations according  to
72 Devaney and a particular class of  neural networks. On the one hand we
73 show  how to build  such a  network, on  the other  hand we  provide a
74 method to  check if a neural  network is a chaotic  one.  Finally, the
75 ability of classical feedforward  multilayer perceptrons to learn sets
76 of data obtained from a dynamical system is regarded.  Various Boolean
77 functions are  iterated on finite  states. Iterations of some  of them
78 are  proven to  be  chaotic as  it  is defined  by  Devaney.  In  that
79 context,  important   differences  occur  in   the  training  process,
80 establishing with  various neural networks that  chaotic behaviors are
81 far more difficult to learn.
82 \end{abstract}
83
84 %%\pacs{Valid PACS appear here}% PACS, the Physics and Astronomy
85 % Classification Scheme.
86 %%\keywords{Suggested keywords}%Use showkeys class option if keyword
87 %display desired
88 \maketitle
89
90 \begin{quotation}
91
92 Chaotic neural  networks have received a  lot of attention  due to the
93 appealing   properties  of   deterministic   chaos  (unpredictability,
94 sensitivity,  and so  on). However,  such networks  are  often claimed
95 chaotic without  any rigorous mathematical proof.   Therefore, in this
96 work  a theoretical  framework based  on the  Devaney's  definition of
97 chaos is  introduced.  Starting  with a relationship  between discrete
98 iterations  and  Devaney's chaos,  we  firstly  show  how to  build  a
99 recurrent  neural network  that is  equivalent  to a  chaotic map  and
100 secondly  a way  to check  whether  an already  available network  is
101 chaotic  or not.  We  also study  different topological  properties of
102 these  truly  chaotic neural  networks.   Finally,  we  show that  the
103 learning,  with   neural  networks  having   a  classical  feedforward
104 structure, of chaotic behaviors represented by data sets obtained from
105 chaotic maps, is far more difficult than non chaotic behaviors.
106 \end{quotation}
107
108 %% Main text
109 \section{Introduction}
110 \label{S1}
111
112 Several research  works have proposed or used  chaotic neural networks
113 these last  years.  The  complex dynamics of  such networks  lead to
114 various       potential      application       areas:      associative
115 memories~\cite{Crook2007267}  and  digital  security tools  like  hash
116 functions~\cite{Xiao10},                                       digital
117 watermarking~\cite{1309431,Zhang2005759},           or          cipher
118 schemes~\cite{Lian20091296}.  In the  former case, the background idea
119 is to  control chaotic dynamics in  order to store  patterns, with the
120 key advantage  of offering a  large storage capacity.  For  the latter
121 case,   the  use   of   chaotic  dynamics   is   motivated  by   their
122 unpredictability and random-like behaviors.  Indeed, investigating new
123 concepts  is crucial  for  the computer  security  field, because  new
124 threats  are constantly  emerging.   As an  illustrative example,  the
125 former  standard in hash  functions, namely  the SHA-1  algorithm, has
126 been recently weakened after flaws were discovered.
127
128 Chaotic neural networks have  been built with different approaches. In
129 the context of associative  memory, chaotic neurons like the nonlinear
130 dynamic  state neuron  \cite{Crook2007267}  frequently constitute  the
131 nodes of the network. These neurons have an inherent chaotic behavior,
132 which  is usually  assessed through  the computation  of  the Lyapunov
133 exponent.  An alternative approach  is to consider a well-known neural
134 network architecture: the  MultiLayer Perceptron (MLP). These networks
135 are  suitable to model  nonlinear relationships  between data,  due to
136 their            universal            approximator            capacity
137 \cite{Cybenko89,DBLP:journals/nn/HornikSW89}.   Thus,   this  kind  of
138 networks can  be trained  to model a  physical phenomenon known  to be
139 chaotic such as Chua's circuit \cite{dalkiran10}.  Sometime a neural
140 network,  which is build  by combining  transfer functions  and initial
141 conditions  that are  both chaotic,  is itself  claimed to  be chaotic
142 \cite{springerlink:10.1007/s00521-010-0432-2}.
143
144 What all of these chaotic neural  networks have in common is that they
145 are claimed to be chaotic  despite a lack of any rigorous mathematical
146 proof.   The first contribution  of this  paper is  to fill  this gap,
147 using  a theoretical framework  based on  the Devaney's  definition of
148 chaos \cite{Devaney}.  This mathematical theory of chaos provides both
149 qualitative and quantitative tools to evaluate the complex behavior of
150 a  dynamical  system:  ergodicity,   expansivity,  and  so  on.   More
151 precisely, in  this paper,  which is an  extension of a  previous work
152 \cite{bgs11:ip},   we  establish   the  equivalence   between  chaotic
153 iterations  and  a  class  of  globally  recurrent  MLP.   The  second
154 contribution is a  study of the converse problem,  indeed we investigate the
155 ability  of classical  multiLayer  perceptrons to  learn a  particular
156 family of discrete chaotic  dynamical systems.  This family is defined
157 by a Boolean vector, an update function, and a sequence defining the
158 component  to  update  at  each  iteration.  It  has  been  previously
159 established that  such dynamical systems are  chaotically iterated (as
160 it  is defined by  Devaney) when  the chosen  function has  a strongly
161 connected iterations  graph.  In this document,  we experiment several
162 MLPs and  try to  learn some  iterations of this  kind.  We  show that
163 non-chaotic  iterations  can  be  learned,  whereas  it  is  far  more
164 difficult for  chaotic ones.   That is to  say, we have  discovered at
165 least  one  family of  problems  with  a  reasonable size,  such  that
166 artificial  neural  networks  should  not  be  applied  due  to  their
167 inability to learn chaotic behaviors in this context.
168
169 The remainder of this research  work is organized as follows. The next
170 section is devoted to the basics of Devaney's chaos.  Section~\ref{S2}
171 formally  describes  how  to  build  a neural  network  that  operates
172 chaotically.  Section~\ref{S3} is devoted to the dual case of checking
173 whether  an existing neural  network is  chaotic or  not.  Topological
174 properties of chaotic neural networks are discussed in Sect.~\ref{S4}.
175 The  Section~\ref{section:translation}  shows  how to  translate  such
176 iterations  into  an Artificial  Neural  Network  (ANN),  in order  to
177 evaluate the  capability for this  latter to learn  chaotic behaviors.
178 This  ability  is  studied in  Sect.~\ref{section:experiments},  where
179 various ANNs try to learn two  sets of data: the first one is obtained
180 by chaotic iterations while the  second one results from a non-chaotic
181 system.  Prediction success rates are  given and discussed for the two
182 sets.  The paper ends with a conclusion section where our contribution
183 is summed up and intended future work is exposed.
184
185 \section{Chaotic Iterations according to  Devaney}
186
187 In this section, the well-established notion of Devaney's mathematical
188 chaos is  firstly recalled.   Preservation of the  unpredictability of
189 such dynamical  system when implemented  on a computer is  obtained by
190 using  some discrete  iterations  called ``asynchronous  iterations'',
191 which are  thus introduced.  The result establishing  the link between
192 such iterations and Devaney's chaos is finally presented at the end of
193 this section.
194
195 In what follows and for  any function $f$, $f^n$ means the composition
196 $f \circ f \circ \hdots \circ f$ ($n$ times) and an {\bf iteration} of
197 a {\bf  dynamical system}  is the step  that consists in  updating the
198 global  state  $x^t$  at time  $t$  with  respect  to a  function  $f$
199 s.t. $x^{t+1} = f(x^t)$.
200
201 \subsection{Devaney's chaotic dynamical systems}
202
203 Various domains such as  physics, biology, or economy, contain systems
204 that exhibit a chaotic behavior,  a well-known example is the weather.
205 These  systems   are  in   particular  highly  sensitive   to  initial
206 conditions, a concept usually presented as the butterfly effect: small
207 variations in the initial conditions possibly lead to widely different
208 behaviors.  Theoretically speaking, a  system is sensitive if for each
209 point  $x$ in  the  iteration space,  one  can find  a  point in  each
210 neighborhood of $x$ having a significantly different future evolution.
211 Conversely, a  system seeded with  the same initial  conditions always
212 has  the same  evolution.   In  other words,  chaotic  systems have  a
213 deterministic  behavior  defined through  a  physical or  mathematical
214 model  and a  high  sensitivity to  the  initial conditions.   Besides
215 mathematically this  kind of unpredictability  is also referred  to as
216 deterministic chaos.  For example, many weather forecast models exist,
217 but they give only suitable predictions for about a week, because they
218 are initialized with conditions  that reflect only a partial knowledge
219 of the current weather.  Even  if the differences are initially small,
220 they are  amplified in the course  of time, and thus  make difficult a
221 long-term prediction.  In fact,  in a chaotic system, an approximation
222 of  the current  state is  a  quite useless  indicator for  predicting
223 future states.
224
225 From  mathematical  point  of   view,  deterministic  chaos  has  been
226 thoroughly studied  these last decades, with  different research works
227 that  have   provide  various  definitions  of   chaos.   Among  these
228 definitions,    the   one    given   by    Devaney~\cite{Devaney}   is
229 well-established.   This  definition  consists  of  three  conditions:
230 topological  transitivity, density of  periodic points,  and sensitive
231 point dependence on initial conditions.
232
233 {\bf  Topological transitivity} is  checked when,  for any  point, any
234 neighborhood of its future evolution eventually overlap with any other
235 given region.  This property implies that a dynamical system cannot be
236 broken into simpler subsystems.   Intuitively, its complexity does not
237 allow any  simplification.  
238
239 However, chaos needs some regularity to ``counteracts'' the effects of
240 transitivity. % Thus, two points close to each other can behave in a completely different manner, the first one visiting the whole space whereas the second one has a regular orbit.
241 In the Devaney's formulation, a dense set  of periodic
242 points is the element of regularity that a chaotic dynamical system has
243 to exhibit.
244 %\begin{definition} \label{def3}
245 We recall that a  point $x$ is a {\bf periodic point} for $f$ of 
246 period~$n \in \mathds{N}^{\ast}$ if $f^{n}(x)=x$.
247 %\end{definition}
248 Then, the map 
249 %\begin{definition} \label{def4}
250 $f$ is {\bf regular}  on the topological space $(\mathcal{X},\tau)$ if
251 the set of periodic points for  $f$ is dense in $\mathcal{X}$ (for any
252 $x \in \mathcal{X}$, we can find at least one periodic point in any of
253 its neighborhood).
254 %\end{definition}
255 Thus, due to these two properties,  two points close to each other can
256 behave in  a completely different manner,  leading to unpredictability
257 for the whole system.
258
259 Let  us recall  that  $f$  has {\bf  sensitive  dependence on  initial
260   conditions} if  there exists  $\delta >0$ such  that, for  any $x\in
261 \mathcal{X}$ and any neighborhood $V$ of $x$, there exist $y\in V$ and
262 $n  > 0$ such  that $d\left(f^{n}(x),  f^{n}(y)\right) >\delta  $. The
263 value $\delta$ is called the {\bf constant of sensitivity} of $f$.
264
265 Finally,  the  dynamical system  that  iterates  $f$  is {\bf  chaotic
266   according  to Devaney}  on $(\mathcal{X},\tau)$  if $f$  is regular,
267 topologically transitive, and has  sensitive dependence to its initial
268 conditions.   In  what follows,  iterations  are  said  to be  chaotic
269 (according to Devaney)  when the corresponding  dynamical system  is  chaotic, as it is defined in the Devaney's formulation.
270
271 %Let us notice that for a  metric space the last condition follows from
272 %the two first ones~\cite{Banks92}.
273
274 \subsection{Asynchronous Iterations}
275
276 %This section  presents some basics on  topological chaotic iterations.
277 Let us  firstly discuss about the  domain of iteration.  As  far as we
278 know, no result rules that  the chaotic behavior of a dynamical system
279 that  has been  theoretically  proven  on $\R$  remains  valid on  the
280 floating-point numbers, which is  the implementation domain.  Thus, to
281 avoid  loss of chaos  this work  presents an  alternative, that  is to
282 iterate Boolean maps: results  that are theoretically obtained in that
283 domain are preserved in implementations.
284
285 Let us denote by $\llbracket  a ; b \rrbracket$ the following interval
286 of integers: $\{a, a+1, \hdots, b\}$, where $a~<~b$.  In this section,
287 a {\it  system} under consideration iteratively  modifies a collection
288 of $n$~components.  Each component  $i \in \llbracket 1; n \rrbracket$
289 takes  its  value $x_i$  among  the  domain  $\Bool=\{0,1\}$.  A  {\it
290   configuration} of the system at discrete time $t$ is the vector
291 %\begin{equation*}   
292 $x^{t}=(x_1^{t},\ldots,x_{n}^{t}) \in \Bool^n$.
293 %\end{equation*}
294 The dynamics of the system is  described according to a  function $f :
295 \Bool^n \rightarrow \Bool^n$ such that
296 %\begin{equation*} 
297 $f(x)=(f_1(x),\ldots,f_n(x))$.
298 %\end{equation*}
299 % Notice that $f^k$ denotes the 
300 % $k-$th composition $f\circ \ldots \circ f$ of the function $f$.
301
302 Let    be   given    a   configuration    $x$.    In    what   follows
303 $N(i,x)=(x_1,\ldots,\overline{x_i},\ldots,x_n)$  is  the configuration
304 obtained by switching the $i-$th component of $x$ ($\overline{x_i}$ is
305 indeed  the negation  of $x_i$).   Intuitively, $x$  and  $N(i,x)$ are
306 neighbors.   The discrete  iterations of  $f$ are  represented  by the
307 oriented  {\it graph  of iterations}  $\Gamma(f)$.  In  such  a graph,
308 vertices are configurations  of $\Bool^n$ and there is  an arc labeled
309 $i$ from $x$ to $N(i,x)$ if and only if $f_i(x)$ is $N(i,x)$. 
310
311 In the  sequel, the  {\it strategy} $S=(S^{t})^{t  \in \Nats}$  is the
312 sequence defining  which component to  update at time $t$  and $S^{t}$
313 denotes its $t-$th term.  This iteration scheme that only modifies one
314 element at each iteration is usually referred as {\it asynchronous
315   iterations}.  More precisely, we have for any $i$, $1\le i \le n$,
316 \begin{equation}
317 \left\{ \begin{array}{l}
318 x^{0}  \in \Bool^n \\ 
319 x^{t+1}_i = \left\{ 
320 \begin{array}{l}
321   f_i(x^t) \textrm{ if $S^t = i$}\enspace , \\
322   x_i^t \textrm{ otherwise}\enspace . 
323  \end{array}
324 \right.
325 \end{array} \right.
326 \end{equation}
327
328 Next  section  shows  the  link between  asynchronous  iterations  and
329 Devaney's chaos.
330
331 \subsection{On the link between asynchronous iterations and
332   Devaney's Chaos}
333
334 In  this subsection  we recall  the link  we have  established between
335 asynchronous   iterations  and   Devaney's  chaos.    The  theoretical
336 framework is fully described in \cite{guyeux09}.
337
338 We  introduce the  function  $F_{f}$  that is  defined  for any  given
339 application     $f:\Bool^{n}     \to     \Bool^{n}$     by     $F_{f}:
340 \llbracket1;n\rrbracket\times        \mathds{B}^{n}        \rightarrow
341 \mathds{B}^{n}$, s.t.
342 \begin{equation}
343 \label{eq:CIs}
344   F_{f}(s,x)_j  =  
345     \left\{
346     \begin{array}{l}
347     f_j(x) \textrm{ if } j= s \enspace , \\ 
348     x_{j} \textrm{ otherwise} \enspace .
349     \end{array}
350     \right. 
351 \end{equation}
352
353 \noindent With such a notation, asynchronously obtained configurations
354 are defined for times \linebreak $t=0,1,2,\ldots$ by:
355 \begin{equation}\label{eq:sync}   
356 \left\{\begin{array}{l}   
357   x^{0}\in \mathds{B}^{n} \textrm{ and}\\
358   x^{t+1}=F_{f}(S^t,x^{t}) \enspace .
359 \end{array}\right.
360 \end{equation}
361
362 \noindent  Finally, iterations defined  in Eq.~(\ref{eq:sync})  can be
363 described by the following system:
364 \begin{equation} 
365 \left\{
366 \begin{array}{lll} 
367 X^{0} & = &  ((S^t)^{t \in \Nats},x^0) \in 
368 \llbracket1;n\rrbracket^\Nats \times \Bool^{n}\\ 
369 X^{k+1}& = & G_{f}(X^{k})\\
370 \multicolumn{3}{c}{\textrm{where } G_{f}\left(((S^t)^{t \in \Nats},x)\right)
371 = \left(\sigma((S^t)^{t \in \Nats}),F_{f}(S^0,x)\right) \enspace ,}
372 \end{array} 
373 \right.
374 \label{eq:Gf}
375 \end{equation}
376 where  $\sigma$ is the so-called shift function that  removes the  first term  of the
377 strategy  ({\it  i.e.},~$S^0$).    This  definition  allows  to  link
378 asynchronous  iterations  with  classical  iterations of  a  dynamical
379 system. Note that it can be extended by considering subsets for $S^t$.
380
381 To study topological properties of  these iterations, we are then left
382 to  introduce a  {\bf distance}  $d$  between two  points $(S,x)$  and
383 $(\check{S},\check{x})$ in $\mathcal{X} = \llbracket1;n\rrbracket^\Nats
384 \times \Bool^{n}$. Let $\Delta(x,y) = 0$ if $x=y$, and $\Delta(x,y) = 1$ else, be a distance on $\mathds{B}$. The distance $d$ is defined by 
385 \begin{equation}
386 d((S,x);(\check{S},\check{x}))=d_{e}(x,\check{x})+d_{s}(S,\check{S})
387 \enspace ,
388 \end{equation}
389 where
390 \begin{equation}
391 d_{e}(x,\check{x})=\sum_{j=1}^{n}\Delta
392 (x_{j},\check{x}_{j}) \in \llbracket  0 ; n \rrbracket 
393 \end{equation}
394 \noindent and   
395 \begin{equation}
396 d_{s}(S,\check{S})=\frac{9}{2n}\sum_{t=0}^{\infty
397 }\frac{|S^{t}-\check{S}^{t}|}{10^{t+1}} \in [0 ; 1] \enspace .
398 \end{equation}
399
400 This    distance    is    defined    to    reflect    the    following
401 information. Firstly, the more  two systems have different components,
402 the  larger the  distance between  them.  Secondly,  two  systems with
403 similar components and strategies, which have the same starting terms,
404 must  induce only a  small distance.   The proposed  distance fulfills
405 these  requirements: on  the one  hand  its floor  value reflects  the
406 difference between  the cells, on  the other hand its  fractional part
407 measures the difference between the strategies.
408
409 The relation  between $\Gamma(f)$ and  $G_f$ is obvious: there  exists a
410 path from  $x$ to $x'$  in $\Gamma(f)$ if  and only if there  exists a
411 strategy  $s$ such  that iterations  of $G_f$  from the  initial point
412 $(s,x)$   reach   the   configuration   $x'$.   Using   this   link,
413 Guyeux~\cite{GuyeuxThese10} has proven that,
414 \begin{theorem}%[Characterization of $\mathcal{C}$]
415 \label{Th:Caracterisation   des   IC   chaotiques}  
416 Let $f:\Bool^n\to\Bool^n$. Iterations of $G_f$ are chaotic  according 
417 to  Devaney if and only if  $\Gamma(f)$ is strongly connected.
418 \end{theorem}
419
420 Checking if  a graph  is strongly connected  is not difficult  (by the
421 Tarjan's algorithm for  instance).  Let be given a  strategy $S$ and a
422 function  $f$ such that  $\Gamma(f)$ is  strongly connected.   In that
423 case, iterations of the function $G_f$ as defined in Eq.~(\ref{eq:Gf})
424 are chaotic according to Devaney.
425
426
427 Let   us  then   define  two   functions  $f_0$   and  $f_1$   both  in
428 $\Bool^n\to\Bool^n$ that are used all along this paper.  The former is
429 the   vectorial  negation,   \textit{i.e.},  $f_{0}(x_{1},\dots,x_{n})
430 =(\overline{x_{1}},\dots,\overline{x_{n}})$.      The     latter    is
431 $f_1\left(x_1,\dots,x_n\right)=\left(
432 \overline{x_1},x_1,x_2,\dots,x_{n-1}\right)$.  It is not hard to check
433 that $\Gamma(f_0)$ and $\Gamma(f_1)$ are both strongly connected, then
434 iterations  of $G_{f_0}$  and of  $G_{f_1}$ are  chaotic  according to
435 Devaney.
436
437 With this  material, we are now  able to build a  first chaotic neural
438 network, as defined in the Devaney's formulation.
439
440 \section{A chaotic neural network in the sense of Devaney}
441 \label{S2}
442
443 Let  us   build  a  multilayer  perceptron   neural  network  modeling
444 $F_{f_0}:\llbracket   1;   n   \rrbracket  \times   \mathds{B}^n   \to
445 \mathds{B}^n$ associated  to the vectorial  negation.  More precisely,
446 for   all   inputs   $(s,x)   \in  \llbracket   1;n\rrbracket   \times
447 \mathds{B}^n$, the  output layer  will produce $F_{f_0}(s,x)$.   It is
448 then possible to link the output  layer and the input one, in order to
449 model the  dependence between two successive iterations.   As a result
450 we obtain  a global recurrent  neural network that behaves  as follows
451 (see Fig.~\ref{Fig:perceptron}).
452
453 \begin{itemize}
454 \item   The   network   is   initialized   with   the   input   vector
455   $\left(S^0,x^0\right)    \in    \llbracket   1;n\rrbracket    \times
456   \mathds{B}^n$      and      computes      the     output      vector
457   $x^1=F_{f_0}\left(S^0,x^0\right)$. This last  vector is published as
458   an output one of the chaotic  neural network and is sent back to the
459   input layer through the feedback links.
460 \item When  the network  is activated at  the $t^{th}$  iteration, the
461   state of the system $x^t  \in \mathds{B}^n$ received from the output
462   layer and  the initial  term of the  sequence $(S^t)^{t  \in \Nats}$
463   (\textit{i.e.}, $S^0  \in \llbracket 1;n\rrbracket$)  are used  to compute  the new
464   output vector.  This  new vector, which represents the  new state of
465   the dynamical system, satisfies:
466   \begin{equation}
467     x^{t+1}=F_{f_0}(S^0, x^t) \in \mathds{B}^n \enspace .
468   \end{equation}
469 \end{itemize}
470
471 \begin{figure}
472   \centering
473   \includegraphics[scale=0.625]{perceptron}
474   \caption{A perceptron equivalent to chaotic iterations}
475   \label{Fig:perceptron}
476 \end{figure}
477
478 The behavior of the neural network is such that when the initial state
479 is  $x^0~\in~\mathds{B}^n$ and  a  sequence $(S^t)^{t  \in \Nats}$  is
480 given  as outside  input,
481 then  the sequence  of  successive published
482 output vectors $\left(x^t\right)^{t \in \mathds{N}^{\ast}}$ is exactly
483 the  one produced  by  the chaotic  iterations  formally described  in
484 Eq.~(\ref{eq:Gf}).  It  means that  mathematically if we  use similar
485 input  vectors   they  both  generate  the   same  successive  outputs
486 $\left(x^t\right)^{t \in \mathds{N}^{\ast}}$,  and therefore that they
487 are  equivalent  reformulations  of  the iterations  of  $G_{f_0}$  in
488 $\mathcal{X}$. Finally, since the  proposed neural network is built to
489 model  the  behavior  of  $G_{f_0}$,  whose iterations are
490   chaotic  according  to the
491 Devaney's definition  of chaos,  we can conclude  that the  network is
492 also chaotic in this sense.
493
494 The previous construction scheme  is not restricted to function $f_0$.
495 It can  be extended to any function  $f$ such that $G_f$  is a chaotic
496 map by training the network to model $F_{f}:\llbracket 1; n \rrbracket
497 \times      \mathds{B}^n      \to      \mathds{B}^n$.      Due      to
498 Theorem~\ref{Th:Caracterisation  des  IC  chaotiques},  we  can  find
499 alternative functions  $f$ for $f_0$  through a simple check  of their
500 graph of  iterations $\Gamma(f)$.  For  example, we can  build another
501 chaotic neural network by using $f_1$ instead of $f_0$.
502
503 \section{Checking whether a neural network is chaotic or not}
504 \label{S3}
505
506 We focus now on the case  where a neural network is already available,
507 and for  which we want  to know if  it is chaotic. Typically,  in many
508 research  papers neural  network  are usually  claimed  to be  chaotic
509 without any  convincing mathematical proof. We propose  an approach to
510 overcome  this  drawback  for  a  particular  category  of  multilayer
511 perceptrons defined below, and for the Devaney's formulation of chaos.
512 In  spite of  this restriction,  we think  that this  approach  can be
513 extended to a large variety of neural networks.
514
515 We consider a multilayer perceptron  of the following form: inputs are
516 $n$ binary digits  and one integer value, while  outputs are $n$ bits.
517 Moreover, each  binary output is connected with  a feedback connection
518 to an input one.
519
520 \begin{itemize}
521 \item  During  initialization, the  network  is  seeded with  $n$~bits
522   denoted $\left(x^0_1,\dots,x^0_n\right)$ and  an integer value $S^0$
523   that belongs to $\llbracket1;n\rrbracket$.
524 \item     At     iteration~$t$,     the     last     output     vector
525   $\left(x^t_1,\dots,x^t_n\right)$   defines  the  $n$~bits   used  to
526   compute the new output one $\left(x^{t+1}_1,\dots,x^{t+1}_n\right)$.
527   While  the remaining  input receives  a new  integer value  $S^t \in
528   \llbracket1;n\rrbracket$, which is provided by the outside world.
529 \JFC{en dire davantage sur l'outside world}
530 \end{itemize}
531
532 The topological  behavior of these  particular neural networks  can be
533 proven to be chaotic through the following process. Firstly, we denote
534 by  $F:  \llbracket  1;n  \rrbracket \times  \mathds{B}^n  \rightarrow
535 \mathds{B}^n$     the     function     that     maps     the     value
536 $\left(s,\left(x_1,\dots,x_n\right)\right)    \in    \llbracket    1;n
537 \rrbracket      \times      \mathds{B}^n$      into     the      value
538 $\left(y_1,\dots,y_n\right)       \in       \mathds{B}^n$,       where
539 $\left(y_1,\dots,y_n\right)$  is the  response of  the  neural network
540 after    the    initialization     of    its    input    layer    with
541 $\left(s,\left(x_1,\dots, x_n\right)\right)$.  Secondly, we define $f:
542 \mathds{B}^n       \rightarrow      \mathds{B}^n$       such      that
543 $f\left(x_1,x_2,\dots,x_n\right)$ is equal to
544 \begin{equation}
545 \left(F\left(1,\left(x_1,x_2,\dots,x_n\right)\right),\dots,
546   F\left(n,\left(x_1,x_2,\dots,x_n\right)\right)\right) \enspace .
547 \end{equation}
548 Thus, for any $j$, $1 \le j \le n$, we have 
549 $f_j\left(x_1,x_2,\dots,x_n\right) = 
550 F\left(j,\left(x_1,x_2,\dots,x_n\right)\right)$.
551 If this recurrent  neural network is seeded with 
552 $\left(x_1^0,\dots,x_n^0\right)$    and   $S   \in    \llbracket   1;n
553 \rrbracket^{\mathds{N}}$, it produces  exactly the
554 same      output      vectors  than the 
555 chaotic iterations of $F_f$  with initial
556 condition  $\left(S,(x_1^0,\dots,  x_n^0)\right)  \in  \llbracket  1;n
557 \rrbracket^{\mathds{N}}  \times \mathds{B}^n$.
558 Theoretically  speaking, such iterations  of $F_f$  are thus  a formal
559 model of these kind of recurrent  neural networks. In the rest of this
560 paper,  we will  call such  multilayer perceptrons  CI-MLP($f$), which
561 stands for ``Chaotic Iterations based MultiLayer Perceptron''.
562
563 Checking  if CI-MLP($f$)  behaves chaotically  according  to Devaney's
564 definition  of  chaos  is  simple:  we  need just  to  verify  if  the
565 associated graph  of iterations  $\Gamma(f)$ is strongly  connected or
566 not. As  an incidental consequence,  we finally obtain  an equivalence
567 between  chaotic  iterations   and  CI-MLP($f$).   Therefore,  we  can
568 obviously  study such multilayer  perceptrons with  mathematical tools
569 like  topology  to  establish,  for  example,  their  convergence  or,
570 contrarily, their unpredictable behavior.   An example of such a study
571 is given in the next section.
572
573 \section{Topological properties of chaotic neural networks}
574 \label{S4}
575
576 Let us first recall  two fundamental definitions from the mathematical
577 theory of chaos.
578
579 \begin{definition} \label{def8}
580 A  function   $f$  is   said  to  be   {\bf  expansive}   if  $\exists
581 \varepsilon>0$, $\forall  x \neq y$,  $\exists n \in  \mathds{N}$ such
582 that $d\left(f^n(x),f^n(y)\right) \geq \varepsilon$.
583 \end{definition}
584
585 \noindent In  other words, a small  error on any  initial condition is
586 always amplified  until $\varepsilon$,  which denotes the  constant of
587 expansivity of $f$.
588
589 \begin{definition} \label{def9}
590 A discrete dynamical  system is said to be  {\bf topologically mixing}
591 if  and only  if,  for any  pair  of disjoint  open  sets $U$,$V  \neq
592 \emptyset$, we  can find some $n_0  \in \mathds{N}$ such  that for any
593 $n$, $n\geq n_0$, we have $f^n(U) \cap V \neq \emptyset$.
594 \end{definition}
595
596 \noindent Topologically mixing means that the dynamical system evolves
597 in  time such that  any given  region of  its topological  space might
598 overlap with any other region.
599
600 It has been proven in Ref.~\cite{gfb10:ip} that chaotic iterations are
601 expansive and topologically mixing  when $f$ is the vectorial negation
602 $f_0$.    Consequently,  these   properties  are   inherited   by  the
603 CI-MLP($f_0$)  recurrent neural  network  previously presented,  which
604 induce  a greater  unpredictability.   Any difference  on the  initial
605 value of the input layer is  in particular magnified up to be equal to
606 the expansivity constant.
607
608 Let  us then  focus on  the consequences  for a  neural network  to be
609 chaotic   according  to   Devaney's   definition.   Intuitively,   the
610 topological transitivity property  implies indecomposability, which is
611 formally defined as follows:
612
613 \begin{definition} \label{def10}
614 A  dynamical  system  $\left(   \mathcal{X},  f\right)$  is  {\bf  not
615   decomposable}  if it  is not  the  union of  two closed  sets $A,  B
616 \subset \mathcal{X}$ such that $f(A) \subset A, f(B) \subset B$.
617 \end{definition}
618
619 \noindent Hence, reducing the set of outputs generated by CI-MLP($f$),
620 in order to  simplify its complexity, is impossible  if $\Gamma(f)$ is
621 strongly connected.  Moreover, under this  hypothesis CI-MLPs($f$) are
622 strongly transitive:
623
624 \begin{definition} \label{def11}
625 A  dynamical system  $\left( \mathcal{X},  f\right)$ is  {\bf strongly
626   transitive}  if  $\forall   x,y  \in  \mathcal{X}$,  $\forall  r>0$,
627 $\exists z \in \mathcal{X}$,  $d(z,x)~\leq~r \Rightarrow \exists n \in
628 \mathds{N}^{\ast}$, $f^n(z)=y$.
629 \end{definition}
630
631 \noindent According to  this definition, for all pairs  of points $(x,
632 y)$ in the  phase space, a point $z$ can be  found in the neighborhood
633 of $x$  such that one  of its iterates  $f^n(z)$ is $y$.  Indeed, this
634 result  has been  established  during the  proof  of the  transitivity
635 presented  in Ref.~\cite{guyeux09}.   Among other  things,  the strong
636 transitivity  leads to  the fact  that  without the  knowledge of  the
637 initial input layer, all outputs are possible.  Additionally, no point
638 of the output space can be discarded when studying CI-MLPs: this space
639 is  intrinsically   complicated  and   it  cannot  be   decomposed  or
640 simplified.
641
642 Furthermore, those  recurrent neural networks  exhibit the instability
643 property:
644 \begin{definition}
645 A dynamical  system $\left( \mathcal{X}, f\right)$ is {\bf unstable}
646 if for
647 all  $x  \in  \mathcal{X}$,   the  orbit  $\gamma_x:n  \in  \mathds{N}
648 \longmapsto f^n(x)$  is unstable,  that means: $\exists  \varepsilon >
649 0$, $\forall  \delta>0$, $\exists y  \in \mathcal{X}$, $\exists  n \in
650 \mathds{N}$,        such        that        $d(x,y)<\delta$        and
651 $d\left(\gamma_x(n),\gamma_y(n)\right) \geq \varepsilon$.
652 \end{definition}
653
654 \noindent  This property,  which  is implied  by  the sensitive  point
655 dependence  on initial  conditions,  leads  to the  fact  that in  all
656 neighborhoods of any point $x$, there  are points that can be apart by
657 $\varepsilon$    in   the   future    through   iterations    of   the
658 CI-MLP($f$). Thus,  we can  claim that the  behavior of these  MLPs is
659 unstable when $\Gamma (f)$ is strongly connected.
660
661 Let  us  now consider  a  compact  metric space  $(M,  d)$  and $f:  M
662 \rightarrow M$  a continuous map. For  each natural number  $n$, a new
663 metric $d_n$ is defined on $M$ by
664 \begin{equation}
665 d_n(x,y)=\max\{d(f^i(x),f^i(y)): 0\leq i<n\} \enspace .
666 \end{equation}
667
668 Given any $\varepsilon > 0$ and $n \geqslant 1$, two points of $M$ are
669 $\varepsilon$-close  with respect to  this metric  if their  first $n$
670 iterates are $\varepsilon$-close.
671
672 This metric  allows one to distinguish  in a neighborhood  of an orbit
673 the points  that move away from  each other during  the iteration from
674 the points  that travel together.  A subset  $E$ of $M$ is  said to be
675 $(n, \varepsilon)$-separated if each pair of distinct points of $E$ is
676 at  least $\varepsilon$  apart in  the metric  $d_n$. Denote  by $H(n,
677 \varepsilon)$     the    maximum     cardinality     of    an     $(n,
678 \varepsilon)$-separated set,
679 \begin{definition}
680 The {\bf topological entropy} of the  map $f$ is defined by (see e.g.,
681 Ref.~\cite{Adler65} or Ref.~\cite{Bowen})
682 $$h(f)=\lim_{\varepsilon\to      0}      \left(\limsup_{n\to      \infty}
683 \frac{1}{n}\log H(n,\varepsilon)\right) \enspace .$$
684 \end{definition}
685
686 Then we have the following result \cite{GuyeuxThese10},
687 \begin{theorem}
688 $\left( \mathcal{X},d\right)$  is compact and  the topological entropy
689 of $(\mathcal{X},G_{f_0})$ is infinite.
690 \end{theorem}
691
692 \begin{figure}
693   \centering
694   \includegraphics[scale=0.5]{scheme}
695   \caption{Summary of addressed neural networks and chaos problems}
696   \label{Fig:scheme}
697 \end{figure}
698
699 Figure~\ref{Fig:scheme} is a summary  of addressed neural networks and
700 chaos  problems.   In  Section~\ref{S2}   we  have  explained  how  to
701 construct    a    truly    chaotic    neural   networks,    $A$    for
702 instance. Section~\ref{S3} has shown how  to check whether a given MLP
703 $A$ or $C$ is chaotic or not  in the sens of Devaney, and how to study
704 its  topological  behavior.   The  last  thing  to  investigate,  when
705 comparing neural networks and Devaney's chaos, is to determine whether
706 an  artificial neural network  $C$ is  able to  learn or  predict some
707 chaotic  behaviors  of  $B$,  as   it  is  defined  in  the  Devaney's
708 formulation  (when  they are  not  specifically  constructed for  this
709 purpose).  This statement is studied in the next section.
710
711 \section{Suitability of Feedforward Neural Networks 
712 for Predicting Chaotic and Non-chaotic Behaviors}
713
714 In  the context  of computer  science  different topic  areas have  an
715 interest       in       chaos,       as       for       steganographic
716 techniques~\cite{1309431,Zhang2005759}.    Steganography  consists  in
717 embedding a  secret message within  an ordinary one, while  the secret
718 extraction takes place once  at destination.  The reverse ({\it i.e.},
719 automatically detecting the presence  of hidden messages inside media)
720 is  called   steganalysis.   Among  the   deployed  strategies  inside
721 detectors,          there         are          support         vectors
722 machines~\cite{Qiao:2009:SM:1704555.1704664},                    neural
723 networks~\cite{10.1109/ICME.2003.1221665,10.1109/CIMSiM.2010.36},  and
724 Markov   chains~\cite{Sullivan06steganalysisfor}.    Most   of   these
725 detectors  give quite  good results  and are  rather  competitive when
726 facing steganographic  tools.  However, to  the best of  our knowledge
727 none of the considered information hiding schemes fulfills the Devaney
728 definition  of chaos~\cite{Devaney}.  Indeed,  one can  wonder whether
729 detectors  continue to  give good  results when  facing  truly chaotic
730 schemes.  More  generally, there remains the open  problem of deciding
731 whether artificial intelligence is suitable for predicting topological
732 chaotic behaviors.
733
734 \subsection{Representing Chaotic Iterations for Neural Networks} 
735 \label{section:translation}
736
737 The  problem  of  deciding  whether  classical  feedforward  ANNs  are
738 suitable  to approximate  topological chaotic  iterations may  then be
739 reduced to  evaluate such neural  networks on iterations  of functions
740 with  Strongly  Connected  Component  (SCC)~graph of  iterations.   To
741 compare with  non-chaotic iterations, the experiments  detailed in the
742 following  sections  are carried  out  using  both  kinds of  function
743 (chaotic and non-chaotic). Let  us emphasize on the difference between
744 this  kind  of  neural  networks  and  the  Chaotic  Iterations  based
745 multilayer peceptron.
746
747 We are  then left to compute  two disjoint function  sets that contain
748 either functions  with topological chaos properties  or not, depending
749 on  the strong  connectivity of  their iterations graph.  This  can be
750 achieved for  instance by removing a  set of edges  from the iteration
751 graph $\Gamma(f_0)$ of the vectorial negation function~$f_0$.  One can
752 deduce whether  a function verifies the topological  chaos property or
753 not  by checking  the strong  connectivity of  the resulting  graph of
754 iterations.
755
756 For instance let us consider  the functions $f$ and $g$ from $\Bool^4$
757 to $\Bool^4$ respectively defined by the following lists:
758 $$[0,  0,  2,   3,  13,  13,  6,   3,  8,  9,  10,  11,   8,  13,  14,
759   15]$$ $$\mbox{and } [11, 14, 13, 14, 11, 10, 1, 8, 7, 6, 5, 4, 3, 2,
760   1, 0]  \enspace.$$ In  other words,  the image of  $0011$ by  $g$ is
761 $1110$: it  is obtained as the  binary value of the  fourth element in
762 the  second  list  (namely~14).   It   is  not  hard  to  verify  that
763 $\Gamma(f)$ is  not SCC  (\textit{e.g.}, $f(1111)$ is  $1111$) whereas
764 $\Gamma(g)$ is. The  remaining of this section shows  how to translate
765 iterations of such functions into a model amenable to be learned by an
766 ANN.   Formally, input  and  output vectors  are pairs~$((S^t)^{t  \in
767   \Nats},x)$          and          $\left(\sigma((S^t)^{t          \in
768   \Nats}),F_{f}(S^0,x)\right)$ as defined in~Eq.~(\ref{eq:Gf}).
769
770 Firstly, let us focus on how to memorize configurations.  Two distinct
771 translations are  proposed.  In the first  case, we take  one input in
772 $\Bool$  per  component;  in   the  second  case,  configurations  are
773 memorized  as   natural  numbers.    A  coarse  attempt   to  memorize
774 configuration  as  natural  number  could  consist  in  labeling  each
775 configuration  with  its  translation  into  decimal  numeral  system.
776 However,  such a  representation induces  too many  changes  between a
777 configuration  labeled by  a  power  of two  and  its direct  previous
778 configuration: for instance, 16~(10000)  and 15~(01111) are close in a
779 decimal ordering, but  their Hamming distance is 5.   This is why Gray
780 codes~\cite{Gray47} have been preferred.
781
782 Secondly, let us detail how to deal with strategies.  Obviously, it is
783 not possible to  translate in a finite way  an infinite strategy, even
784 if both $(S^t)^{t \in \Nats}$ and $\sigma((S^t)^{t \in \Nats})$ belong
785 to  $\{1,\ldots,n\}^{\Nats}$.  Input  strategies are  then  reduced to
786 have a length of size $l \in \llbracket 2,k\rrbracket$, where $k$ is a
787 parameter of the evaluation. Notice  that $l$ is greater than or equal
788 to $2$ since  we do not want the shift  $\sigma$~function to return an
789 empty strategy.  Strategies are memorized as natural numbers expressed
790 in base  $n+1$.  At  each iteration, either  none or one  component is
791 modified  (among the  $n$ components)  leading to  a radix  with $n+1$
792 entries.  Finally,  we give an  other input, namely $m  \in \llbracket
793 1,l-1\rrbracket$, which  is the  number of successive  iterations that
794 are applied starting  from $x$.  Outputs are translated  with the same
795 rules.
796
797 To address  the complexity  issue of the  problem, let us  compute the
798 size of the data set an ANN has to deal with.  Each input vector of an
799 input-output pair  is composed of a configuration~$x$,  an excerpt $S$
800 of the strategy to iterate  of size $l \in \llbracket 2, k\rrbracket$,
801 and a  number $m \in  \llbracket 1, l-1\rrbracket$ of  iterations that
802 are executed.
803
804 Firstly, there are $2^n$  configurations $x$, with $n^l$ strategies of
805 size $l$ for  each of them. Secondly, for  a given configuration there
806 are $\omega = 1 \times n^2 +  2 \times n^3 + \ldots+ (k-1) \times n^k$
807 ways  of writing  the pair  $(m,S)$. Furthermore,  it is  not  hard to
808 establish that
809 \begin{equation}
810 \displaystyle{(n-1) \times \omega = (k-1)\times n^{k+1} - \sum_{i=2}^k n^i} \nonumber
811 \end{equation}
812 then
813 \begin{equation}
814 \omega =
815 \dfrac{(k-1)\times n^{k+1}}{n-1} - \dfrac{n^{k+1}-n^2}{(n-1)^2} \enspace . \nonumber
816 \end{equation}
817 \noindent And then, finally, the number of  input-output pairs for our 
818 ANNs is 
819 $$
820 2^n \times \left(\dfrac{(k-1)\times n^{k+1}}{n-1} - \dfrac{n^{k+1}-n^2}{(n-1)^2}\right) \enspace .
821 $$
822 For  instance, for $4$  binary components  and a  strategy of  at most
823 $3$~terms we obtain 2304~input-output pairs.
824
825 \subsection{Experiments}
826 \label{section:experiments}
827
828 To study  if chaotic iterations can  be predicted, we  choose to train
829 the multiLayer perceptron.  As stated  before, this kind of network is
830 in  particular  well-known for  its  universal approximation  property
831 \cite{Cybenko89,DBLP:journals/nn/HornikSW89}.  Furthermore,  MLPs have
832 been  already  considered for  chaotic  time  series prediction.   For
833 example,   in~\cite{dalkiran10}  the   authors  have   shown   that  a
834 feedforward  MLP with  two hidden  layers, and  trained  with Bayesian
835 Regulation  back-propagation, can learn  successfully the  dynamics of
836 Chua's circuit.
837
838 In  these experiments  we consider  MLPs  having one  hidden layer  of
839 sigmoidal  neurons  and  output   neurons  with  a  linear  activation
840 function.     They    are    trained    using    the    Limited-memory
841 Broyden-Fletcher-Goldfarb-Shanno quasi-newton algorithm in combination
842 with the Wolfe linear search.  The training process is performed until
843 a maximum number of epochs  is reached.  To prevent overfitting and to
844 estimate the  generalization performance we use  holdout validation by
845 splitting the  data set into  learning, validation, and  test subsets.
846 These subsets  are obtained through  random selection such  that their
847 respective size represents 65\%, 10\%, and 25\% of the whole data set.
848
849 Several  neural  networks  are  trained  for  both  iterations  coding
850 schemes.   In  both  cases   iterations  have  the  following  layout:
851 configurations of  four components and  strategies with at  most three
852 terms. Thus, for  the first coding scheme a data  set pair is composed
853 of 6~inputs and 5~outputs, while for the second one it is respectively
854 3~inputs and 2~outputs. As noticed at the end of the previous section,
855 this  leads to  data sets  that  consist of  2304~pairs. The  networks
856 differ  in the  size of  the hidden  layer and  the maximum  number of
857 training epochs.  We remember that  to evaluate the ability  of neural
858 networks to  predict a  chaotic behavior for  each coding  scheme, the
859 trainings of two data sets, one of them describing chaotic iterations,
860 are compared.
861
862 Thereafter we give,  for the different learning setups  and data sets,
863 the mean prediction success rate obtained for each output. A such rate
864 represent the  percentage of input-output pairs belonging  to the test
865 subset  for  which  the   corresponding  output  value  was  correctly
866 predicted.  These values  are computed  considering  10~trainings with
867 random  subsets  construction,   weights  and  biases  initialization.
868 Firstly, neural networks having  10 and 25~hidden neurons are trained,
869 with   a  maximum   number  of   epochs  that   takes  its   value  in
870 $\{125,250,500\}$  (see Tables~\ref{tab1} and  \ref{tab2}).  Secondly,
871 we refine the second coding scheme by splitting the output vector such
872 that   each  output   is  learned   by  a   specific   neural  network
873 (Table~\ref{tab3}). In  this last  case, we increase  the size  of the
874 hidden layer up to 40~neurons and we consider larger number of epochs.
875
876 \begin{table}[htbp!]
877 \caption{Prediction success rates for configurations expressed as boolean vectors.}
878 \label{tab1}
879 \centering {\small
880 \begin{tabular}{|c|c||c|c|c|}
881 \hline 
882 \multicolumn{5}{|c|}{Networks topology: 6~inputs, 5~outputs and one hidden layer} \\
883 \hline
884 \hline
885 \multicolumn{2}{|c||}{Hidden neurons} & \multicolumn{3}{c|}{10 neurons} \\
886 \cline{3-5} 
887 \multicolumn{2}{|c||}{Epochs} & 125 & 250 & 500 \\ 
888 \hline
889 \multirow{6}{*}{\rotatebox{90}{Chaotic}}&Output~(1) & 90.92\% & 91.75\% & 91.82\% \\ 
890 & Output~(2) & 69.32\% & 78.46\% & 82.15\% \\
891 & Output~(3) & 68.47\% & 78.49\% & 82.22\% \\
892 & Output~(4) & 91.53\% & 92.37\% & 93.4\% \\
893 & Config. & 36.10\% & 51.35\% & 56.85\% \\
894 & Strategy~(5) & 1.91\% & 3.38\% & 2.43\% \\
895 \hline
896 \multirow{6}{*}{\rotatebox{90}{Non-chaotic}}&Output~(1) & 97.64\% & 98.10\% & 98.20\% \\
897 & Output~(2) & 95.15\% & 95.39\% & 95.46\% \\
898 & Output~(3) & 100\% & 100\% & 100\% \\
899 & Output~(4) & 97.47\% & 97.90\% & 97.99\% \\
900 & Config. & 90.52\% & 91.59\% & 91.73\% \\
901 & Strategy~(5) & 3.41\% & 3.40\% & 3.47\% \\
902 \hline
903 \hline
904 \multicolumn{2}{|c||}{Hidden neurons} & \multicolumn{3}{c|}{25 neurons} \\ %& \multicolumn{3}{|c|}{40 neurons} \\
905 \cline{3-5} 
906 \multicolumn{2}{|c||}{Epochs} & 125 & 250 & 500 \\ %& 125 & 250 & 500 \\ 
907 \hline
908 \multirow{6}{*}{\rotatebox{90}{Chaotic}}&Output~(1) & 91.65\% & 92.69\% & 93.93\% \\ %& 91.94\% & 92.89\% & 94.00\% \\
909 & Output~(2) & 72.06\% & 88.46\% & 90.5\% \\ %& 74.97\% & 89.83\% & 91.14\% \\
910 & Output~(3) & 79.19\% & 89.83\% & 91.59\% \\ %& 76.69\% & 89.58\% & 91.84\% \\
911 & Output~(4) & 91.61\% & 92.34\% & 93.47\% \\% & 82.77\% & 92.93\% & 93.48\% \\
912 & Config. & 48.82\% & 67.80\% & 70.97\% \\%& 49.46\% & 68.94\% & 71.11\% \\
913 & Strategy~(5) & 2.62\% & 3.43\% & 3.78\% \\% & 3.10\% & 3.10\% & 3.03\% \\
914 \hline
915 \multirow{6}{*}{\rotatebox{90}{Non-chaotic}}&Output~(1) & 97.87\% & 97.99\% & 98.03\% \\ %& 98.16\% \\
916 & Output~(2) & 95.46\% & 95.84\% & 96.75\% \\ % & 97.4\% \\
917 & Output~(3) & 100\% & 100\% & 100\% \\%& 100\% \\
918 & Output~(4) & 97.77\% & 97.82\% & 98.06\% \\%& 98.31\% \\
919 & Config. & 91.36\% & 91.99\% & 93.03\% \\%& 93.98\% \\
920 & Strategy~(5) & 3.37\% & 3.44\% & 3.29\% \\%& 3.23\% \\
921 \hline
922 \end{tabular}
923 }
924 \end{table}
925
926 Table~\ref{tab1}  presents the  rates  obtained for  the first  coding
927 scheme.   For  the chaotic  data,  it can  be  seen  that as  expected
928 configuration  prediction becomes  better  when the  number of  hidden
929 neurons and maximum  epochs increases: an improvement by  a factor two
930 is observed (from 36.10\% for 10~neurons and 125~epochs to 70.97\% for
931 25~neurons  and  500~epochs). We  also  notice  that  the learning  of
932 outputs~(2)   and~(3)  is   more  difficult.    Conversely,   for  the
933 non-chaotic  case the  simplest training  setup is  enough  to predict
934 configurations.  For all those  feedforward network topologies and all
935 outputs the  obtained results for the non-chaotic  case outperform the
936 chaotic  ones. Finally,  the rates  for the  strategies show  that the
937 different networks are unable to learn them.
938
939 \newpage
940
941 For  the  second  coding   scheme  (\textit{i.e.},  with  Gray  Codes)
942 Table~\ref{tab2} shows  that any network learns about  five times more
943 non-chaotic  configurations  than chaotic  ones.  As  in the  previous
944 scheme, the strategies cannot be predicted.
945
946 Let us now compare the  two coding schemes. Firstly, the second scheme
947 disturbs  the   learning  process.   In   fact  in  this   scheme  the
948 configuration is always expressed as  a natural number, whereas in the
949 first one  the number  of inputs follows  the increase of  the Boolean
950 vectors coding configurations. In this latter case, the coding gives a
951 finer information on configuration evolution.
952 \JFC{Je n'ai pas compris le paragraphe precedent. Devrait être repris}
953 \begin{table}[b]
954 \caption{Prediction success rates for configurations expressed with Gray code}
955 \label{tab2}
956 \centering
957 \begin{tabular}{|c|c||c|c|c|}
958 \hline 
959 \multicolumn{5}{|c|}{Networks topology: 3~inputs, 2~outputs and one hidden layer} \\
960 \hline
961 \hline
962 & Hidden neurons & \multicolumn{3}{c|}{10 neurons} \\
963 \cline{2-5}
964 & Epochs & 125 & 250 & 500 \\ %& 1000 
965 \hline
966 \multirow{2}{*}{Chaotic}& Config.~(1) & 13.29\% & 13.55\% & 13.08\% \\ %& 12.5\%
967 & Strategy~(2) & 0.50\% & 0.52\% & 1.32\% \\ %& 1.42\%
968 \hline
969 \multirow{2}{*}{Non-Chaotic}&Config.~(1) & 77.12\% & 74.00\% & 72.60\% \\ %& 75.81\% 
970 & Strategy~(2) & 0.42\% & 0.80\% & 1.16\% \\ %& 1.42\% 
971 \hline
972 \hline
973 & Hidden neurons & \multicolumn{3}{c|}{25 neurons} \\
974 \cline{2-5}
975 & Epochs & 125 & 250 & 500 \\ %& 1000 
976 \hline
977 \multirow{2}{*}{Chaotic}& Config.~(1) & 12.27\% & 13.15\% & 13.05\% \\ %& 15.44\%
978 & Strategy~(2) & 0.71\% & 0.66\% & 0.88\% \\ %& 1.73\%
979 \hline
980 \multirow{2}{*}{Non-Chaotic}&Config.~(1) & 73.60\% & 74.70\% & 75.89\% \\ %& 68.32\%
981 & Strategy~(2) & 0.64\% & 0.97\% & 1.23\% \\ %& 1.80\%
982 \hline
983 \end{tabular}
984 \end{table}
985
986 Unfortunately, in  practical applications the number  of components is
987 usually  unknown.   Hence, the  first  coding  scheme  cannot be  used
988 systematically.   Therefore, we  provide  a refinement  of the  second
989 scheme: each  output is learned  by a different  ANN. Table~\ref{tab3}
990 presents the  results for  this approach.  In  any case,  whatever the
991 considered  feedforward network topologies,  the maximum  epoch number
992 and the kind of iterations, the configuration success rate is slightly
993 improved.   Moreover, the  strategies predictions  rates  reach almost
994 12\%, whereas in Table~\ref{tab2} they never exceed 1.5\%.  Despite of
995 this improvement,  a long term prediction of  chaotic iterations still
996 appear to be an open issue.
997
998 \begin{table}
999 \caption{Prediction success rates for split outputs.}
1000 \label{tab3}
1001 \centering
1002 \begin{tabular}{|c||c|c|c|}
1003 \hline 
1004 \multicolumn{4}{|c|}{Networks topology: 3~inputs, 1~output and one hidden layer} \\
1005 \hline
1006 \hline
1007 Epochs & 125 & 250 & 500 \\ 
1008 \hline
1009 \hline
1010 Chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1011 \hline
1012 10~neurons & 12.39\% & 14.06\% & 14.32\% \\
1013 25~neurons & 13.00\% & 14.28\% & 14.58\% \\
1014 40~neurons & 11.58\% & 13.47\% & 14.23\% \\
1015 \hline
1016 \hline
1017 Non chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1018 \cline{2-4}
1019 %Epochs & 125 & 250 & 500 \\ 
1020 \hline
1021 10~neurons & 76.01\% & 74.04\% & 78.16\% \\
1022 25~neurons & 76.60\% & 72.13\% & 75.96\% \\
1023 40~neurons & 76.34\% & 75.63\% & 77.50\% \\
1024 \hline
1025 \hline
1026 Chaotic/non chaotic & \multicolumn{3}{c|}{Output = Strategy} \\
1027 \cline{2-4}
1028 %Epochs & 125 & 250 & 500 \\ 
1029 \hline
1030 10~neurons & 0.76\% & 0.97\% & 1.21\% \\
1031 25~neurons & 1.09\% & 0.73\% & 1.79\% \\
1032 40~neurons & 0.90\% & 1.02\% & 2.15\% \\
1033 \hline
1034 \multicolumn{4}{c}{} \\
1035 \hline
1036 Epochs & 1000 & 2500 & 5000 \\ 
1037 \hline
1038 \hline
1039 Chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1040 \hline
1041 10~neurons & 14.51\% & 15.22\% & 15.22\% \\
1042 25~neurons & 16.95\% & 17.57\% & 18.46\% \\
1043 40~neurons & 17.73\% & 20.75\% & 22.62\% \\
1044 \hline
1045 \hline
1046 Non chaotic & \multicolumn{3}{c|}{Output = Configuration} \\
1047 \cline{2-4}
1048 %Epochs & 1000 & 2500 & 5000 \\ 
1049 \hline
1050 10~neurons & 78.98\% & 80.02\% & 79.97\% \\
1051 25~neurons & 79.19\% & 81.59\% & 81.53\% \\
1052 40~neurons & 79.64\% & 81.37\% & 81.37\% \\
1053 \hline
1054 \hline
1055 Chaotic/non chaotic & \multicolumn{3}{c|}{Output = Strategy} \\
1056 \cline{2-4}
1057 %Epochs & 1000 & 2500 & 5000 \\ 
1058 \hline
1059 10~neurons & 3.47\% & 9.98\% & 11.66\% \\
1060 25~neurons & 3.92\% & 8.63\% & 10.09\% \\
1061 40~neurons & 3.29\% & 7.19\% & 7.18\% \\
1062 \hline
1063 \end{tabular}
1064 \end{table}
1065
1066 %
1067 % TO BE COMPLETED
1068 %
1069
1070 \section{Conclusion}
1071
1072 In  this paper,  we have  established an  equivalence  between chaotic
1073 iterations,  according to  the Devaney's  definition of  chaos,  and a
1074 class  of multilayer  perceptron  neural networks.   Firstly, we  have
1075 described how to build a neural network that can be trained to learn a
1076 given chaotic map function. Secondly,  we found a condition that allow
1077 to check whether  the iterations induced by a  function are chaotic or
1078 not, and thus  if a chaotic map is obtained.  Thanks to this condition
1079 our  approach is not  limited to  a particular  function. In  the dual
1080 case, we show that checking if a neural network is chaotic consists in
1081 verifying  a property  on an  associated  graph, called  the graph  of
1082 iterations.   These results  are valid  for recurrent  neural networks
1083 with a  particular architecture.  However,  we believe that  a similar
1084 work can be done for  other neural network architectures.  Finally, we
1085 have  discovered at  least one  family of  problems with  a reasonable
1086 size, such  that artificial neural  networks should not be  applied in
1087 the  presence  of chaos,  due  to  their  inability to  learn  chaotic
1088 behaviors in this  context.  Such a consideration is  not reduced to a
1089 theoretical detail:  this family of discrete  iterations is concretely
1090 implemented  in a  new steganographic  method  \cite{guyeux10ter}.  As
1091 steganographic   detectors  embed  tools   like  neural   networks  to
1092 distinguish between  original and stego contents, our  studies tend to
1093 prove that such  detectors might be unable to  tackle with chaos-based
1094 information  hiding  schemes.
1095
1096 In  future  work we  intend  to  enlarge  the comparison  between  the
1097 learning   of  truly   chaotic  and   non-chaotic   behaviors.   Other
1098 computational intelligence tools such  as support vector machines will
1099 be investigated  too, to  discover which tools  are the  most relevant
1100 when facing a truly chaotic phenomenon.  A comparison between learning
1101 rate  success  and  prediction  quality will  be  realized.   Concrete
1102 consequences in biology, physics, and computer science security fields
1103 will be  stated.
1104
1105 % \appendix{}
1106
1107
1108
1109 % \begin{definition} \label{def2}
1110 % A continuous function $f$  on a topological space $(\mathcal{X},\tau)$
1111 % is defined  to be  {\emph{topologically transitive}}  if for any  pair of
1112 % open  sets $U$,  $V  \in  \mathcal{X}$ there  exists  
1113 % $k \in
1114 % \mathds{N}^{\ast}$
1115 %  such  that
1116 % $f^k(U) \cap V \neq \emptyset$.
1117 % \end{definition}
1118
1119
1120 \bibliography{chaos-paper}% Produces the bibliography via BibTeX.
1121
1122 \end{document}
1123 %
1124 % ****** End of file chaos-paper.tex ******