]> AND Private Git Repository - book_chic.git/blob - chapter2.tex
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
096f51f7d1d2ab5ac234e26997f9117c6303de78
[book_chic.git] / chapter2.tex
1 %%%%%%%%%%%%%%%%%%%%% chapter.tex %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
2 %
3 % sample chapter
4 %
5 % Use this file as a template for your own input.
6 %
7 %%%%%%%%%%%%%%%%%%%%%%%% Springer-Verlag %%%%%%%%%%%%%%%%%%%%%%%%%%
8 %\motto{Use the template \emph{chapter.tex} to style the various elements of your chapter content.}
9 \chapter{From the founding situations of the SIA to its formalization}
10 \label{intro} % Always give a unique label
11 % use \chaptermark{}
12 % to alter or adjust the chapter heading in the running head
13
14
15
16 \abstract{
17 Starting from mathematical didactic situations, the implicitative
18 statistical analysis method develops as problems are encountered and
19 questions are asked.
20 Its main objective is to structure data crossing subjects and
21 variables, to extract inductive rules between variables and, based on
22 the contingency of these rules, to explain and therefore forecast in
23 various fields: psychology, sociology, biology, etc.
24 It is for this purpose that the concepts of intensity of implication,
25 class cohesion, implication-inclusion, significance of hierarchical
26 levels, contribution of additional variables, etc., are based.
27 Similarly, the processing of binary variables (e.g., descriptors) is
28 gradually being supplemented by the processing of modal, frequency
29 and, recently, interval and fuzzy variables.
30 }
31
32 \section{Preamble}
33
34 Human operative knowledge is mainly composed of two components: that
35 of facts and that of rules between facts or between rules themselves.
36 It is his learning that, through his culture and his personal
37 experiences, allows him to gradually develop these forms of knowledge,
38 despite the regressions, the questioning, the ruptures that arise at
39 the turn of decisive information.
40 However, we know that these dialectically contribute to ensuring a
41 balanced operation.
42 However, the rules are inductively formed in a relatively stable way
43 as soon as the number of successes, in terms of their explanatory or
44 anticipatory quality, reaches a certain level (of confidence) from
45 which they are likely to be implemented.
46 On the other hand, if this (subjective) level is not reached, the
47 individual's economy will make him resist, in the first instance, his
48 abandonment or criticism.
49 Indeed, it is costly to replace the initial rule with another rule
50 when a small number of infirmations appear, since it would have been
51 reinforced by a large number of confirmations.
52 An increase in this number of negative instances, depending on the
53 robustness of the level of confidence in the rule, may lead to its
54 readjustment or even abandonment.
55 Laurent Fleury~\cite{Fleury}, in his thesis, correctly cites the
56 example - which Régis repeats - of the highly admissible rule: "all
57 Ferraris are red".
58 This very robust rule will not be abandoned when observing a single or
59 two counter-examples.
60 Especially since it would not fail to be quickly
61 re-comforted.
62
63 Thus, contrary to what is legitimate in mathematics, where not all
64 rules (theorem) suffer from exception, where determinism is total,
65 rules in the human sciences, more generally in the so-called "soft"
66 sciences, are acceptable and therefore operative as long as the number
67 of counter-examples remains "bearable" in view of the frequency of
68 situations where they will be positive and effective.
69 The problem in data analysis is then to establish a relatively
70 consensual numerical criterion to define the notion of a level of
71 confidence that can be adjusted to the level of requirement of the
72 rule user.
73 The fact that it is based on statistics is not surprising.
74 That it has a property of non-linear resistance to noise (weakness of
75 the first counter-example(s)) may also seem natural, in line with the
76 "economic" meaning mentioned above.
77 That it collapses if counter-examples are repeated also seems to have
78 to guide our choice in the modeling of the desired criterion.
79 This text presents the epistemological choice we have made.
80 As such it is therefore refutable, but the number of situations and
81 applications where it has proved relevant and fruitful leads us to
82 reproduce its genesis here.
83
84 \section{Introduction}
85
86 Different theoretical approaches have been adopted to model the
87 extraction and representation of imprecise (or partial) inference
88 rules between binary variables (or attributes or characters)
89 describing a population of individuals (or subjects or objects).
90 But the initial situations and the nature of the data do not change
91 the initial problem.
92 It is a question of discovering non-symmetrical inductive rules to
93 model relationships of the type "if a then almost b".
94 This is, for example, the option of Bayesian networks~\cite{Amarger}
95 or Galois lattices~\cite{Simon}.
96 But more often than not, however, since the correlation and the
97 ${\chi}^2$ test are unsuitable because of their symmetric nature,
98 conditional probability~\cite{Loevinger, Agrawal,Grasn}  remains the
99 driving force behind the definition of the association, even when the
100 index of this selected association is multivariate~\cite{Bernard}.
101
102
103
104 Moreover, to our knowledge, on the one hand, most often the different
105 and interesting developments focus on proposals for a partial
106 implication index for binary data~\cite{Lermana} or \cite{Lallich}, on
107 the other hand, this notion is not extended to other types of
108 variables, to extraction and representation according to a rule graph
109 or a hierarchy of meta-rules; structures aiming at access to the
110 meaning of a whole not reduced to the sum of its
111 parts~\cite{Seve}\footnote{This is what the philosopher L. Sève
112   emphasizes :"... in the non-additive, non-linear passage of the
113   parts to the whole, there are properties that are in no way
114   precontained in the parts and which cannot therefore be explained by
115   them" }, i.e. operating as a complex non-linear system.
116 For example, it is well known, through usage, that the meaning of a
117 sentence does not completely depend on the meaning of each of the
118 words in it (see the previous chapter, point 4).
119
120 Let us return to what we believe is fertile in the approach we are
121 developing.
122 It would seem that, in the literature, the notion of implication index
123 is also not extended to the search for subjects and categories of
124 subjects responsible for associations.
125 Nor that this responsibility is quantified and thus leads to a
126 reciprocal structuring of all subjects, conditioned by their
127 relationships to variables.
128 We propose these extensions here after recalling the founding
129 paradigm.
130
131
132 \section{Implication intensity in the binary case}
133
134 \subsection{Fundamental and founding situation}
135
136 A set of objects or subjects E is crossed with variables
137 (characters, criteria, successes,...) which are interrogated as
138 follows: "to what extent can we consider that instantiating variable\footnote{Throughout the book, the word "variable" refers to both an isolated variable in premise (example: "to be blonde") or a conjunction of isolated variables (example: "to be blonde and to be under 30 years old and to live in Paris")} $a$
139 implies instantiating variable $b$?
140 In other words, do the subjects tend to be $b$ if we know that they are
141 $a$?".
142 In natural, human or life sciences situations, where theorems (if $a$
143 then $b$) in the deductive sense of the term cannot be established
144 because of the exceptions that taint them, it is important for the
145 researcher and the practitioner to "mine into his data" in order to
146 identify sufficiently reliable rules (kinds of "partial theorems",
147 inductions) to be able to conjecture\footnote{"The exception confirms the rule", as the popular saying goes, in the sense that there would be no exceptions if there were no rule} a possible causal relationship,
148 a genesis, to describe, structure a population and make the assumption
149 of a certain stability for descriptive and, if possible, predictive
150 purposes.
151 But this excavation requires the development of methods to guide it
152 and to free it from trial and error and empiricism.
153
154
155 \subsection{Mathematization}
156
157 To do this, following the example of the I.C. Lerman similarity
158 measurement method \cite{Lerman,Lermanb}, following the classic
159 approach in non-parametric tests (e. g. Fischer, Wilcoxon, etc.), we
160 define~\cite{Grasb,Grasf} the confirmatory quality measure of the
161 implicative relationship $a \Rightarrow b$ from the implausibility of
162 the occurrence in the data of the number of cases that invalidate it,
163 i.e. for which $a$ is verified without $b$ being verified. This
164 amounts to comparing the difference between the quota and the
165 theoretical if only chance occurred\footnote{"...[in agreement with
166     Jung] if the frequency of coincidences does not significantly
167   exceed the probability that they can be calculated by attributing
168   them solely by chance to the exclusion of hidden causal
169   relationships, we certainly have no reason to suppose the existence
170   of such relationships.", H. Atlan~\cite{Atlana}}.
171 But when analyzing data, it is this gap that we take into account and
172 not the statement of a rejection or null hypothesis eligibility.
173 This measure is relative to the number of data verifying $a$ and not
174 $b$ respectively, the circumstance in which the involvement is
175 precisely put in default.
176 It quantifies the expert's "astonishment" at the unlikely small number
177 of counter-examples in view of the supposed independence between the
178 variables and the numbers involved.
179
180 Let us be clear. A finite set $V$ of $v$ variables is given: $a$, $b$,
181 $c$,...
182 In the classical paradigmatic situation and initially retained, it is
183 about the performance (success-failure) to items of a questionnaire.
184 To a finite set $E$ of $n$ subjects $x$, functions of the type : $x
185 \rightarrow a(x)$ where $a(x) = 1$ (or $a(x) = true$) if $x$ satisfies
186 or has the character $a$ and $0$ (or $a(x) = false$) otherwise are
187 associated by abuse of writing.
188 In artificial intelligence, we will say that $x$ is an example or an
189 instance for $a$ if $a(x) = 1$ and a counter-example if not.
190
191
192 The $a \Rightarrow b$ rule is logically true if for any $x$ in the
193 sample, $b(x)$ is null only if $a(x)$ is also null; in other words if
194 set $A$ of the $x$ for which $a(x)=1$ is contained in set $B$ of the
195 $x$ for which $b(x)=1$.
196 However, this strict inclusion is only exceptionally observed in the
197 pragmatically encountered experiments.
198 In the case of a knowledge questionnaire, we could indeed observe a
199 few rare students passing an item $a$ and not passing item $b$,
200 without contesting the tendency to pass item $b$ when we have passed
201 item $a$.
202 With regard to the cardinals of $E$ (of size $n$), but also of $A$ (or
203 $n_a$) and $B$ (or $n_b$), it is therefore the "weight" of the
204 counter-examples (or) that must be taken into account in order to
205 statistically accept whether or not to keep the quasi-implication or
206 quasi-rule  $a \Rightarrow b$.  Thus, it is from the dialectic of
207 example-counter-examples that the rule appears as the overcoming of
208 contradiction.
209
210 \subsection{Formalization}
211
212 To formalize this quasi-rule, we consider any two parts $X$ and $Y$ of
213 $E$, chosen randomly and independently (absence of a priori link
214 between these two parts) and of the same respective cardinals as $A$
215 and $B$. Let $\overline{Y}$ and $\overline{B}$ be the respective complementary of $Y$ and $B$ in $E$ of the same cardinal $n_{\overline{b}}= n-n_b$.
216
217 We will then say:
218
219 \definition $a \Rightarrow b$ is acceptable at confidence level
220 $1-\alpha$ if and only if
221 $$Pr[Card(X\cap \overline{Y})\leq card(A\cap \overline{B})]\leq \alpha$$
222
223 \begin{figure}[htbp]
224   \centering
225 \includegraphics[scale=0.34]{chap2fig1.png}
226  \caption{The dark grey parts correspond to the counter-examples of the
227    implication $a \Rightarrow b$}
228 \label{chap2fig1}      
229 \end{figure}
230
231 It is established \cite{Lermanb} that, for a certain drawing process,
232 the random variable $Card(X\cap \overline{Y})$ follows the Poisson law
233 of parameter $\frac{n_a n_{\overline{b}}}{n}$.
234 We achieve this same result by proceeding differently in the following
235 way:
236
237 Note $X$ (resp. $Y$) the random subset of binary transactions where
238 $a$ (resp. $b$) would appear, independently, with the frequency
239 $\frac{n_a}{n}$ (resp. $\frac{n_b}{n}$).
240 To specify how the transactions specified in variables $a$ and $b$,
241 respectively $A$ and $B$, are extracted, for example, the following
242 semantically permissible assumptions are made regarding the
243 observation of the event: $[a=1~ and~ b=0]$. $(A\cap
244 \overline{B})$\footnote{We then note $\overline{v}$ the variable
245   negation of $v$  (or $not~ v$) and $\overline{P}$ the complementary
246   part of the part P of E.} is the subset of transactions,
247 counter-examples of implication $a \Rightarrow b$: 
248
249 Assumptions:
250 \begin{itemize}
251 \item h1: the waiting times of an event $[a~ and~ not~ b]$ are independent
252   random variables;
253 \item h2: the law of the number of events occurring in the time
254   interval $[t,~ t+T[$ depends only on T;
255 \item h3: two such events cannot occur simultaneously
256 \end{itemize}
257
258 It is then demonstrated (for example in~\cite{Saporta}) that the
259 number of events occurring during a period of fixed duration $n$
260 follows a Poisson's law of parameter $c.n$ where $c$ is called the
261 rate of the apparitions process during the unit of time.
262
263
264 However, for each transaction assumed to be random, the event $[a=1]$
265 has the probability of the frequency $\frac{n_a}{n}$, the event[b=0]
266 has as probability the frequency, therefore the joint event $[a=1~
267   and~ b=0]$ has for probability estimated by the frequency
268 $\frac{n_a}{n}. \frac{n_{\overline{b}}}{b}$ in the hypothesis of absence of an a priori link between a and b (independence).
269
270 We can then estimate the rate $c$ of this event by $\frac{n_a}{n}. \frac{n_{\overline{b}}}{b}$.
271
272 Thus for a duration of time $n$, the occurrences of the event $[a~ and~ not~b]$ follow a Poisson's law of parameter : 
273 $$\lambda = \frac{n_a.n_{\overline{b}}}{n}$$
274
275 As a result, $Pr[Card(X\cap \overline{Y})= s]= e^{-\lambda}\frac{\lambda^s}{s!}$
276
277 Consequently, the probability that the hazard will lead, under the
278 assumption of the absence of an a priori link between $a$ and $b$, to
279 more counter-examples than those observed is:
280
281 $$Pr[Card(X\cap \overline{Y})\leq card(A\cap \overline{B})] =
282 \sum^{card(A\cap \overline{B})}_{s=0}  e^{-\lambda}\frac{\lambda^s}{s!} $$
283
284  But other legitimate drawing processes lead to a binomial law, or
285  even a hypergeometric law (itself not semantically adapted to the
286  situation because of its symmetry). Under suitable convergence
287  conditions, these two laws are finally reduced to the Poisson Law
288  above (see Annex to this chapter).
289  
290 If $n_{\overline{b}}\neq 0$, we reduce and center this Poison variable
291 into the variable:
292
293 $$Q(a,\overline{b})= \frac{card(X \cap \overline{Y})) -  \frac{n_a.n_{\overline{b}}}{n}}{\sqrt{\frac{n_a.n_{\overline{b}}}{n}}}  $$
294
295 In the experimental realization, the observed value of
296 $Q(a,\overline{b})$ is $q(a,\overline{b})$.
297 It estimates a gap between the contingency $(card(A\cap
298 \overline{B}))$ and the value it would have taken if there had been
299 independence between $a$ and $b$.
300
301 \definition $$q(a,\overline{b}) = \frac{n_{a \wedge \overline{b}}-  \frac{n_a.n_{\overline{b}}}{n}}{\sqrt{\frac{n_a.n_{\overline{b}}}{n}}}$$
302 is called the implication index, the number used as an indicator of
303 the non-implication of $a$ to $b$.
304 In cases where the approximation is properly legitimized (for example
305 $\frac{n_a.n_{\overline{b}}}{n}\geq 4$), the variable
306 $Q(a,\overline{b})$ approximately follows the reduced centered normal
307 distribution. The intensity of implication, measuring the quality of
308 $a\Rightarrow b$, for $n_a\leq n_b$ and  $nb \neq n$, is then defined
309 from the index $q(a,\overline{b})$ by:
310
311 \definition 
312 The implication intensity  that measures the inductive quality of a
313 over b is:
314 $$\varphi(a,b)=1-Pr[Q(a,\overline{b})\leq q(a,\overline{b})] =
315 \frac{1}{\sqrt{2 \pi}} \int^{\infty}_{ q(a,\overline{b})}
316 e^{-\frac{t^2}{2}} dt,~ if~ n_b \neq n$$
317 $$\varphi(a,b)=0,~ otherwise$$
318 As a result, the definition of statistical implication becomes:
319 \definition 
320 Implication  $a\Rightarrow b$ is admissible at confidence level
321 $1-\alpha $ if and only if: 
322 $$\varphi(a,b)\geq 1-\alpha$$
323
324
325 It should be recalled that this modeling of quasi-implication measures
326 the astonishment to note the smallness of counter-examples compared to
327 the surprising number of instances of implication.
328 It is a measure of the inductive and informative quality of
329 implication. Therefore, if the rule is trivial, as in the case where
330 $B$ is very large or coincides with $E$, this astonishment becomes
331 small.
332 We also demonstrate~\cite{Grasf} that this triviality results in a
333 very low or even zero intensity of implication: If, $n_a$ being fixed
334 and $A$ being included in $B$, $n_b$ tends towards $n$ ($B$ "grows"
335 towards $E$), then $\varphi(a,b)$ tends towards $0$. We therefore
336 define, by "continuity":$\varphi(a,b) = 0$ if $n_b = n$. Similarly, if
337 $A\subset B$, $\varphi(a,b)$ may be less than $1$ in the case where
338 the inductive confidence, measured by statistical surprise, is
339 insufficient.
340
341 {\bf \remark Total correlation, partial correlation}
342
343
344 We take here the notion of correlation in a more general sense than
345 that used in the domain that develops the linear correlation
346 coefficient (linear link measure) or the correlation ratio (functional
347 link measure).
348 In our perspective, there is a total (or partial) correlation between
349 two variables $a$ and $b$ when the respective events they determine
350 occur (or almost occur) at the same time, as well as their opposites.
351 However, we know from numerical counter-examples that correlation and
352 implication do not come down to each other, that there can be
353 correlation without implication and vice versa~\cite{Grasf} and below.
354 If we compare the implication coefficient and the linear correlation
355 coefficient algebraically, it is clear that the two concepts do not
356 coincide and therefore do not provide the same
357 information\footnote{"More serious is the logical error inferred from
358   a correlation found to the existence of a causality" writes Albert
359   Jacquard in~\cite{Jacquard}, p.159. }.
360
361 The quasi-implication of non-symmetric index $q(a,\overline{b})$ does
362 not coincide with the correlation coefficient $\rho(a, b)$ which is
363 symmetric and which reflects the relationship between variables a and
364 b. Indeed, we show~\cite{Grasf} that if $q(a,\overline{b}) \neq 0$
365 then
366 $$\frac{\rho(a,b)}{q(a,\overline{b})} = \sqrt{\frac{n}{n_b
367     n_{\overline{a}}}} q(a,\overline{b})$$
368 With the correlation considered from the point of view of linear
369 correlation, even if correlation and implication are rather in the
370 same direction, the orientation of the relationship between two
371 variables is not transparent because it is symmetrical, which is not
372 the bias taken in the SIA.
373 From a statistical relationship given by the correlation, two opposing
374 empirical propositions can be deduced.
375
376 The following dual numerical situation clearly illustrates this:
377
378
379 \begin{table}[htp]
380 \center
381 \begin{tabular}{|l|c|c|c|}\hline
382 \diagbox[width=4em]{$a_1$}{$b_1$}&
383   1 & 0 & marge\\ \hline
384   1 & 96 & 4& 100 \\ \hline
385   0 & 50 & 50& 100 \\ \hline
386   marge & 146 & 54& 200 \\ \hline
387 \end{tabular} ~ ~ ~ ~ ~ ~ ~ \begin{tabular}{|l|c|c|c|}\hline
388 \diagbox[width=4em]{$a_2$}{$b_2$}&
389   1 & 0 & marge\\ \hline
390   1 & 94 & 6& 100 \\ \hline
391   0 & 52 & 48& 100 \\ \hline
392   marge & 146 & 54& 200 \\ \hline
393 \end{tabular}
394
395 \caption{Numeric example of difference between implication and
396   correlation}
397 \label{chap2tab1}
398 \end{table}
399
400 In Table~\ref{chap2tab1}, the following correlation and implications
401 can be computed:\\
402 Correlation $\rho(a_1,b_1)=0.468$, Implication
403 $q(a_1,\overline{b_1})=-4.082$\\
404 Correlation $\rho(a_2,b_2)=0.473$, Implication  $q(a_2,\overline{b_2})=-4.041$
405
406
407 Thus, we observe that, on the one hand, $a_1$ and $b_1$ are less
408 correlated than $a_2$ and $b_2$ while, on the other hand, the
409 implication intensity of $a_1$ over $b_1$ is higher than that of $a_2$
410 over $b_2$ since $q1 <q2$.
411
412 On this subject, Alain Ehrenberg in~\cite{Ehrenberg} writes: "The
413 finding of a correlation does not remove the ambiguity between" when I do $X$, my brain is in state $Y$" and "if I do $X$, it is because my brain is in state $Y$", that is, between something that happens in my brain when I do an action.
414
415 \remark  Remember that we consider not only conjunctions of variables
416 of the type "$a$ and $b$" but also disjunctions such as "($a$ and $b$)
417 or $c$..." in order to model phenomena that are concepts as it is done
418 in learning or in artificial intelligence.
419 The associated calculations remain compatible with the logic of the
420 proposals linked by connectors.
421
422 \remark Unlike the Loevinger Index~\cite{Loevinger}  and conditional
423 probability $(Pr[B/A])=1$ and all its derivatives, the implication
424 intensity varies, non-linearly, with the expansion of sets $E$, $A$
425 and $B$ and weakens with triviality (see Definition 2.3).
426 Moreover, it
427 is resistant to noise, especially around $0$ for, which can only make
428 the relationship we want to model and establish statistically
429 credible.
430 Finally, as we have seen, the inclusion of $A$ in $B$ does not ensure
431 maximum intensity, the inductive quality may not be strong, whereas
432 $Pr[B/A]$ is equal to $1$~\cite{Grasm,Guillet}.
433 In paragraph 5, we study more closely the problem of the sensitivity
434 and stability of the implication index as a function of small
435 variations in the parameters involved in the study of its
436 differential.
437