]> AND Private Git Repository - book_chic.git/commitdiff
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
new
authorcouturie <you@example.com>
Tue, 2 Apr 2019 18:37:55 +0000 (20:37 +0200)
committercouturie <you@example.com>
Tue, 2 Apr 2019 18:37:55 +0000 (20:37 +0200)
book.tex
chapter2.tex
references.tex

index 0cdc1fd2cac72b2beb6add5fce4fe138f31fdd60..83adc5b29330cef2051c7f4445734dbfbd06ae42 100644 (file)
--- a/book.tex
+++ b/book.tex
@@ -20,6 +20,7 @@
 \usepackage{type1cm}
 \usepackage{caption}
 \usepackage[utf8]{inputenc}
+\usepackage{amssymb}
 
 \usepackage{makeidx}         % allows index generation
 \usepackage{graphicx}        % standard LaTeX graphics tool
index 096f51f7d1d2ab5ac234e26997f9117c6303de78..d5f45e30830a95227d53ff6786838a9fb286b3cb 100644 (file)
@@ -435,3 +435,313 @@ and stability of the implication index as a function of small
 variations in the parameters involved in the study of its
 differential.
 
+\section{Case of modal and frequency variables}
+\subsection{Founding situation}
+
+Marc Bailleul's (1991-1994) research focuses in particular on the
+representation that mathematics teachers have of their own teaching.
+In order to highlight it, meaningful words are proposed to them that
+they must prioritize.
+Their choices are no longer binary, the words chosen by any teacher
+are ordered at least at the most representative.
+Mr. Bailleul's question then focuses on questions of the type: "if I
+choose this word with this importance, then I choose this other word
+with at least equal importance".
+It was therefore necessary to extend the notion of statistical
+implication to variables other than binary.
+This is the case for modal variables that are associated with
+phenomena where the values $a(x)$ are numbers in the interval $[0, 1]$
+and describe degrees of belonging or satisfaction as are fuzzy logic,
+for example, linguistic modifiers "maybe", "a little", "sometimes",
+etc.
+This problem is also found in situations where the frequency of a
+variable reflects a preorder on the values assigned by the subjects to
+the variables presented to them.
+These are frequency variables that are associated with phenomena where
+the values of $a(x)$ are any positive real values.
+This is the case when one considers a student's percentage of success
+in a battery of tests in different areas.
+
+\subsection{Formalization}
+
+J.B. Lagrange~\cite{Lagrange} has demonstrated that, in the modal
+case,
+\begin{itemize}
+  \item if $a(x)$ and $\overline{b}(x)$ are the values taken at $x$ by
+    the modal variables $a$ and $\overline{b}$, with $(x)=1-b(x)$
+  \item if $s^2_a$ and $s_{\overline{b}}^2$ are the empirical variances of variables $a$ and $\overline{b}$
+then  the implication index, which he calls propensity index, becomes: 
+
+\definition
+$$q(a,\overline{b}) = \frac{\sum_{x\in E} a(x)\overline{b}(x)  -
+  \frac{n_a n_{\overline{b}}}{n}}
+{\sqrt{\frac{(n^2s_a^2+n_a^2)(n^2+s_{\overline{b}}^2 + n_{\overline{b}}^2)}{n^3}}}$$
+is the index of propensity of modal variables.
+\end{itemize}
+
+J.B. Lagrange also proves that this index coincides with the index
+defined previously in the binary case if the number of modalities of a
+and b is precisely 2, because in this case :\\
+$n^2s_a^2+n_a^2=n n_a$,~ ~ $ n^2+s_{\overline{b}}^2 + n_{\overline{b}}=n
+  n_{\overline{b}}$~ ~ and ~ ~ $\sum_{x\in E} a(x)\overline{b}(x)=n_{a \wedge
+  \overline{b}}$.
+
+ This solution provided in the modal case is also applicable to the
+ case of frequency variables, or even positive numerical variables,
+ provided that the values observed on the variables, such as a and b,
+ have been normalized, the normalization in $[0, 1]$ being made from the maximum of the value taken respectively by $a$ and $b$ on set $E$.
+
+\remark
+In~\cite{Regniera}, we consider rank variables that reflect a
+total order between choices presented to a population of judges.
+Each of them must order their preferential choice among a set of
+objects or proposals made to them.
+An index measures the quality of the statement of the type: "if object
+$a$ is ranked by judges then, generally, object $b$ is ranked higher
+by the same judges".
+Proximity to the previous issue leads to an index that is relatively
+close to the Lagrange index, but better adapted to the rank variable
+situation.
+
+
+\section{Cases of on-interval and on-interval variables}
+\subsection{Variables-on-intervals}
+\subsubsection{Founding situation}
+
+For example, the following rule is sought to be extracted from a
+biometric data set, estimating its quality: "if an individual weighs
+between $65$ and $70kg$ then in general he is between $1.70$ and
+$1.76m$ tall".
+A similar situation arises in the search for relationships between
+intervals of student performance in two different subjects.
+The more general situation is then expressed as follows: two real
+variables $a$ and $b$ take a certain number of values over 2 finite
+intervals $[a1,~ a2]$ and $[b1,~ b2]$. Let $A$ (resp. $B$) be all the
+values of $a$ (resp. $b$) observed over $[a1,~ a2]$ (resp. $[b1,~
+  b2]$).
+For example, here, a represents the weights of a set of n subjects and b the sizes of these same subjects.
+
+Two problems arise:
+\begin{enumerate}
+\item  Can adjacent sub-intervals of $[a1,~ a2]$ (resp. $[b1,~ b2]$)
+  be defined so that the finest partition obtained best respects the
+  distribution of the values observed in $[a1,~ a2]$ (resp. $[b1,~ b2]$)?
+\item  Can we find the respective partitions of $[a1,~ a2]$ and $[b1,~
+  b2]$ made up of meetings of the previous adjacent sub-intervals,
+  partitions that maximize the average intensity of involvement of the
+  sub-intervals of one on sub-intervals on the other belonging to
+  these partitions?
+\end{enumerate}
+
+We answer these two questions as part of our problem by choosing the
+criteria to optimize in order to satisfy the optimality expected in
+each case.
+To the first question, many solutions have been provided in other
+settings (for example, by~\cite{Lahaniera}).
+
+\subsubsection{First problem}
+
+We will look at the interval $[a1,~ a2]$ assuming it has a trivial
+initial partition of sub-intervals of the same length, but not
+necessarily of the same frequency distribution observed on these
+sub-intervals.
+Note $P_0 = \{A_{01},~ A_{02},~ ...,~ A_{0p}\}$, this partition in $p$
+sub-intervals.
+We try to obtain a partition of $[a1,~ a2]$ into $p$ sub-intervals
+$\{A_{q1},~ A_{q2},~ ...,~ A_{qp}\}$ in such a way that within each
+sub-interval there is good statistical homogeneity (low intra-class
+inertia) and that these sub-intervals have good mutual heterogeneity
+(high inter-class inertia).
+We know that if one of the criteria is verified, the other is
+necessarily verified (Koenig-Huyghens theorem).
+This will be done by adopting a method directly inspired by the
+dynamic cloud method developed by Edwin Diday~\cite{Diday} (see also
+\cite{Lebart} and adapted to the current situation. This results in
+the optimal partition targeted.
+
+\subsubsection{Second problem}
+
+It is now assumed that the intervals $[a1,~ a2]$ and $[b1,~ b2]$ are
+provided with optimal partitions $P$ and $Q$, respectively, in the
+sense of the dynamic clouds.
+Let $p$ and $q$ be the respective numbers of sub-intervals composing
+$P$ and $Q$.
+From these two partitions, it is possible to generate $2^{p-1}$ and
+$2^{q-1}$ partitions obtained by iterated meetings of adjacent
+sub-intervals of $P$ and $Q$ \footnote{It is enough to consider the tree structure of which $A_1$ is the root, then to join it or not to $A_2$ which itself will or will not be joined to $A_3$, etc. There are therefore $2^{p-1}$ branches in this tree structure.} respectively. 
+We calculate the respective intensities of implication of each
+sub-interval, whether or not combined with another of the first
+partition, on each sub-interval, whether or not combined with another
+of the second, and then the values of the intensities of the
+reciprocal implications.
+There are therefore a total of $2.2^{p-1}.2^{q-1}$ families of
+implication intensities, each of which requires the calculation of all
+the elements of a partition of $[a1,~ a2]$ on all the elements of one
+of the partitions of $[b1,~ b2]$ and vice versa.
+The optimality criterion is chosen as the geometric mean of the
+intensities of implication, the mean associated with each pair of
+partitions of elements, combined or not, defined inductively.
+We note the two maxima obtained (direct implication and its
+reciprocal) and we retain the two associated partitions by declaring
+that the implication of the variable-on-interval $a$ on the
+variable-on-interval $b$ is optimal when the interval $[a1,~ a2]$
+admits the partition corresponding to the first maximum and that the
+optimal reciprocal involvement is satisfied for the partition of
+$[b1,~ b2]$ corresponding to the second maximum.
+
+\section{Interval-variables}
+\subsection{Founding situation}
+Data are available from a population of $n$ individuals (who may be
+each or some of the sets of individuals, e.g. a class of students)
+according to variables (e.g. grades over a year in French, math,
+physics,..., but also: weight, height, chest size,...).
+The values taken by these variables for each individual are intervals
+of positive real values.
+For example, individual $x$ gives the value $[12,~ 15.50]$ to the math
+score variable.
+E. Diday would speak on this subject of symbolic variables $p$ at
+intervals defined on the population.
+
+
+We try to define an implication of intervals, relative to a variable
+$a$, which are themselves observed intervals, towards other similarly
+defined intervals and relative to another variable $b$.
+This will make it possible to measure the implicit, and therefore
+non-symmetric, association of certain interval(s) of the variable a
+with certain interval(s) of the variable $b$, as well as the
+reciprocal association from which the best one will be chosen for each
+pair of sub-intervals involved, as just described in §4.1.
+
+For example, it will be said that the sub-interval $[2, 5.5]$ of
+mathematical scores generally implies the sub-interval $[4.25, 7.5]$
+of physical scores, both of which belong to an optimal partition in
+terms of the explained variance of the respective value ranges $[1,
+  18]$ and $[3, 20]$ taken in the population.
+Similarly, we will say that $[14.25, 17.80]$ in physics most often
+implies $[16.40, 18]$ in mathematics. 
+
+
+\subsection{Algorithm}
+
+By following the problem of E. Diday and his collaborators, if the
+values taken according to the subjects by the variables $a$ and $b$
+are of a symbolic nature, in this case intervals of $\mathbb{R}^+$, it
+is possible to extend the above algorithms\cite{Grasi}.
+For example, variable $a$ has weight intervals associated with it and
+variable $b$ has size intervals associated with variable $b$, due to
+inaccurate measurements.
+By combining the intervals $I_x$ and $J_x$ described by the subjects
+$x$ of $E$ according to each of the variables $a$ and $b$
+respectively, we obtain two intervals $I$ and $J$ covering all
+possible values of $a$ and $b$.
+On each of them a partition can be defined in a certain number of
+intervals respecting as above a certain optimality criterion.
+For this purpose, the intersections of intervals such as $I_x$ and
+$J_x$ with these partitions will be provided with a distribution
+taking into account the areas of the common parts.
+This distribution may be uniform or of another discrete or continuous
+type.
+But thus, we are back in search of rules between two sets of
+variables-on-intervals that take, as previously in §4.1, their values
+on $[0,~ 1]$ from which we can search for optimal implications.
+
+
+\remark Whatever the type of variable considered, there is often a
+problem of overabundance of variables and therefore difficulty of
+representation.
+For this reason, we have defined an equivalence relationship on all
+variables that allows us to substitute a so-called leader variable for
+an equivalence class~\cite{Grask}.
+
+\section{Variations in the implication index q according to the 4 occurrences}
+
+In this paragraph, we examine the sensitivity of the implication index
+to disturbances in its parameters.
+
+\subsection{Stability of the implication index}
+To study the stability of the implication index $q$ is to examine its
+small variations in the vicinity of the $4$ observed integer values
+($n$, $n_a$, $n_b$, $n_{a \wedge \overline{b}}$).
+To do this, it is possible to perform different simulations by
+crossing these 4 integer variables on which $q$ depends~\cite{Grasx}.
+But let us consider these variables as variables with real values and
+$q$ as a function that can be continuously differentiated from these
+variables, which are themselves forced to respect inequalities: $0\leq
+n_a \leq n_b$ and $n_{a \wedge \overline{b}} \leq inf\{n_a,~ n_b\}$ and
+$sup\{n_a,~ n_b\} \leq n$.
+The function $q$ then defines a scalar and vector field on
+$\mathbb{R}^4$ as an affine and vector space on itself.
+In the likely hypothesis of an evolution of a nonchaotic process of
+data collection, it is then sufficient to examine the differential of
+$q$ with respect to these variables and to keep its restriction to the
+integer values of the parameters of the relationship $a \Rightarrow b$.
+The differential of $q$, in the sense of Fréchet's
+topology\footnote{Fréchet's topology allows $\mathbb{N}$ sections,
+  i.e. subsets of naturals of the form $\{n,~ n+1,~ n+2,~ ....\}$, to be
+  used as a filter base, while the usual topology on $\mathbb{R}$
+  allows real intervals for filters.
+  Thus continuity and derivability are perfectly defined and
+  operational concepts according to Fréchet's topology in the same way
+  as they are with the usual topology.}, is expressed as follows by
+the scalar product:
+
+$$dq = \frac{\partial q}{\partial n}dn + \frac{\partial q}{\partial
+  n_a}dn_a +  \frac{\partial q}{\partial n_b}dn_b +  \frac{\partial
+  q}{\partial n_{a \wedge \overline{b}}}dn_{a \wedge \overline{b}} = grad~q.dM\footnote{By a mechanistic metaphor, we will say that $dq$ is the elementary work of $q$ for a movement $dM$ (see chapter 14 of this book).}$$
+
+where $M$ is the coordinate point $(n,~ n_a,~ n_b,~ n_{a \wedge
+  \overline{b}})$ of the vector scalar field $C$, $dM$ is the
+component vector the differential increases of these occurrence
+variables, and $grad~ q$ the component vector the partial derivatives
+of these occurrence variables.
+
+The differential of the function $q$ therefore appears as the scalar product of its gradient and the increase of $q$ on the surface representing the variations of the function $q(n,~ n_a,~ n_b,~ n_{a \wedge
+  \overline{b}})$. Thus, the gradient of $q$ represents its own
+variations according to those of its components, the 4 cardinals of
+the assemblies $E$, $A$, $B$ and $card(A\cap \overline{B})$. It
+indicates the direction and direction of growth or decrease of $q$ in
+the space of dimension 4. Remember that it is carried by the normal to
+the surface of level $q~ =~ cte$.
+
+If we want to study how $q$ varies according to $ n_{\overline{b}}$,
+we just have to replace $n_b$ by $n-n_b$ and therefore change the sign
+of the derivative of $n_b$ in the partial derivative. In fact, the
+interest of this differential lies in estimating the increase
+(positive or negative) of $q$ that we note $\Delta q$ in relation to
+the respective variations $\Delta n$, $\Delta n_a$, $\Delta n_b$ and
+$\Delta n_{a \wedge
+  \overline{b}}$. So we have: 
+
+
+$$\Delta q= \frac{\partial q}{\partial n} \Delta n + \frac{\partial
+  q}{\partial n_a} \Delta n_a  + \frac{\partial
+  q}{\partial n_b} \Delta n_b + \frac{\partial
+  q}{\partial n_{a \wedge
+  \overline{b}}} \Delta n_{a \wedge
+  \overline{b}} +o(\Delta q)$$
+
+where $o(\Delta q)$ is an infinitely small first order. 
+Let us examine the partial derivatives of $n_b$ and  $n_{a \wedge
+  \overline{b}}$ the number of counter-examples. We get:
+
+$$ \frac{\partial
+  q}{\partial n_b} = \frac{1}{2} n_{a \wedge
+  \overline{b}} (\frac{n_a}{n})^{-\frac{1}{2}} (n-n_b)^{-\frac{3}{2}}
++ \frac{1}{2} (\frac{n_a}{n})^{\frac{1}{2}} (n-n_b)^{-\frac{1}{2}} > 0  $$
+
+
+$$ \frac{\partial
+  q}{\partial n_{a \wedge
+  \overline{b}}}    = \frac{1}{\sqrt{\frac{n_a n_{\overline{b}}}{n}}}
+= \frac{1}{\sqrt{\frac{n_a (n-n_b)}{n}}} > 0 $$
+
+Thus, if the increases $\Delta nb$ and $\Delta n_{a \wedge
+  \overline{b}}$ are positive, the increase of $q(a,\overline{b})$ is
+also positive. This is interpreted as follows: if the number of
+examples of $b$ and the number of counter-examples of implication
+increase then the intensity of implication decreases for $n$ and $n_a$
+constant. In other words, this intensity of implication is maximum at
+observed values $n_b$ and $ n_{a \wedge
+  \overline{b}}$ and minimum at values $n_b+\Delta n_b$ and  $n_{a \wedge
+  \overline{b}}+ n_{a \wedge
+  \overline{b}}$.
index faba5e301de3243b676cbccc5305ec24a4f3dca3..7989cb08af4df751447d5884b2cf4fa4d3002c26 100644 (file)
@@ -86,6 +86,8 @@
   d’implications entre concepts, L’Analyse Statistique Implicative,
   des Sciences dures aux Sciences Humaines et Sociales, R. Gras (dir.), Cépaduès Ed. Toulouse, p. 339-448, ISBN: 978.2.36493.577.8.
 
+\bibitem{Diday} Diday E. (1972) Nouvelles méthodes et nouveaux concepts en classification automatique et reconnaissance des formes,  Thèse d'Etat, Université de Paris VI, 1972.
+  
 
 \bibitem{Ehrenberg} Ehrenberg A. (2008) Sciences Humaines, n° 198, nov. 2008. 
   
@@ -200,7 +202,7 @@ Cépaduès Ed. Toulouse, p. 195-208, ISBN: 978.2.36493.577.8.
 \bibitem{Lauvergeon} Lauvergeon A. (2012) La femme qui résiste, Plon.
 
   
-
+\bibitem{Lebart} Lebart L., Morineau A. and Piron M., Statistique exploratoire multidimensionnelle, Dunod.
 
 \bibitem{Lerman} Lerman, I. C. (1970) Sur l'analyse des données préalable à une classification automatique (proposition d'une nouvelle mesure de similarité). Mathématiques et sciences humaines, 32, 5-15.