Figures/CHAPITRE_02.tex~

   1 \chapter{R\'esolution de syst\`emes lin\'eaires creux}
   2 \label{chap:sys_lin_creux}
   3
   4 %%-------------------------------------------------------------------------------------------------------%%
   5 %Introduction
   6 Les systèmes linéaires creux sont utilisés pour la modélisation de nombreux problèmes scientifiques ou industriels,
   7 comme la simulation des phénomènes de l'environnement et de la terre ou la transformation industrielle des
   8 fluides complexes ou non-newtoniens. De plus, la résolution de ces problèmes fait souvent appel à la résolution
   9 de ces systèmes linéaires, qui est considérée comme le processus le plus coûteux en termes de temps de calcul
  10 et d'espace mémoire. Par conséquent, la résolution de systèmes linéaires creux doit être aussi efficace que
  11 possible, afin de pouvoir traiter des problèmes de taille toujours croissante.
  12
  13 Il existe, dans le jargon de l'analyse numérique, différentes méthodes de résolution des systèmes linéaires
  14 creux. Cependant, le choix d'une méthode de résolution est souvent guidé par les propriétés de la matrice creuse
  15 du système à résoudre (structure, symétrie, densité, dimension, etc), la vitesse et la précision
  16 de résolution souhaitées. Toutefois, un bon choix de la méthode est aussi guidé par la taille de ces systèmes,
  17 qui ralentit davantage le processus de résolution. Par conséquence, ces méthodes doivent être faciles à paralléliser
  18 pour exploiter la puissance de calcul et la capacité mémoire des plateformes de calcul parallèle.
  19
  20 Dans le présent chapitre, nous décrivons deux classes de méthodes de résolution dans
  21 la section~\ref{sec:methodes_resolu}, à savoir les méthodes directes et les méthodes itératives. Dans la
  22 section~\ref{sec:stockage}, nous montrons les différentes structures de données des matrices creuses
  23 en mémoire, qui permettent d'optimiser l'occupation d'espace mémoire et les accès en lecture/écriture
  24 à la mémoire. Enfin dans la section~\ref{sec:parallelisation}, nous présentons la parallélisation des
  25 méthodes itératives pour la résolution de systèmes linéaires creux de grande taille sur les plateformes de
  26 calcul parallèle.
  27 %%-------------------------------------------------------------------------------------------------------%%
  28
  29 %%-------------------------------------------------------------------------------------------------------%%
  30 \section{Méthodes de résolution}
  31 \label{sec:methodes_resolu}
  32 Soit le système linéaire creux suivant:
  33 \begin{equation}
  34 Ax=b,
  35 \label{eq:linear_syst}
  36 \end{equation}
  37 où $A\in\mathbb{R}^{n\times n}$ est une matrice carrée creuse inversible, $x\in\mathbb{R}^{n}$ est le vecteur
  38 solution, $b\in\mathbb{R}^{n}$ est le vecteur du second membre et $n\in\mathbb{N}$ est un grand entier
  39 naturel. Les méthodes de résolution des systèmes linéaires sont, plus ou moins, classifiées en deux grandes
  40 familles: les méthodes \emph{directes} et les méthodes \emph{itératives}. Dans l'analyse numérique,
  41 un algorithme permettant de résoudre un système linéaire creux est appelé un \emph{solveur linéaire creux direct}
  42 ou \emph{itératif}, selon le type de la méthode de résolution qu'il utilise.
  43
  44 \subsection{Méthodes directes}
  45 Les méthodes directes sont les méthodes numériques les plus anciennes pour la résolution des systèmes
  46 linéaires. De plus, jusqu'aux années quatre-vingts,
  47 %dans les années précédentes,
  48 elles ont souvent été préférées aux méthodes itératives,
  49 en raison de leur \emph{robustesse} et de leur comportement \emph{prévisible}. En effet, que ce soit
  50 pour des matrices denses ou creuses, ces méthodes permettent d'obtenir, théoriquement en l'absence des erreurs
  51 d'arrondi, une solution \emph{exacte} en un nombre d'opérations élémentaires \textit{fini} et \emph{connu a priori}.
  52 La plupart des méthodes directes sont basées, principalement, sur deux étapes de calcul: la factorisation
  53 de la matrice suivant ses propriétés (symétrie, définie positive, etc) et la résolution
  54 par des substitutions successives~\cite{ref1}.
  55
  56 Parmi les solveurs directs les plus utilisés, nous pouvons citer le \textit{solveur LU} basé sur la
  57 méthode de factorisation \textit{LU}~\cite{ref2}. Dans un premier temps, ce solveur procède à la factorisation de
  58 la matrice des coefficients $A$ du système linéaire à résoudre (\ref{eq:linear_syst}). Dans cette étape,
  59 la matrice $A$ est décomposée en deux matrices triangulaires inférieure $L=(l_{ij})_{1\leqslant i,j\leqslant n}$
  60 et supérieure $U=(u_{ij})_{1\leqslant i,j\leqslant n}$, de façon à ce que la matrice $A$ puisse s'écrire sous
  61 forme d'un produit des deux matrices $L$ et $U$. Une fois la factorisation établie, le solveur \textit{LU}
  62 résout le système linéaire en deux étapes:
  63 \begin{itemize*}
  64 \item la résolution du système $Ly=b$ par l'algorithme de \emph{descente} (substitutions successives
  65 avant ou résolution de haut vers le bas),
  66 \item puis, la résolution du système $Ux=y$ par l'algorithme de \emph{remontée} (substitutions successives
  67 arrière ou résolution de bas vers le haut).
  68 \end{itemize*}
  69
  70 Cependant, les méthodes directes de résolution des systèmes linéaires creux sont souvent plus
  71 compliquées que celles des systèmes denses. La principale difficulté réside dans l'étape de factorisation
  72 de la matrice. En effet, durant la construction des deux facteurs triangulaires $L$ et $U$, certains
  73 zéros de la matrice creuse d'origine, $A$, peuvent devenir des valeurs non nulles dans les matrices $L$
  74 et $U$, ce que l'on appelle, communément, processus de \emph{remplissage}. Par conséquent, une mise en \oe uvre
  75 efficace d'un solveur direct creux dépend largement des structures de données en mémoire (formats de stockage)
  76 des valeurs non nulles des matrices $L$ et $U$. De ce fait, un solveur direct creux est généralement
  77 basé sur quatre étapes distinctes~\cite{ref3,ref4} au lieu de deux comme dans les solveurs denses:
  78 \begin{enumerate*}
  79  \item Réorganisation de la matrice $A$: qui consiste à réordonner les lignes et les colonnes de $A$,
  80 et donc les valeurs non nulles, de telle sorte que les facteurs $L$ et $U$ subissent peu de remplissage
  81 à l'étape de factorisation numérique;
  82  \item Factorisation symbolique: qui détermine a priori les structures de données appropriées aux valeurs
  83 non nulles des facteurs $L$ et $U$;
  84  \item Factorisation numérique: qui calcule les facteurs $L$ et $U$;
  85  \item Résolution du système linéaire creux: qui effectue les substitutions avant-arrière en utilisant
  86 les deux facteurs $L$ et $U$ calculés à l'étape précédente.
  87 \end{enumerate*}
  88 Dans le cas des matrices creuses symétriques et définies positives (valeurs propres strictement posistives),
  89 les quatres étapes peuvent être bien
  90 séparées comme dans le solveur \textit{CHOLMOD}~\cite{ref5}. Pour les matrices creuses asymétriques,
  91 les solveurs directs peuvent fusionner les étapes 2 et 3 en une seule étape comme les solveurs \textit{SuperLU}~\cite{ref6}
  92 et \textit{MUMPS}~\cite{ref20},
  93 ou même fusionner les étapes 1, 2 et 3 comme le solveur \textit{UMFPACK}~\cite{ref7}.
  94
  95 Toutefois, les méthodes directes ne sont pas bien adaptées pour la résolution des systèmes linéaires
  96 creux de très grandes dimensions, et en particulier, ceux associés aux problèmes tridimensionnels. En fait,
  97 l'occupation espace mémoire du processus de factorisation croît \textit{superlinéairement}
  98 avec la taille de la matrice et dépend fortement de la structure de cette dernière (positions des valeurs non nulles)
  99 pour réduire le remplissage. Hélas, quelque soit le nombre de fois que les coefficients de la
 100 matrice sont réordonnés, cela n'empêche pas le remplissage de croître rapidement et proportionnellement
 101 à la taille de la matrice. En outre, les solveurs directs sont très coûteux en termes de temps de résolution
 102 qui est de $\mathcal{O}(n^{3})$, où $n$ représente la taille du système. Dans ce cas, les méthodes itératives
 103 décrites dans la section~\ref{sec:iterative}, sont particulièrement plus utiles lorsque les systèmes linéaires
 104 à résoudre sont creux et de très grande dimension car, contrairement aux méthodes directes, aucun processus de remplissage n'est nécessaire.
 105
 106 \subsection{Méthodes itératives}
 107 \label{sec:iterative}
 108 Les méthodes itératives procédent par itérations successives
 109 d'un même bloc d'opérations élémentaires, au cours desquelles une séquence infinie de solutions approximatives
 110 $\{x^{(k)}\}_{k\geq0}$ est générée. A partir d'une solution initiale $x^{(0)}$ (choisie pour la première
 111 itération), une méthode itérative détermine à chaque itération
 112 $k\geq1$, une solution approximative, $x^{(k)}$, qui converge progressivement vers la solution exacte, $x^{*}$,
 113 du système linéaire~\ref{eq:linear_syst}, telle que:
 114 \begin{equation}
 115 x^{*}=\lim\limits_{k\to\infty}x^{(k)}=A^{-1}b\in\mathbb{R}^{n}.
 116 \end{equation}
 117
 118 A la différence d'une méthode directe, le nombre d'itérations d'une méthode itérative nécessaire pour
 119 atteindre la solution exacte du système linéaire à résoudre \textit{n'est pas connu} au préalable et
 120 peut être \textit{infini}. Cependant, dans la pratique, un solveur itératif donne souvent une solution
 121 approximative satisfaisant une précision requise et/ou après un nombre maximum d'itérations fixé a priori.
 122 Les critères d'arrêt les plus fréquemment utilisés par les solveurs itératifs sont les suivants:
 123 \begin{itemize}
 124   \item $\|x^{(k)}-x^{(k-1)}\|<\varepsilon$: erreur absolue,
 125   \item $\|x^{(k)}-x^{(k-1)}\|<\varepsilon\|x^{(k-1)}\|$: erreur relative,
 126   \item $\|b-Ax^{(k)}\|<\varepsilon\|b\|$: résidu de la solution.
 127 \end{itemize}
 128 où $x^{(k)}$ est la solution approximative obtenue à l'itération $k\leqslant K$, $K$ étant le nombre maximum
 129 d'itérations, et $\varepsilon$ est le seuil de tolérance requis pour la précision de calcul. Ainsi, un solveur
 130 linéaire itératif est dit \textit{convergent} si pour tout choix de la solution initiale $x^{(0)}\in\mathbb{R}^{n}$,
 131 l'erreur ou le résidu de la solution finale $x^{(k)}\in\mathbb{R}^{n}$, obtenue après $k$ itérations, est
 132 suffisamment \textit{petit}. Cependant, la convergence des méthodes itératives n'est pas toujours assurée
 133 et dépend fortement des caractéristiques du système linéaire, à savoir: la structure creuse, le conditionnement
 134 et le rayon spectral de la matrice des coefficients $A$. Il existe différentes classes de méthodes itératives
 135 et le choix de l'utilisation d'une méthode est souvent guidé par son efficacité de résolution et les propriétés du système
 136 linéaire à résoudre. Nous citons ici, globalement, trois classes de méthodes itératives:
 137 stationnaires, non stationnaires et multigrilles.
 138
 139 \subsubsection{Méthodes stationnaires}
 140 Les méthodes itératives \textit{stationnaires} permettant de résoudre le système linéaire (\ref{eq:linear_syst}),
 141 peuvent être exprimées sous la forme simple suivante:
 142 \begin{equation}
 143 \forall k\in\mathbb{N}, x^{(k+1)}=f(x^{(k)})=Cx^{(k)}+d,
 144 \end{equation}
 145 telle que $f$ soit une fonction \textit{affine} représentant un schéma de point fixe, où la matrice d'itération $C$
 146 et le vecteur $d$ restent \textit{inchangés} pour toutes les itérations $k$. Les méthodes itératives
 147 stationnaires sont basées sur la décomposition de la matrice des coefficients, $A$, comme suit:
 148 \begin{equation}
 149 A=M-N,
 150 \end{equation}
 151 de sorte que le système linéaire (\ref{eq:linear_syst}) puisse s'écrire sous forme: $Mx=Nx+b$ à laquelle est
 152 associée l'itération suivante:
 153 \begin{equation}
 154 x^{(k+1)}=Cx^{(k)}+d=M^{-1}Nx^{(k)}+M^{-1}b,
 155 \end{equation}
 156 où $M$ est une matrice inversible. Par conséquent, une méthode itérative stationnaire est \textit{convergente}
 157 vers la solution exacte $x^{*}$ si, et seulement si, le rayon spectral (la plus grande valeur propre) de la matrice $C$ est strictement
 158 inférieur à $1$: $\rho(C)<1$. Les principales méthodes itératives stationnaires sont basées sur la décomposition
 159 de la matrice des coefficients en matrices diagonale $D$, triangulaire strictement inférieure $L$ et
 160 triangulaire strictement supérieure $U$: $A=D-L-U$. Parmi ces méthodes itératives nous pouvons citer~\cite{ref8}:
 161 \begin{itemize}
 162   \item Jacobi: $M=D$ et $N=L+U$,
 163   \item Gauss-Seidel: $M=D-L$ et $N=U$,
 164   \item Surrelaxation successive (SOR): $M=D-\omega L$ et $N=\omega U+(1-\omega)D$ et $\omega>0$,
 165   \item Richardson: $C=I-\omega A$, $d=\omega b$ et $\omega>0$.
 166 \end{itemize}
 167
 168 L'algorithme~\ref{alg:stationnaire} présente les principaux points clés d'un solveur itératif
 169 stationnaire. Il permet de calculer, à partir d'une solution initiale $x^{(0)}$, une série de
 170 solutions approximatives successives $x$, jusqu'à ce que la convergence soit atteinte
 171 (dans l'algorithme, à la ligne $7$, résidu<$\varepsilon$).
 172
 173 \begin{algorithm}[H]
 174   \SetLine
 175   \linesnumbered
 176   \Entree{$A$ (matrice), $C$ (matrice d'itération), $b$ (vecteur), $d$ (vecteur)}
 177   \Sortie{$x$ (vecteur)}
 178
 179   \BlankLine
 180
 181   choisir $x^{(0)}$ solution initiale, $\varepsilon$ seuil de tolérance\;
 182   variables $k$, $convergence$\;
 183   $convergence \leftarrow faux$\;
 184   $k \leftarrow 0$\;
 185
 186   \Tq{$\neg convergence$}
 187   {
 188     évaluer: $x^{(k+1)}=f(x^{(k)})=Cx^{(k)}+d$\;
 189     $convergence \leftarrow (\|b-Ax^{(k+1)}\|\cdot\|b\|^{-1}<\varepsilon)$\;
 190     $k \leftarrow k+1$\;
 191   }
 192 \caption{Algorithme général d'un solveur itératif stationnaire}
 193 \label{alg:stationnaire}
 194 \end{algorithm}
 195
 196 La ligne $6$ de l'algorithme~\ref{alg:stationnaire} permet de calculer les composantes du
 197 vecteur $x$ en appliquant la fonction affine de la méthode itérative stationnaire utilisée.
 198 Par exemple, dans les méthodes Jacobi et Gauss-Seidel, les $n$ composantes du vecteur
 199 $x$ à l'itération $(k+1)$ sont calculées comme suit:
 200
 201 \begin{tabular}{rl}
 202   $Jacobi:$& $ x^{(k+1)}=D^{-1}(L+U)x^{(k)}+D^{-1}b$\hspace{1.6cm}$\Leftrightarrow$\\ \\
 203   & $x^{(k+1)}_{i}=(b_{i}-\displaystyle\sum_{j\neq i}a_{ij}x^{(k)}_{i})/a_{ii}$, $\forall i,j$, $ 1\leqslant i,j\leqslant n$,  \\ \\
 204   $Gauss-Seidel:$ & $x^{(k+1)}=(D-L)^{-1}Ux^{(k)}+(D-L)^{-1}b$\hspace{0.5cm}$\Leftrightarrow$\\ \\
 205   & $x^{(k+1)}_{i}=(b_{i}-\displaystyle\sum_{j<i}a_{ij}x^{(k+1)}_{i}-\displaystyle\sum_{j>i}a_{ij}x^{(k)}_{i})/a_{ii}$, $\forall i,j$, $ 1\leqslant i,j\leqslant n$.
 206 \end{tabular}
 207
 208 Comme nous l'avons évoqué, précédemment, le principal critère de choix entre les solveurs
 209 itératifs est l'efficacité, et donc la convergence, des méthodes de résolution utilisées
 210 par ces derniers. Par exemple, pour trouver la nouvelle solution $x$ à l'itération $(k+1)$,
 211 la méthode Jacobi utilise toutes les composantes du vecteur $x$ calculées à l'itération
 212 précédente $k$, alors que la méthode Gauss-Seidel utilise les nouvelles composantes
 213 calculées à l'itération courante $(k+1)$ dès que possible. Par conséquent, cette technique
 214 de mise à jour des composantes du vecteur solution $x$ permet au solveur Gauss-Seidel
 215 d'effectuer moins d'itérations et donc d'avoir, en général, une convergence plus rapide que
 216 le solveur Jacobi.
 217
 218 Les méthodes stationnaires sont les méthodes itératives les plus anciennes et leurs
 219 algorithmes sont simples à comprendre et à mettre en \oe uvre. Cependant, elles sont souvent
 220 moins efficaces pour la résolution de beaucoup de systèmes linéaires creux, vu leur applicabilité
 221 limitée à certains types de matrices. Ces dernières années, les méthodes non stationnaires,
 222 définies dans la section suivante, sont devenues les méthodes itératives les plus utilisées
 223 pour leur efficacité à résoudre plusieurs types de systèmes linéaires.
 224
 225 \subsubsection{Méthodes non stationnaires}
 226 \label{sec:non-stationnaire}
 227 Les méthodes \textit{non stationnaires} sont les méthodes itératives les
 228 plus récentes; leurs algorithmes sont généralement plus difficiles à comprendre et à
 229 mettre en \oe uvre, mais elles peuvent être plus efficaces pour la résolution de certains systèmes
 230 linéaires creux. Elles peuvent être exprimées sous la forme suivante:
 231 \begin{equation}
 232   \forall k\in\mathbb{N}, x^{(k+1)}=f_{k}(x^{(k)}),
 233 \end{equation}
 234 où, contrairement aux méthodes stationnaires, la fonction $f_{k}$ permettant de calculer
 235 le nouvel itéré $x^{(k+1)}$ diffère d'une itération à l'autre. En fait, les méthodes non stationnaires
 236 impliquent des données qui \textit{changent} à chaque itération et qui déclinent des opérations
 237 vectorielles utilisées par les méthodes itératives, comme les produits scalaires et les
 238 opérations \textit{AXPY} ($y\leftarrow ax+y$).
 239
 240 Le principe général des méthodes non stationnaires est la construction d'une séquence de
 241 vecteurs orthogonaux et les projections sur des sous-espaces. L'une des classes importantes
 242 des méthodes non stationnaires est celle des \textit{méthodes itératives de Krylov}.
 243 L'idée générale d'une méthode de Krylov~\cite{ref8} est de chercher une approximation, $x^{(k)}$, de
 244 la solution de système linéaire (\ref{eq:linear_syst}) dans un sous-espace de Krylov,
 245 $\mathcal{K}_{k}$, d'ordre $k$:
 246 \begin{equation}
 247 x^{(k)}-x^{(0)}=q_{k-1}(A)r^{(0)}\in\mathcal{K}_{k}(A,r^{(0)}),
 248 \end{equation}
 249 telle que la condition Petrov-Galerkin soit satisfaite:\[b-Ax^{(k)}\bot\mathcal{L}_{k},\]
 250 où $q_{k-1}$ est un polynôme de degré $k-1$ et $\mathcal{L}_{k}$ est un autre sous-espace
 251 vectoriel d'ordre $k$. Le sous-espace de Krylov d'ordre $k$, noté $\mathcal{K}_{k}(A,r^{(0)})$,
 252 est un sous-espace vectoriel construit sur $A$ et $r^{(0)}$ et engendré par les $k$ vecteurs
 253 orthogonaux deux à deux $r^{(0)}$, $Ar^{(0)}$, $\dots$, $A^{(k-1)}r^{(0)}$ (base orthonormée):
 254 \[\mathcal{K}_{k}(A,r^{(0)})\equiv \text{engendré}\{r^{(0)}, Ar^{(0)}, A^{2}r^{(0)}, \dots, A^{k-1}r^{(0)}\},\]
 255 où $r^{(0)}=b-Ax^{(0)}$ est le résidu initial de la solution initiale $x^{(0)}$ choisie, plus
 256 ou moins aléatoirement, au démarrage du solveur de Krylov.
 257
 258 La plupart des méthodes de Krylov sont basées sur des itérations ne requierant que des multiplications
 259 de la matrice du système par un vecteur, des produits scalaires et des additions de vecteurs; et
 260 elles diffèrent généralement dans le choix de $\mathcal{L}_{k}$, le calcul d'une base orthonormée
 261 pour $\mathcal{K}_{k}$ (certaines méthodes utilisent la matrice creuse $A$ et d'autres utilisent
 262 sa transposée $A^{T}$) et la réinitialisation de cette base à toutes les $m$ itérations (restarts).
 263 Les méthodes de Krylov ont, généralement, une convergence plus rapide que les méthodes stationnaires.
 264 Néanmoins, pour certains types de matrices creuses, elles n'arrivent pas à converger ou elles
 265 effectuent de nombreuses itérations pour converger. En pratique, elles sont, généralement,
 266 utilisées avec un \textit{préconditionneur} qui permet d'améliorer et/ou d'accélérer leur convergence.
 267 Le processus de préconditionnement consiste à remplacer le système linéaire creux (\ref{eq:linear_syst})
 268 par l'un des deux systèmes suivants:
 269 \begin{equation}M^{-1}Ax=M^{-1}b,\label{eq:left}\end{equation}
 270 \begin{center}ou\\\end{center}
 271 \begin{equation}\begin{array}{cc}AM^{-1}\hat x=b, & x=M^{-1}\hat x,\end{array}\label{eq:right}\end{equation}
 272 qui sont plus faciles à résoudre. $M$ représente la matrice de préconditionnement et les formules (\ref{eq:left})
 273 et (\ref{eq:right}) représentent, respectivement, le préconditionnement à gauche et le préconditionnement
 274 à droite du système linéaire $Ax=b$. Il existe beaucoup de méthodes de Krylov~\cite{ref8,ref9}, par exemple
 275 \textit{CG} ($\mathcal{L}_{k}=\mathcal{K}_{k}$), \textit{GMRES} ($\mathcal{L}_{k}=A\mathcal{K}_{k}$) et \textit{BICG}
 276 ($\mathcal{L}_{k}=\mathcal{K}_{k}(A^{T},r^{(0)})$).
 277
 278 \subsubsection{Méthodes multigrilles}
 279 Une autre catégorie de méthodes itératives est celle des méthodes \textit{multigrilles} dont les origines
 280 remontent aux années soixante \cite{ref10}. Initialement conçues pour la résolution de l'équation de Poisson,
 281 les méthodes multigrilles ont rapidement évolué pour être appliquées à un large éventail d'applications dans
 282 le domaine de la physique ou des mathématiques des finances, comme par exemple la résolution des problèmes
 283 linéaires ou non linéaires avec des conditions aux limites \cite{ref11} ou des problèmes d'optimisation \cite{ref12}.
 284
 285 Les méthodes itératives standards, comme Jacobi et Gauss-Seidel, sont caractérisées par un faible taux de
 286 convergence global, $\tau$, qui peut être défini à l'itération $k$ comme suit:
 287 \begin{equation}
 288   \tau_{k}=\frac {\|r^{(k)}\|} {\|r^{(k-1)}\|} = \frac {\|b-Ax^{(k)}\|} {\|b-Ax^{(k-1)}\|},
 289 \end{equation}
 290 où $r^{(k)}$ est le résidu de la solution approximative $x^{(k)}$ trouvée après $k$ itérations. En fait, malgré
 291 leur convergence rapide aux premières itérations, ces méthodes itératives peinent à maintenir leur vitesse
 292 de convergence tout le long de la résolution. Cela peut être expliqué par leur incapacité à réduire les basses
 293 fréquences de l'erreur, ce qui se traduit par la décroissance lente de la norme du résidu durant les dernières
 294 itérations de la résolution. Par conséquent, beaucoup d'itérations sont nécessaires pour donner une solution
 295 approchée intéressante lorsque la vitesse de convergence est faible. A cet effet, les méthodes multigrilles
 296 sont conçues pour améliorer la vitesse de convergence de ces méthodes itératives et ainsi, réduire leur coût
 297 de résolution.
 298
 299 Comme leur nom l'indique, les méthodes multigrilles utilisent différents niveaux de maillages réguliers
 300 (au moins deux grilles), du plus fin au plus grossier, chaque n\oe ud de maillage étant espacé d'un autre
 301 d'une distance $2qh$, tel que $q\in\mathbb{N}$ représente le niveaux de la grille. Pour des raisons de
 302 simplicité, nous ne décrirons, ci-après, que le principe général de résolution d'une méthode à deux grilles
 303 sur laquelle sont basées, d'ailleurs, l'ensemble des méthodes multigrilles. On considère un système
 304 linéaire creux (\ref{eq:fine}) discrétisé sur un maillage $\Omega_{h}$ de pas $h=\frac{1}{n+1}$, $n$
 305 étant le nombre de points de discrétisation:
 306 \begin{equation}
 307   \begin{array}{lll}
 308     A_{h}x_{h}=b_{h}, & sur & \Omega_{h},\\
 309   \end{array}
 310 \label{eq:fine}
 311 \end{equation}
 312 où $A_{h}$, $x_{h}$ et $b_{h}$ représentent, respectivement, la matrice creuse, le vecteur solution et le
 313 second membre du système discrétisé sur $\Omega_{h}$. La résolution de ce système par une méthode itérative
 314 permet de trouver seulement une approximation $x_{h}$ à la solution exacte $x_{h}^{*}$ sur $\Omega_{h}$.
 315 L'erreur algébrique $e_{h}$ et le résidu $r_{h}$ de cette solution approximative peuvent être calculés comme
 316 suit:
 317 \begin{equation}
 318   e_{h}=x^{*}_{h}-x_{h},
 319 \label{eq:erreur}
 320 \end{equation}
 321 \begin{equation}
 322   r_{h}=b_{h}-A_{h}x_{h},
 323 \label{eq:residu}
 324 \end{equation}
 325 De ces deux dernières formules, nous pouvons déduire l'équation de l'erreur suivante:
 326 \begin{equation}
 327  \begin{array}{lll}
 328   A_{h}e_{h}=r_{h}, & sur & \Omega_{h},
 329  \end{array}
 330 \label{eq:residuelle}
 331 \end{equation}
 332 L'objectif de la méthode bigrille \cite{ref13} est de réduire les basses fréquences de l'erreur sur
 333 la grille grossière $\Omega_{2h}$, que la méthode itérative n'a pas réussie à éliminer sur la gille fine
 334 $\Omega_{h}$. En fait, les basses fréquences de l'erreur sur la grille fine apparaissent comme des hautes fréquences de
 335 l'erreur sur la grille grossière, qui sont faciles à éliminer par les méthodes itératives. Le principe
 336 général d'une méthode bigrille repose sur la résolution de l'équation de l'erreur (\ref{eq:residuelle}) sur la grille
 337 grossière $\Omega_{2h}$, pour trouver une erreur $e_{h}$ permettant de corriger la valeur de la solution
 338 approximative $x_{h}$: $x_{h}=x_{h}+e_{h}$, obtenue après quelques itérations sur la grille fine
 339 $\Omega_{h}$. L'algorithme \ref{alg:bigrille} montre les principaux points clés d'une méthode bigrille.
 340 Les processus de pré-lissage et de post-lissage consistent à effectuer quelques itérations d'un solveur
 341 itératif (par exemple Jacobi ou Gauss-Seidel) sur la grille fine, afin d'éliminer les hautes fréquences
 342 de l'erreur. Les deux opérateurs de restriction $R^{2h}_{h}$ et de prolongement $P^{h}_{2h}$ permettent le
 343 transfert des données entre la grille fine et la grille grossière. $A_{2h}$ est la matrice d'itération sur
 344 la grille grossière, telle que: $A_{2h}=R_{h}^{2h}A_{h}P_{2h}^{h}$. La résolution de l'équation de l'erreur
 345 avec une méthode itérative sur la grille grossière (à la ligne $7$ de l'algorithme \ref{alg:bigrille})
 346 permet de trouver l'erreur de correction de la solution approximative $x_{h}$ obtenue sur la grille fine
 347 et ainsi, d'éliminer les basses fréquences de l'erreur.
 348
 349 \begin{algorithm}[H]
 350   \SetLine
 351   \linesnumbered
 352   \Entree{$A$ (matrice), $b$ (vecteur)}
 353   \Sortie{$x$ (vecteur)}
 354
 355   \BlankLine
 356
 357   choisir $x_{h}^{0}$ solution initiale, $\varepsilon$ seuil de tolérance\;
 358   $convergence \leftarrow faux$\;
 359
 360   \Tq{$\neg convergence$}
 361   {
 362     Pré-lissage: résoudre $A_{h}x_{h}=b_{h}$ sur $\Omega_{h}$\;
 363     Calcul du résidu: $r_{h}=b_{h}-A_{h}x_{h}$\;
 364     Restriction sur $\Omega_{2h}$: $r_{2h}=R_{h}^{2h}r_{h}$\;
 365     Résoudre: $A_{2h}e_{2h}=r_{2h}$ sur $\Omega_{2h}$\;
 366     Prolongement sur $\Omega_{h}$: $e_{h}=P^{h}_{2h}e_{2h}$\;
 367     Correction: $x_{h}=x_{h}+e_{h}$\;
 368     Post-lissage: résoudre $A_{h}x_{h}=b_{h}$ sur $\Omega_{h}$\;
 369     $convergence \leftarrow (\|b_{h}-A_{h}x_{h}\|<\varepsilon)$\;
 370     $x_{h}^{0}\leftarrow x_{h}$\;
 371   }
 372 \caption{Algorithme général d'une méthode bigrille}
 373 \label{alg:bigrille}
 374 \end{algorithm}
 375
 376 Cependant, dans la pratique, les méthodes multigrilles ne se limitent pas à deux grilles
 377 pour obtenir une convergence rapide. Elles sont, souvent, appliquées avec plusieurs grilles
 378 de plus en plus grossières: $\Omega_{h}$, $\Omega_{2h}$, $\Omega_{4h}$, $\Omega_{8h}$, $\cdots$.
 379 L'idée générale de ces méthodes est l'application récursive du principe de la méthode bigrille.
 380 En effet, les méthodes multigrilles appliquent une méthode bigrille pour résoudre l'équation
 381 de l'erreur (ligne 7 de l'algorithme~\ref{alg:bigrille}), afin de trouver une meilleure correction
 382 de la solution approximative. Il existe plusieurs versions de ce type de méthodes, par exemple
 383 \textit{V-cycle}, \textit{W-cycle} ou \textit{FMG}, qui sont présentées dans~\cite{ref14,ref15,ref16}.
 384 %%-------------------------------------------------------------------------------------------------------%%
 385
 386 %%-------------------------------------------------------------------------------------------------------%%
 387 \section{Formats de stockage des matrices creuses}
 388 \label{sec:stockage}
 389 La plupart des méthodes itératives sont basées sur des opérations de calcul traitant des vecteurs et des
 390 matrices (voir section~\ref{sec:iterative}). Cependant, parmi toutes ces opérations, seule la multiplication
 391 matrice-vecteur est considérée comme l'opération la plus importante des méthodes itératives, car elle est
 392 souvent très coûteuse en termes de temps d'exécution et d'occupation espace mémoire. Par conséquent,
 393 l'efficacité d'une méthode itérative dépend fortement de la performance de calcul de sa multiplication
 394 matrice-vecteur.
 395
 396 En outre, dans le cas des systèmes linéaires creux, la multiplication matrice-vecteur nécessite, aussi, une
 397 attention très particulière pour le format de stockage de la matrice creuse dans la mémoire. Le stockage
 398 naïf, ligne par ligne ou colonne par colonne, d'une matrice creuse peut causer une perte considérable
 399 d'espace mémoire et de temps de calcul. En fait, les éléments nuls de la matrice sont sauvegardés dans
 400 la mémoire alors que leur prise en compte dans la multiplication est totalement inutile. De plus, la
 401 nature creuse de la matrice engendre, souvent, des accès irréguliers à la mémoire pour la lecture de ses
 402 éléments non nuls et ceci, ne peut que dégrader encore davantage la performance de la multiplication
 403 matrice-vecteur.
 404
 405 Néanmoins, une matrice creuse permet, aussi, de tirer profit de son aspect creux et ce, en ne sauvegardant
 406 que ses éléments non nuls, qui permettra ainsi, de réduire la taille de la mémoire nécessaire
 407 pour le stockage et d'accélérer le calcul de la multiplication matrice-vecteur. Il existe dans la
 408 littérature~\cite{ref8,ref17}, plusieurs formats de stockage compressés pour les matrices creuses. Ils permettent un accès
 409 facile aux éléments non nuls en connaissant leurs coordonnées dans la mémoire et une exécution intelligente
 410 des opérations de calcul sur ces éléments. Dans la présente section, nous décrivons au total cinq
 411 formats de compression des matrices creuses, qui sont intéressants pour la suite de ce document.
 412
 413 \subsection{COO}
 414 \textit{COO} (Coordinate) est un format de stockage particulièrement simple. Il permet de représenter une matrice
 415 creuse sous forme d'une structure de données composée de trois tableaux: un tableau de réels, $Val$, contenant
 416 tous les éléments non nuls de la matrice creuse $A$ et deux tableaux d'entiers,
 417 $Lig$ et $Col$, contenant les indices de lignes et les indices de colonnes de ces éléments non nuls, respectivement.
 418 Les trois tableaux ont une taille $nnz$ (nombre d'éléments non nuls de la matrice). La figure~\ref{fig:coo}
 419 décrit le format \textit{COO} pour une matrice creuse d'ordre $(4\times4)$, $A$, et l'algorithme~\ref{alg:coo} présente
 420 la multiplication matrice-vecteur pour ce format de stockage.
 421 \begin{figure}[!h]
 422 \begin{center}
 423 \begin{tabular}{c}
 424 $A=\left[
 425 \begin{matrix}
 426 a_{00} & 0 & 0 & a_{03} \\
 427 0 & 0 & a_{12} & 0 \\
 428 a_{20} & a_{21} & a_{22} & 0 \\
 429 0 & a_{31} & 0 & a_{33} \\
 430 \end{matrix}
 431 \right]
 432 $
 433 \\
 434 \\
 435 $
 436 \begin{array}{cccccccccccc}
 437 Val & = & [ & a_{00} & a_{03} & a_{12} & a_{20} & a_{21} & a_{22} & a_{31} & a_{33} & ] \\
 438 Lig & = & [ & 0     & 0      & 1     & 2      & 2     & 2      & 3     & 3      & ] \\
 439 Col & = & [ & 0     & 3      & 2     & 0      & 1     & 2      & 1     & 3      & ] \\
 440 \end{array}
 441 $
 442 \end{tabular}
 443 \caption{Le format de stockage COO}
 444 \label{fig:coo}
 445 \end{center}
 446 \end{figure}
 447
 448 Dans le format \textit{COO}, les éléments non nuls d'une matrice creuse peuvent être stockés ligne par ligne (voir
 449 l'exemple de la figure~\ref{fig:coo}), colonne par colonne ou dans un ordre quelconque. Cependant, ce format
 450 n'est efficace que pour les matrices creuses non structurées, autrement, nous pouvons remarquer que dans le
 451 cas de stockage ligne par ligne (ou colonne par colonne), le tableau $Lig$ (respectivement, le tableau $Col$)
 452 peut contenir des informations redondantes successives qui pointent le même indice de ligne (respectivement, le même indice de
 453 colonne). Cela impliquerait un espace mémoire non négligeable pour stocker une grande matrice creuse structurée.
 454
 455 \begin{algorithm}
 456   \SetLine
 457   \linesnumbered
 458   \Entree{$Val$, $Lig$ et $Col$ (matrice), $nnz$ (nombre d'éléments non nuls), $n$ (taille de la matrice), $x$ (vecteur)}
 459   \Sortie{$y$ (vecteur)}
 460   \BlankLine
 461   variables $i$, $j$, $id$\;
 462   \Pour{$i=0$ \KwA $n-1$}{
 463     $y[i] \leftarrow 0$\;
 464   }
 465   \BlankLine
 466   \Pour{$id=0$ \KwA $nnz-1$}{
 467     $i \leftarrow Lig[id]$\;
 468     $j \leftarrow Col[id]$\;
 469     $y[i] \leftarrow y[i] + Val[id] \times x[j]$\;
 470   }
 471 \caption{Multiplication matrice-vecteur avec le format COO}
 472 \label{alg:coo}
 473 \end{algorithm}
 474
 475 \subsection{CSR vs. CSC}
 476 Les formats \textit{CSR} (Compressed Sparse Row) et \textit{CSC} (Compressed Sparse Column) sont, probablement,
 477 les plus connus et les plus utilisés pour le stockage des matrices creuses. En effet, ce
 478 sont deux formats qui ne posent aucune condition sur la structure creuse de la matrice et
 479 ne permettent de stocker que les informations nécessaires sur la matrice.
 480 Ils permettent de représenter la matrice creuse sous forme de trois tableaux de données. Comme
 481 le format \textit{COO}, le format \textit{CSR} (respectivement, \textit{CSC}) stocke les $nnz$ éléments non nuls de la matrice
 482 et leurs indices de colonnes (respectivement, leurs indices de lignes) ligne par ligne (respectivement, colonne
 483 par colonne) dans deux tableaux distincts $Val$ et $Col$ (respectivement, $Val$ et $Lig$). Un troisième
 484 tableau d'une taille $n+1$, $Ptr$, est utilisé pour stocker la position du premier élément
 485 non nul de chaque ligne de la matrice (respectivement, de chaque colonne de la matrice). La figure~\ref{fig:csr}
 486 donne les formats de stockage \textit{CSR} et \textit{CSC} de la matrice creuse $A$ donnée comme exemple.
 487 Les algorithmes~\ref{alg:csr} et~\ref{alg:csc} présentent une multiplication
 488 matrice-vecteur avec le format \textit{CSR} et celle avec le format \textit{CSC}, respectivement.
 489
 490 \begin{figure}[!h]
 491 \begin{center}
 492 \begin{tabular}{c}
 493 $A=\left[
 494 \begin{matrix}
 495 a_{00} & 0      & 0     & a_{03} \\
 496 0     & 0      & a_{12} & 0 \\
 497 a_{20} & a_{21} & a_{22} & 0 \\
 498 0     & a_{31} & 0      & a_{33} \\
 499 \end{matrix}
 500 \right]
 501 $
 502 \\
 503 \\
 504 $
 505 CSR:\left\{
 506 \begin{array}{ccccccccccccc}
 507 Val & = & [ & a_{00} & a_{03} & a_{12} & a_{20} & a_{21} & a_{22} & a_{31} & a_{33} &   & ] \\
 508 Col & = & [ & 0     & 3      & 2     & 0      & 1     & 2      & 1     & 3      &   & ] \\
 509 Ptr & = & [ & 0     &        & 2     & 3      &       &        & 6     &        & 8 & ] \\
 510 \end{array}
 511 \right.
 512 $
 513 \\
 514 \\
 515 $
 516 CSC:\left\{
 517 \begin{array}{ccccccccccccc}
 518 Val & = & [ & a_{00} & a_{20} & a_{21} & a_{31} & a_{12} & a_{22} & a_{03} & a_{33} &   & ] \\
 519 Lig & = & [ & 0     & 2      & 2     & 3      & 1     & 2      & 0     & 3      &   & ] \\
 520 Ptr & = & [ & 0     &        & 2     &        & 4     &        & 6     &        & 8 & ] \\
 521 \end{array}
 522 \right.
 523 $
 524 \end{tabular}
 525 \caption{Le format de stockage CSR et CSC}
 526 \label{fig:csr}
 527 \end{center}
 528 \end{figure}
 529
 530 Les formats \textit{CSR} et \textit{CSC} sont sûrement les plus économes en espace mémoire pour
 531 le stockage des matrices creuses mais, ils ne sont pas forcément les plus efficaces.
 532 En effet, d'après l'algorithme~\ref{alg:csr}, chaque opération atomique ($y[i] \leftarrow y[i] + Val[id] \times x[j]$) de la
 533 multiplication matrice-vecteur \textit{CSR} nécessite le chargement de l'indice de colonne
 534 et un accès indirect à la mémoire pour lire la valeur du vecteur $x$ correspondante.
 535 De même, pour le format \textit{CSC} (algorithme~\ref{alg:csc}), chaque opération atomique
 536 de la multiplication requiert un chargement de l'indice de ligne et puis un accès
 537 indirect à la mémoire pour écrire la valeur du vecteur $y$ à l'adresse
 538 correspondante. Donc, la multiplication sur des matrices ayant des lignes ou des
 539 colonnes très creuses engendrera des accès mémoires très irréguliers, ce qui dégaradera
 540 certainement sa performance de calcul.
 541
 542 \begin{algorithm}
 543   \SetLine
 544   \linesnumbered
 545   \Entree{$Val$, $Col$ et $Ptr$ (matrice), $n$ (taille de la matrice), $x$ (vecteur)}
 546   \Sortie{$y$ (vecteur)}
 547   \BlankLine
 548    variables $i$, $j$, $id$\;
 549   \Pour{$i=0$ \KwA $n-1$}{
 550     $y[i] \leftarrow 0$\;
 551   }
 552   \BlankLine
 553   \Pour{$i=0$ \KwA $n-1$}{
 554     \Pour{$id=Ptr[i]$ \KwA $Ptr[i+1]-1$}{
 555       $j \leftarrow Col[id]$\;
 556       $y[i] \leftarrow y[i] + Val[id] \times x[j]$\;
 557     }
 558   }
 559 \caption{Multiplication matrice-vecteur avec le format CSR}
 560 \label{alg:csr}
 561 \end{algorithm}
 562
 563 \begin{algorithm}
 564   \SetLine
 565   \linesnumbered
 566   \Entree{$Val$, $Lig$ et $Ptr$ (matrice), $n$ (taille de la matrice), $x$ (vecteur)}
 567   \Sortie{$y$ (vecteur)}
 568   \BlankLine
 569   variables $i$, $j$, $id$\;
 570   \Pour{$i=0$ \KwA $n-1$}{
 571     $y[i] \leftarrow 0$\;
 572   }
 573   \BlankLine
 574   \Pour{$j=0$ \KwA $n-1$}{
 575     \Pour{$id=Ptr[j]$ \KwA $Ptr[j+1]-1$}{
 576       $i \leftarrow Lig[id]$\;
 577       $y[i] \leftarrow y[i] + Val[id] \times x[j]$\;
 578     }
 579   }
 580 \caption{Multiplication matrice-vecteur avec le format CSC}
 581 \label{alg:csc}
 582 \end{algorithm}
 583
 584 \subsection{ELLPACK/ITPACK}
 585 \textit{ELLPACK/ITPACK}, ou plus couramment \textit{ELL}, est parmi les structures de données
 586 les plus génériques pour le stockage des matrices creuses dans la mémoire. De plus, elle est plus
 587 particulièrement adaptée à la représentation des matrices, plus ou moins, structurées et aux
 588 calculs sur des architectures vectorielles. Le stockage en format \textit{ELL} d'une matrice creuse,
 589 $A$, de taille $(n\times n)$, ayant au maximum $m$ éléments non nuls par ligne, utilise deux matrices
 590 de données de taille $(n\times m)$: une matrice de réels, $Val$, et une matrice d'entiers, $Col$.
 591 Une ligne d'indice $i$ de chacune des matrices $Val$ et $Col$ correspond aux éléments non nuls et
 592 leurs indices de colonne, respectivement, de la ligne d'indice $i$ de la matrice creuse $A$.
 593 Les lignes qui ont moins de $m$ éléments non nuls dans la matrice creuse $A$ sont complétées par
 594 des zéros dans les matrices $Val$ et $Col$. La figure~\ref{fig:ell} montre un stockage \textit{ELL}
 595 d'une matrice creuse de taille $(4\times 4)$. Dans cet exemple, les matrices $Val$ et $Col$ sont
 596 complétées par des étoiles ($*$), qui correspondent aux zéros dans la mémoire. L'algorithme~\ref{alg:ell}
 597 montre la mutiplication matrice-vecteur
 598 avec le format \textit{ELL}, telles que les deux matrices $Val$ et $Col$ soient stockées ligne par ligne
 599 dans la mémoire.
 600 \begin{figure}[!h]
 601 \begin{center}
 602 \begin{tabular}{c}
 603 \begin{tabular}{c}
 604 $A=\left[
 605 \begin{matrix}
 606 a_{00} & 0      & 0     & a_{03} \\
 607 0     & 0      & a_{12} & 0 \\
 608 a_{20} & a_{21} & a_{22} & 0 \\
 609 0     & a_{31} & 0      & a_{33} \\
 610 \end{matrix}
 611 \right]
 612 $
 613 \end{tabular}
 614 \\
 615 \\
 616 \begin{tabular}{cc}
 617 $Val=\left[
 618 \begin{matrix}
 619 a_{00} & a_{03} & * \\
 620 a_{12} & *      & * \\
 621 a_{20} & a_{21} & a_{22} \\
 622 a_{31} & a_{33} & * \\
 623 \end{matrix}
 624 \right],
 625 $
 626 &
 627 $Col=\left[
 628 \begin{matrix}
 629 0 & 3 & * \\
 630 2 & * & * \\
 631 0 & 1 & 2 \\
 632 1 & 3 & * \\
 633 \end{matrix}
 634 \right]
 635 $
 636 \end{tabular}
 637 \end{tabular}
 638 \caption{Le format de stockage ELL}
 639 \label{fig:ell}
 640 \end{center}
 641 \end{figure}
 642
 643 \begin{algorithm}[H]
 644   \SetLine
 645   \linesnumbered
 646   \Entree{$Val$ et $Col$ (matrice), $n$ (taille de la matrice), $m$ (nombre maximum d'éléments non nuls par ligne), $x$ (vecteur)}
 647   \Sortie{$y$ (vecteur)}
 648   \BlankLine
 649    variables $i$, $j$, $l$, $id$\;
 650   \Pour{$i=0$ \KwA $n-1$}{
 651     $y[i] \leftarrow 0$\;
 652   }
 653   \BlankLine
 654   \Pour{$i=0$ \KwA $n-1$}{
 655     \Pour{$l=0$ \KwA $m-1$}{
 656       $id \leftarrow n \times i + l$\;
 657       $j \leftarrow Col[id]$\;
 658       $y[i] \leftarrow y[i] + Val[id] \times x[j]$\;
 659     }
 660   }
 661 \caption{Multiplication matrice-vecteur avec le format ELL}
 662 \label{alg:ell}
 663 \end{algorithm}
 664
 665 \subsection{HYB}
 666 Le format hybride (\textit{HYB}) est la combinaison de deux structures de données, qui sont le format
 667 \textit{ELL} et le format \textit{COO}. Bien que le format de stockage \textit{ELL} soint bien adapté aux
 668 multiplications matrice-vecteur calculées sur des architectures vectorielles, son efficacité se dégrade
 669 rapidement lorsque le nombre d'éléments non nuls varie substantiellemnt d'une ligne de matrice à une
 670 autre, ce qui est souvent le cas avec les matrices creuses non structurées. En revanche, la performance
 671 des multiplications matrice-vecteur basées sur le format de stockage \textit{COO} est insensible aux
 672 variations du nombre d'éléments non nuls par ligne de la matrice creuse.
 673
 674 Le principe de la structure de données \textit{HYB} consiste à stocker un nombre typique $m$ d'éléments
 675 non nuls par ligne en format \textit{ELL} et le reste des éléments non nuls des lignes exeptionnelles
 676 en format \textit{COO}. Le nombre typique $m$ est souvent déterminé a priori de telle sorte que la
 677 majorité de la matrice creuse ait une structure régulière et ainsi, soit facile à représenter en format
 678 \textit{ELL}. De cette manière, le format \textit{HYB} hérite l'efficacité du format \textit{ELL} due
 679 à ses accès réguliers à la mémoire et la flexibilité du format \textit{COO} qui est insensible à la
 680 structure creuse de la matrice. La figure~\ref{fig:hyb} illustre la structure de données \textit{HYB}
 681 d'une matrice creuse $A$ d'ordre $(4\times 4)$, utilisant un format \textit{ELL} avec 2 éléments par
 682 ligne ($m=2$). L'algorithme~\ref{alg:hyb} présente le code d'une
 683 multiplication matrice-vecteur avec le format de stockage \textit{HYB}.
 684
 685 \begin{figure}[!h]
 686 \begin{center}
 687 \begin{tabular}{c}
 688
 689 \begin{tabular}{c}
 690 $A=\left[
 691 \begin{matrix}
 692 a_{00} & 0      & 0     & a_{03} \\
 693 0     & 0      & a_{12} & 0 \\
 694 a_{20} & a_{21} & a_{22} & 0 \\
 695 0     & a_{31} & 0      & a_{33} \\
 696 \end{matrix}
 697 \right]
 698 $
 699 \end{tabular}
 700 \\
 701 \\
 702 \begin{tabular}{cc}
 703 $
 704 ELL:
 705 $
 706 &
 707 \begin{tabular}{ccc}
 708 $
 709 Val_{ell}=\left[
 710 \begin{matrix}
 711 a_{00} & a_{03}\\
 712 a_{12} & *    \\
 713 a_{20} & a_{21} \\
 714 a_{31} & a_{33} \\
 715 \end{matrix}
 716 \right],
 717 $
 718 &
 719 $
 720 Col_{ell}=\left[
 721 \begin{matrix}
 722 0 & 3\\
 723 2 & * \\
 724 0 & 1 \\
 725 1 & 3 \\
 726 \end{matrix}
 727 \right]
 728 $
 729 \end{tabular}
 730 \\
 731 \\
 732 $
 733 COO:
 734 $
 735 &
 736 \begin{tabular}{ccc}
 737 $Val_{coo}=[a_{22}],$ & $Lig_{coo}=[2],$ & $Col_{coo} = [2]$\\
 738 \end{tabular}
 739 \\
 740 \end{tabular}
 741 \end{tabular}
 742 \caption{Le format de stockage HYB}
 743 \label{fig:hyb}
 744 \end{center}
 745 \end{figure}
 746
 747 \begin{algorithm}[H]
 748   \SetLine
 749   \linesnumbered
 750   \Entree{$Val_ {ell}$ et $Col_{ell}$ (matrice ELL), $Val_ {coo}$, $Lig_{coo}$ et $Col_{coo}$ (matrice COO),
 751 $n$ (taille de la matrice ELL), $m$ (nombre maximum d'éléments non nuls par ligne dans la matrice ELL),
 752 $nnz$ (nombre d'éléments non nuls dans la matrice COO), $x$ (vecteur)}
 753   \Sortie{$y$ (vecteur)}
 754   \BlankLine
 755   variables $i$, $j$, $l$, $id$\;
 756   \Pour{$i=0$ \KwA $n-1$}{
 757     $y[i] \leftarrow 0$\;
 758   }
 759   \BlankLine
 760   \Pour{$i=0$ \KwA $n-1$}{
 761     \Pour{$l=0$ \KwA $m-1$}{
 762       $id \leftarrow n \times i + l$\;
 763       $j \leftarrow Col_{ell}[id]$\;
 764       $y[i] \leftarrow y[i] + Val_{ell}[id] \times x[j]$\;
 765     }
 766   }
 767   \BlankLine
 768   \Pour{$id=0$ \KwA $nnz-1$}{
 769     $i \leftarrow Lig_{coo}[id]$\;
 770     $j \leftarrow Col_{coo}[id]$\;
 771     $y[i] \leftarrow y[i] + Val_{coo}[id] \times x[j]$\;
 772   }
 773 \caption{Multiplication matrice-vecteur avec le format HYB}
 774 \label{alg:hyb}
 775 \end{algorithm}
 776 %%-------------------------------------------------------------------------------------------------------%%
 777
 778 %%-------------------------------------------------------------------------------------------------------%%
 779 \section{Parallélisation des méthodes itératives}
 780 \label{sec:parallelisation}
 781 L'adaptation des solveurs itératifs aux architectures des calculateurs parallèles est devenue une
 782 nécessité impérieuse pour la résolution des systèmes linéaires creux de taille toujours croissante.
 783 En effet, les calculateurs parallèles fournissent les ressources et la puissance de calcul nécessaires
 784 pour une résolution haute performance de grands systèmes linéaires creux.
 785
 786 La parallélisation d'un solveur itératif sur une plateforme parallèle, comportant $p$ processeurs, requiert
 787 tout d'abord un partitionnement des données du système linéaire à résoudre sur l'ensemble des $p$ processeurs.
 788 Le partitionnement de données consiste à attribuer aux différents processeurs des portions, plus ou moins égales,
 789 des vecteurs et des matrices impliqués dans le solveur itératif. Par la suite, tous les processeurs procèdent,
 790 en parallèle, à la résolution de leurs parties du système linéaire, en appliquant les itérations d'une même méthode
 791 itérative mais sur des données différentes. Toutefois, les calculs locaux des différents processeurs sont liés
 792 par des dépendances de données, qui permettent la résolution du système global. A cet effet, des points
 793 de synchronisation doivent être mis en place dans un solveur itératif parallèle, lors desquels des données partagées
 794 sont échangées entre des processeurs voisins.
 795
 796 Dans ce document, nous nous intéressons à la parallélisation des méthodes itératives sur des plateformes de calcul
 797 parallèle à mémoire distribuée. Donc, lors des points de synchronisation, les dépendances de
 798 données sont gérées par des communications à passage de messages entre les processeurs. Les algorithmes
 799 parallèles des méthodes itératives peuvent être classifiés selon la nature \textit{synchrone} ou \textit{asynchrone}
 800 de leurs itérations ainsi que celle de leurs communications~\cite{ref18}.
 801
 802 \subsection{Méthodes itératives SISC}
 803 Les solveurs itératifs parallèles les plus classiques sont ceux dits à Itérations Synchrones
 804 et Communications Synchrones (\textit{SISC}). Le synchronisme des itérations décline du fait que chaque
 805 processeur ne peut commencer le calcul de sa nouvelle itération que lorsqu'il reçoit, de la
 806 part de tous ses voisins, les données partagées calculées à l'itération précédente. Ainsi, tous
 807 les processeurs commencent le calcul de la même itération au même temps et effectuent les échanges
 808 de données partagées à la fin de chaque itération par le biais des communications globales synchrones.
 809
 810 \begin{figure}[!h]
 811   \centering
 812   \includegraphics[width=170mm,keepaspectratio]{Figures/SISC}
 813   \caption{Un exemple de schéma d'exécution d'un solveur itératif parallèle SISC avec deux processeurs}
 814   \label{fig:SISC}
 815 \end{figure}
 816
 817 La figure~\ref{fig:SISC} montre un schéma d'exécution d'un algorithme parallèle \textit{SISC}.
 818 Le synchronisme des itérations des solveurs itératifs parallèles \textit{SISC} impliquent,
 819 exactement, le même nombre d'itérations que leurs homologues en séquentiel. Par conséquent,
 820 les conditions de leur convergence sont faciles à déterminer, vu qu'elles sont identiques
 821 à celles des solveurs itératifs séquentiels. Cependant, l'utilisation des communications
 822 synchrones peut pénaliser les performances de ce type d'algorithmes. En fait, les
 823 communications synchrones engendrent, souvent, des temps d'inactivité des processeurs
 824 (les espaces blancs entre deux itérations calculées par un même processeur dans la
 825 figure~\ref{fig:SISC}), dues soit à l'attente pour un processeur (ou des processeurs)
 826 qu'il soit prêt pour communiquer ou à la vitesse lente des communications synchrones
 827 elles-mêmes dans la plateforme de calcul parallèle.
 828
 829 \subsection{Méthodes itératives SIAC}
 830 Un autre type de solveurs itératifs parallèles a été conçu pour améliorer les performances
 831 de résolution sur les plateformes à réseau d'interconnection lent et/ou hétérogène. Ce sont
 832 les solveurs à Itérations Synchrones et Communications Asynchrones
 833 (\textit{SIAC}). Il permettent de réduire les temps d'inactivité des processeurs entre deux itérations
 834 successives, en utilisant des communications asynchrones et cela, tout en maintenant le
 835 principe des itérations synchrones. En effet, comme les algorithmes \textit{SISC}, un processeur
 836 attend toujours la réception de toutes les données partagées, calculées par ses voisins à
 837 l'itération précédente, avant de commencer les calculs de la nouvelle itération. Toutefois,
 838 les communications synchrones globales utilisées, pour les échanges de données partagées, dans
 839 les algorithmes \textit{SISC} sont remplacées par des envois asynchrones et des réceptions bloquantes.
 840
 841 \begin{figure}[!h]
 842   \centering
 843   \includegraphics[width=170mm,keepaspectratio]{Figures/SIAC}
 844   \caption{Un exemple de schéma d'exécution d'un solveur itératif parallèle SIAC avec deux processeurs}
 845   \label{fig:SIAC}
 846 \end{figure}
 847
 848 La figure~\ref{fig:SIAC} montre un exemple de schéma d'exécution d'un solveur itératif parallèle
 849 \textit{SIAC}. Les conditions de convergence des solveurs itératifs \textit{SIAC} sont identiques à ceux des solveurs
 850 itératifs \textit{SISC} et ainsi, à ceux des solveurs itératifs séquentiels. Cependant, les communications
 851 asynchrones permettent d'effectuer des chauvechaments entre les calculs et les échanges de données.
 852 En fait, un processeur peut envoyer les données partagées à son voisin dès qu'elles soient
 853 prêtes à être utilisées dans les calculs de la nouvelle itération, ce qui permet de réduire les temps
 854 d'attente de réception de données entre deux itérations successives.
 855
 856 \subsection{Méthodes itératives AIAC}
 857 Les méthodes itératives parallèles synchrones de type \textit{SISC} ou \textit{SIAC} ont
 858 été, largement, utilisées pour la résolution de grands systèmes linéaires creux. Elles sont, relativement,
 859 faciles à mettre en \oe uvre et présentent des taux de convergence, plus ou moins, rapides selon la méthode utilisée. Néanmoins, le synchronisme
 860 de leurs itérations et/ou de leurs communications pénalise sévèrement les performances de
 861 résolution sur des grilles de calcul à clusters géographiquement distants. En effet, ce
 862 type d'architectures parallèles est souvent caractérisé par la latence forte de ses liens de
 863 communications (plus précisément les liens inter-clusters) et par l'hétérogénéité de ses
 864 ressources.
 865
 866 Les solveurs itératifs parallèles conçus pour améliorer les performances de résolution
 867 sur les plateformes à ressources hétérogènes et géographiquement distantes sont ceux
 868 dits à Itérations Asynchrones et Communications Asynchrones (\textit{AIAC}). Dans ce
 869 type de solveurs parallèles, chaque processeur exécute ses propres itérations sans
 870 prendre en compte la progression de l'exécution de celles des autres processeurs. En
 871 effet, un processeur passe d'une itération à l'autre sans attendre l'arrivée des nouvelles
 872 données partagées mises à jour par ses voisins. Il utilise les données locales et les
 873 dernières versions des données partagées disponibles au début du calcul de chaque itération.
 874 De plus, pour assurer l'asynchronisme des itérations, les solveurs itératifs \textit{AIAC}
 875 utilisent des communications asynchrones de type envois et réceptions non bloquants.
 876
 877 \begin{figure}[!h]
 878   \centering
 879   \includegraphics[width=170mm,keepaspectratio]{Figures/AIAC}
 880   \caption{Un exemple de schéma d'exécution d'un solveur itératif parallèle AIAC avec deux processeurs}
 881   \label{fig:AIAC}
 882 \end{figure}
 883
 884 La figure~\ref{fig:AIAC} présente un schéma d'exécution d'un solveur itératif
 885 parallèle de type \textit{AIAC}. Nous pouvons remarquer que l'asynchronisme des
 886 itérations et des communications permet aux processeurs d'éviter les temps
 887 d'inactivité et d'exécuter des itérations différentes à un moment donné de la
 888 résolution. De ce fait, certains processeurs peuvent être plus rapides dans leurs
 889 calculs et effectuer plus d'itérations que les autres. Cependant, les solveurs
 890 itératifs asynchrones \textit{AIAC} ont des conditions de convergence plus strictes
 891 et effectuent plus d'itérations que les solveurs synchrones \textit{SISC} et \textit{SIAC}.
 892 Par conséquent, ils nécessitent une analyse plus élaborée pour déterminer les
 893 bons indicateurs de convergence.
 894 %%-------------------------------------------------------------------------------------------------------%%
 895
 896 %%-------------------------------------------------------------------------------------------------------%%
 897 \section{Conclusion}
 898 Dans ce chapitre, nous avons commencé par présenter les méthodes de résolution des systèmes linéaires creux.
 899 Premièrement, nous avons abordé l'analyse des méthodes directes qui permettent de trouver la solution exacte en un
 900 nombre d'opérations élémentaires fini. Cependant, pour la résolution des systèmes linéaires creux, nous avons mis
 901 en évidence l'existence d'une opération de remplissage à l'étape de factorisation des matrices creuses. L'opération de
 902 remplissage est très coûteuse en termes de temps d'exécution et d'espace mémoire et, plus précisément, pour
 903 les matrices creuses de grande taille. Ensuite, nous avons décrit les méthodes itératives qui permettent de
 904 calculer une solution approximative en exécutant des itérations successives d'un même bloc d'opérations
 905 élémentaires. Nous avons cité trois grandes familles de méthodes itératives à savoir: les méthodes
 906 stationnaires, les méthodes non stationnaires et les méthodes multigrilles. Celles-ci sont plus adaptées à la
 907 résolution des systèmes linéaires de grande taille et plus faciles à paralléliser.
 908
 909 Puis, nous avons étudié différentes structures de données des matrices creuses en mémoire. Elles permettent
 910 un stockage optimisé des éléments non nuls des matrices creuses, de façon à ce que les accès en lecture/écriture
 911 à la mémoire soient faciles à effectuer. Par conséquence, elles permettent d'améliorer les performances de
 912 calcul des méthodes de résolution. Enfin, nous avons donné les principaux points clés de la parallélisation
 913 des méthodes itératives sur les plateformes de calcul parallèle à mémoire distribuée, afin de résoudre des
 914 systèmes linéaires creux à très grande échelle. Nous avons présenté trois différentes méthodes itératives
 915 parallèles, classifiées selon la nature synchrone ou asynchrone de leurs itérations et/ou de leurs communications.
 916 Les méthodes synchrones sont plus efficaces sur des petits clusters homogènes ayant des liens de communications
 917 rapides, alors que les méthodes asynchrones offrent de meilleures performances sur les plateformes à clusters
 918 hétérogènes et géographiquement distants.
 919
 920 Dans la suite de ce document, nous nous intéresserons à la parallélisation des méthodes itératives sur des
 921 clusters équipés de cartes graphiques GPUs. Nous décrirons les principaux points clés des algorithmes parallèles
 922 de quelques méthodes itératives, les plus utilisées, pour la résolution des systèmes linéaires ou non linéaires
 923 creux. Ensuite, nous effectuerons une comparaison de performance entre les solveurs itératifs parallèles
 924 mis en \oe uvre sur les clusters de GPUs et les mêmes solveurs mis en \oe uvre sur les clusters CPUs.
 925 %%-------------------------------------------------------------------------------------------------------%%
 926
 927 %%% Local Variables:
 928 %%% mode: latex
 929 %%% TeX-master: "these"
 930 %%% End: