X-Git-Url: https://bilbo.iut-bm.univ-fcomte.fr/and/gitweb/these_gilles.git/blobdiff_plain/7a1f7981654e75ea330b58c7f93620ce69bf13b2..13ca7bf0cd6c0a68491100176b08e819ef173a57:/THESE/Chapters/chapter3/chapter3.tex

diff --git a/THESE/Chapters/chapter3/chapter3.tex b/THESE/Chapters/chapter3/chapter3.tex
index 52b00b7..8082daa 100644
--- a/THESE/Chapters/chapter3/chapter3.tex
+++ b/THESE/Chapters/chapter3/chapter3.tex
@@ -167,7 +167,7 @@ Un des inconvÃ©nients des algorithmes de type \textit{snake} est l'influence du
 \small
 \label{algo-snake-cpu2}
    Lire l'image $\bar{v}$\;
-   Calculer les images cumulÃ©es $S_1$, $S_I$ $S_{I^2}$ \nllabel{li-img-cumul}\tcc*[r]{en parallÃ¨le via SSE2} 
+   Calculer les images cumulÃ©es $S_1$, $S_I$ $S_{I^2}$ \nllabel{li-img-cumul}\tcc*[r]{} 
    $n \leftarrow 0$ \tcc*[r]{indice de boucle niveau contour}
    $N_n \leftarrow 4$ \tcc*[r]{nombre de n\oe uds}
    $\Gamma \leftarrow \{\Gamma_0,\Gamma_1,\Gamma_2,\Gamma_3\} $\;
@@ -256,7 +256,7 @@ La dÃ©pendance vis Ã  vis du contour initial, qui est un des principaux soucis l
 La dimension de l'image Ã  traiter a Ã©galement un effet sur le rÃ©sultat et naturellement sur le temps de calcul. Si l'on conserve la mÃªme stratÃ©gie d'optimisation que pour la segmentation de l'image 512$\times$512 pixels et un contour initial dont les cotÃ©s sont Ã  une distance des bords Ã©quivalente Ã  10\% des cotÃ©s de l'image, le rÃ©sultat sur une image identique de 4000$^2$4000 pixels est  obtenu en 1,3~s avec 1246 n\oe uds ; il est reproduit  Ã  la figure \ref{fig-snakecpu-cochon4ka}. Le nombre de pixels appartenant Ã  la rÃ©gion cible est tel que l'amplitude des dÃ©placements autorisÃ©s pour chaque n\oe ud ($d$) peut se rÃ©vÃ©ler trop faible vis-Ã -vis du seuil d'acceptation des mouvements. On observe que les zones Ã  fort contraste ne posent pas de problÃ¨me et sont dÃ©tourÃ©es de la mÃªme maniÃ¨re, alors que dans le bas de l'image oÃ¹ figure une zone de faible contraste (ombre), la cible se trouve maintenant quelque peu surÃ©valuÃ©e en surface lÃ  ou elle Ã©tait plutÃ´t sous Ã©valuÃ©e dans l'image en 512$\times$512 pixels. 
 Ces deux contours correspondent chacun Ã  un minimum local vers lequel l'algorithme du snake a convergÃ©, mais les variances associÃ©es demeurent extrÃªmement proches.
 On parvient Ã  un rÃ©sultat trÃ¨s proche beaucoup plus rapidement en adaptant les paramÃ¨tres Ã  la taille de l'image, comme le montre par exemple la segmentation de la figure \ref{fig-snakecpu-cochon4kb}, effectuÃ©e avec $d_{max}=128$ et $l_{min}=32$ et qui converge vers un contour de 447 n\oe uds en moins de 0,7~s.
-Au delÃ  des 16 millions de pixels (4000$\times$4000 pixels), l'implÃ©mentation sÃ©quentielle est toujours possible mais doit se priver des instructions SSE. Nous avons, avec l'accord des auteurs, adaptÃ© leur code en ce sens et rÃ©alisÃ© les mesures pour des tailles allant jusqu'Ã  150~MP. La table \ref{tab-snakecpu-speed-size} en synthÃ©tise les rÃ©sultats en distinguant chaque fois le temps pris par les prÃ©-calculs et celui nÃ©cessaire Ã  la convergence de la segmentation. On constate que les deux Ã©tapes et donc le temps total varient linÃ©airement avec la taille de l'image.
+Au delÃ  des 16 millions de pixels (4000$\times$4000 pixels), l'implÃ©mentation sÃ©quentielle de rÃ©fÃ©rence ne permettait plus le traitement. Nous avons, avec l'accord des auteurs, adaptÃ© leur code en ce sens et rÃ©alisÃ© les mesures pour des tailles allant jusqu'Ã  150~MP. La table \ref{tab-snakecpu-speed-size} en synthÃ©tise les rÃ©sultats en distinguant chaque fois le temps pris par les prÃ©-calculs et celui nÃ©cessaire Ã  la convergence de la segmentation. On constate que les deux Ã©tapes et donc le temps total varient linÃ©airement avec la taille de l'image.
 
 \begin{figure}
   \centering
@@ -289,7 +289,7 @@ Au delÃ  des 16 millions de pixels (4000$\times$4000 pixels), l'implÃ©mentation
       {\bf Total} &0,51&4,08&5,7\\
       \bottomrule
 \end{tabular}
-   \caption{Performances (en secondes) de la segmentation par snake polygonal sur CPU en fonction de la taille de l'image Ã  traiter. Les temps sont obtenus avec la mÃªme image de test dilatÃ©e et bruitÃ©e et un contour initial carrÃ© dont la distance aux bords est proportionnelle Ã  la taille de l'image. Seule l'image en 15~MP a pu Ãªtre traitÃ©e par une implÃ©mentation utilisant SSE2.}
+   \caption{Performances (en secondes) de la segmentation par snake polygonal sur CPU en fonction de la taille de l'image Ã  traiter. Les temps sont obtenus avec la mÃªme image de test dilatÃ©e et bruitÃ©e et un contour initial carrÃ© dont la distance aux bords est proportionnelle Ã  la taille de l'image.}
       \label{tab-snakecpu-speed-size}
 \end{table}
 
@@ -321,14 +321,14 @@ Les traitements Ã©tant totalement indÃ©pendants, nous traitons sÃ©parÃ©ment la p
 \subsection{PrÃ©-calculs des images cumulÃ©es}   
 Pour rÃ©duire la quantitÃ© de mÃ©moire requise, nous avons choisi de ne pas gÃ©nÃ©rer l'image $S_1$ mais plutÃ´t d'en calculer les valeurs Ã  la volÃ©e. L'expression en est simple et le temps pris par les opÃ©rations Ã©lÃ©mentaires qu'elle met en jeu est largement compensÃ© par le gain obtenu en Ã©conomisant les accÃ¨s mÃ©moire qui auraient Ã©tÃ© nÃ©cessaires, ce qui n'est pas le cas des deux autres images $S_I$ et $S_I^2$ dont le calcul est quant Ã  lui rÃ©alisÃ© en appliquant une variante de la mÃ©thode des sommes prÃ©fixÃ©es (\textit{prefixsums}) dÃ©crite dans \cite{BlellochTR90} et qui permet d'Ã©valuer les expressions de l'Ã©quation \eqref{eq-img-cumul}.
 
-Les sommations se font au niveau de chaque ligne de l'image, que l'on dÃ©compose en $n$ blocs de $bs$ pixels oÃ¹ $bs$ correspond aussi au nombre de threads exÃ©cutÃ©s par chaque bloc de la grille de calcul. La valeur $bs$ Ã©tant obligatoirement une puissance de 2 supÃ©rieure Ã  32, le bloc de pixels d'indice $n-1$ doit Ã©ventuellement Ãªtre complÃ©tÃ© par des valeurs nulles. Chaque bloc de thread rÃ©alise son traitement indÃ©pendemment des autres, mais l'ensemble des sommes de bloc Ã©tant requise pour le calcul des sommes globales, une synchronisation est nÃ©cessaire Ã  deux endroits du calcul. Nous avons choisi d'assurer ces synchronisations en dÃ©coupant le traitement en trois \textit{kernels} distincts, rendant par la mÃªme occasion le code plus concis :
+Les sommations se font au niveau de chaque ligne de l'image, que l'on dÃ©compose en $n$ blocs de $bs$ pixels oÃ¹ $bs$ correspond aussi au nombre de threads exÃ©cutÃ©s par chaque bloc de la grille de calcul. La valeur $bs$ Ã©tant obligatoirement une puissance de 2 supÃ©rieure Ã  32, le bloc de pixels d'indice $n-1$ doit Ã©ventuellement Ãªtre complÃ©tÃ© par des valeurs nulles. Chaque bloc de thread rÃ©alise son traitement indÃ©pendemment des autres, mais l'ensemble des sommes de bloc Ã©tant requise pour le calcul des sommes globales, une synchronisation est nÃ©cessaire Ã  deux endroits du calcul. Nous avons choisi d'assurer ces synchronisations en dÃ©coupant le traitement en trois \textit{kernels} distincts, rendant par la mÃªme occasion le code plus concis. Les diagrammes de la figure \ref{fig-calcul-cumuls} donnent le dÃ©tail des opÃ©rations effectuÃ©es par ces trois \textit{kernels} pour l'image cumulÃ©e $S_I$ :
 \begin{itemize}
-\item \texttt{compute\_block\_prefixes()} est le \textit{kernel} effectuant, en mÃ©moire partagÃ©e, la \textit{prefixsum} inclusive de chaque bloc, puis qui en mÃ©morise la sommes, \textit{i.e} le dernier Ã©lÃ©ment, dans deux vecteurs $V_x$ et $V_x^2$ en mÃ©moire globale. L'ensemble des prefixsums est Ã©galement mÃ©morisÃ© en mÃ©moire globale. La largeur de l'image n'Ã©tant pas nÃ©cessairement une puissance de 2, il est nÃ©cessaire de faire du remplissage avec des valeurs nulles dans le dernier bloc (indice $n-1$). 
+\item \texttt{compute\_block\_prefixes()} est le \textit{kernel} effectuant, en mÃ©moire partagÃ©e, la \textit{prefixsum} inclusive de chaque bloc, puis qui en mÃ©morise les sommes, \textit{i.e} le dernier Ã©lÃ©ment, dans deux vecteurs $V_x$ et $V_x^2$ en mÃ©moire globale. L'ensemble des prefixsums est Ã©galement mÃ©morisÃ© en mÃ©moire globale. La largeur de l'image n'Ã©tant pas nÃ©cessairement une puissance de 2, il est nÃ©cessaire de faire du remplissage avec des valeurs nulles dans le dernier bloc (indice $n-1$). 
 \item \texttt{scan\_blocksums()} est le \textit{kernel} effectuant les prefixsum exclusifs des vecteurs $V_x$ et $V_x^2$. Les rÃ©sultat demeurent respectivement dans $V_x$ et $V_x^2$.
 \item \texttt{add\_sums2prefixes()} est le \textit{kernel} effectuant les additions de chaque Ã©lÃ©ment d'indice $i$ des vecteurs $V_x$ (respectivement $V_x^2$) avec tous les Ã©lÃ©ments du prefixsum du bloc de mÃªme indice $i$. 
 \end{itemize}
 
-Les diagrammes de la figure \ref{fig-calcul-cumuls} donnent le dÃ©tail des opÃ©rations effectuÃ©es par ces trois \textit{kernels} pour l'image cumulÃ©e $S_I$. La seconde image cumulÃ©e $S_{I^2}$ est obtenues exactement de la mÃªme maniÃ¨re en sommant non plus les valeurs $v_k$ mais $v^2_k$.
+La seconde image cumulÃ©e $S_{I^2}$ est obtenues exactement de la mÃªme maniÃ¨re en sommant non plus les valeurs $v_k$ mais $v^2_k$.
 
 \begin{figure}
   \centering
@@ -339,7 +339,7 @@ Les diagrammes de la figure \ref{fig-calcul-cumuls} donnent le dÃ©tail des opÃ©r
 \label{fig-calcul-cumuls}
 \end{figure}
 
-Les gains de performance de cette implÃ©mentation GPU comparÃ©e Ã  l'implÃ©mentation CPU/SSE2 sont ceux de la table \ref{tab-speedup-cumuls}, soit un GPU environ 7 fois plus rapide pour des images de taille 15 Ã  150 millions de pixels. L'influence de la taille d'image sur le gain est faible, mais on peut toutefois noter que plus l'image est grande plus le gain est important. 
+Les gains de performance de cette implÃ©mentation GPU comparÃ©e Ã  l'implÃ©mentation CPU (mono thread) sont ceux de la table \ref{tab-speedup-cumuls}, soit un GPU environ 7 fois plus rapide pour des images de taille 15 Ã  150 millions de pixels. L'influence de la taille d'image sur le gain est faible, mais on peut toutefois noter que plus l'image est grande plus le gain est important. 
 Les accÃ©lÃ©rations constatÃ©es peuvent sembler faibles en regard de ce que l'on attend d'un GPU, mais il faut rappeler que ce type d'opÃ©ration (les rÃ©ductions) n'est pas vÃ©ritablement adaptÃ© Ã  leur architecture en raison d'une grande inter-dÃ©pendance des donnÃ©es d'une Ã©tape de calcul Ã  l'autre. Sans une implÃ©mentation optimisÃ©e, cette opÃ©ration s'exÃ©cuterait mÃªme plus lentement sur GPU que sur un CPU.     
 On obtient des accÃ©lÃ©rations supÃ©rieures en rendant le calcul moins gÃ©nÃ©rique et en dÃ©veloppant des versions spÃ©cifiques des trois \textit{kernels}, dÃ©diÃ©es par exemple au traitement des images dont largeur est multiple de 256 pixels.
 \begin{table}[h]
@@ -363,7 +363,7 @@ On obtient des accÃ©lÃ©rations supÃ©rieures en rendant le calcul moins gÃ©nÃ©riq
 
 \subsection{Calcul des contributions des segments}
 
-Le dÃ©placement d'un des $N_n$ n\oe uds du contour $\Gamma$ vers l'une des 8 positions voisines permises, impose d'Ã©valuer les contributions des 8 paires de segments associÃ©es, soit $16N_n$ segments pour la totalitÃ© du contour, que nous Ã©valuons en parallÃ¨le au sein du \textit{kernel} \texttt{GPU\_compute\_segments\_contribs()}. Pour ce faire, chaque segment doit tout d'abord Ãªtre discrÃ©tisÃ© en une suite de pixels puis, en conservant la rÃ¨gle \textit{1 pixel par thread} la contribution de chaque pixel est dÃ©terminÃ©e avant de toutes les additionner pour obtenir la contribution du segment. 
+Le dÃ©placement d'un des $N_n$ n\oe uds du contour $\Gamma$ vers l'une des 8 positions voisines Ã  distance $d$\footnote{Sous rÃ©serve que la position considÃ©rÃ©e ne dÃ©passe pas les limites de l'image.}, impose d'Ã©valuer les contributions des 8 paires de segments associÃ©es, soit $16N_n$ segments pour la totalitÃ© du contour, que nous Ã©valuons en parallÃ¨le au sein du \textit{kernel} \texttt{GPU\_compute\_segments\_contribs()}. Pour ce faire, chaque segment doit tout d'abord Ãªtre discrÃ©tisÃ© en une suite de pixels puis, en conservant la rÃ¨gle \textit{1 pixel par thread} la contribution de chaque pixel est dÃ©terminÃ©e avant de toutes les additionner pour obtenir la contribution du segment. 
 Les pixels reprÃ©sentant les n\oe uds font l'objet d'un traitement spÃ©cifique impliquant les codes de Freeman, pour ne pas fausser les contributions globales (voir paragraphe \ref{snake-cpu-impl}).  
 
 Pour optimiser l'exÃ©cution de ce kernel et rÃ©duire l'effet de la disparitÃ© des longueurs des segments, nous avons crÃ©e un motif rÃ©gulier en mÃ©moire, basÃ© sur la longueur $npix_{max}$ du plus grand segment et avons complÃ©tÃ© les blocs associÃ©s aux segments de longueur infÃ©rieure Ã  $npix_{max}$ avec des valeurs neutres pour l'opÃ©ration rÃ©alisÃ©e, c'est-Ã -dire des valeurs nulles. 
@@ -402,7 +402,7 @@ La seconde ligne prÃ©sente l'ordre dans lequel sont concatÃ©nÃ©s les 16 groupes
 Les deux derniÃ¨res lignes dÃ©crivent la concatÃ©nation des ensembles de 16 blocs-segment, avec la particularitÃ© de sÃ©parer la description des positions des n\oe uds d'indices pairs et ceux d'indices impairs. Cela permet de moins s'Ã©carter de l'heuristique d'optimisation en vigueur dans la version sÃ©quentielle oÃ¹ les statistiques globales comme la valeur de critÃ¨re $GL$ sont recalculÃ©es aprÃ¨s chaque dÃ©placement (figures \ref{fig-cycle-contribs-segments-a}, \ref{fig-cycle-contribs-segments-b} et \ref{fig-cycle-contribs-segments-c}) .
 
 En version parallÃ¨le, si les \og meilleures \fg{}  positions de tous les n\oe uds sont calculÃ©es simultanÃ©ment, le contour gÃ©nÃ©rÃ© est constituÃ© de segments qui n'ont pas Ã©tÃ© validÃ©s pendant la phase de dÃ©placement des n\oe uds, comme l'illustre la figure \ref{fig-cycle-contribs-segments-e}. La valeur du critÃ¨re $GL$ doit donc Ãªtre calculÃ©e aprÃ¨s coup sur les segments rÃ©els du nouveau contour. Dans l'absolu, nous ne sommes donc pas assurÃ©s d'amÃ©liorer rÃ©ellement la valeur du critÃ¨re par rapport au contour de l'itÃ©ration prÃ©cÃ©dente.
-Pour limiter ce phÃ©nomÃ¨ne, qui pourrait provoquer des oscillations et empÃªcher la convergence, nous avons effectuÃ© les dÃ©placements en alternant ceux des n\oe uds d'indices pairs et ceux d'indices impairs. Cela permet de rÃ©gler le problÃ¨me lorsque le nombre de n\oe uds du contour est pair. Comme le montrent les figures \ref{fig-cycle-contribs-segments-e} et \ref{fig-cycle-contribs-segments-e}, un segment du contour demeure non validÃ© lorsque le nombre de n\oe uds est impair et nous impose toujours de recalculer, \textit{a posteriori}, la valeur du critÃ¨re $GL$ pour s'assurer de l'amÃ©lioration apportÃ© par les dÃ©placements des n\oe uds.   
+Pour limiter ce phÃ©nomÃ¨ne, qui pourrait provoquer des oscillations et empÃªcher la convergence, nous avons effectuÃ© les dÃ©placements en alternant ceux des n\oe uds d'indices pairs et ceux d'indices impairs. Cela permet de rÃ©gler le problÃ¨me lorsque le nombre de n\oe uds du contour est pair. Comme le montrent les figures \ref{fig-cycle-contribs-segments-e} et \ref{fig-cycle-contribs-segments-e}, un segment du contour demeure non validÃ© lorsque le nombre de n\oe uds est impair et nous impose toujours de recalculer, \textit{a posteriori}, la valeur du critÃ¨re $GL$ pour s'assurer de l'amÃ©lioration apportÃ© par les dÃ©placements des n\oe uds. La version parallÃ¨le reproduit, malgrÃ© cela, assez fidÃ¨lement la version sÃ©quentielle en effectuant une optimisation n\oe ud par n\oe ud et non une optimisation au niveau du contour complet.    
 
   
 \begin{figure}
@@ -421,7 +421,7 @@ La reprÃ©sentation en mÃ©moire des segments conduit Ã  avoir un certain nombre n
 
 Les calculs liÃ©s Ã  l'Ã©valuation des contributions des pixels sont rÃ©alisÃ©s en mÃ©moire partagÃ©e. Seule une trÃ¨s petite quantitÃ© de donnÃ©es doit Ãªtre stockÃ©e en mÃ©moire globale. Il s'agit, pour chaque {\bf segment} :
 \begin{itemize}
-\item des coordonnÃ©es de son milieu. Cela permet l'ajout efficace de n\oe ud quand c'est possible.
+\item des coordonnÃ©es de son milieu. Cela permet l'ajout de n\oe ud quand c'est possible, sans calcul supplÃ©mentaire.
 \item les coordonnÃ©es des deux derniers pixels de chaque extrÃ©mitÃ©. Ils sont nÃ©cessaires pour calculer la dÃ©rivÃ©e aux extrÃ©mitÃ©s et ainsi dÃ©terminer le code de Freeman des n\oe uds.      
 \end{itemize}
 
@@ -473,16 +473,17 @@ Dans l'hypothÃ¨se la plus contraignante d'images en niveaux de gris codÃ©s sur 1
 \item l'image cumulÃ©e $S_I$ pour 8 octets par pixel (1 entier long)
 \item l'image cumulÃ©e $S_{I^2}$ pour 8 octets par pixel (1 entier long)
 \end{itemize}
-auxquels il faut ajouter un maximum d'environ 50~Mo d'espace nÃ©cessaire Ã  la mÃ©morisation des variables temporaires des calculs et donnÃ©es diverses comme le contour lui-mÃªme (n\oe uds, milieux, Freemans, etc.).   
+auxquels il faut ajouter un maximum d'environ 50~Mo d'espace nÃ©cessaire Ã  la mÃ©morisation des variables temporaires des calculs et des donnÃ©es du contour lui-mÃªme : coordonnÃ©es des n\oe uds, des milieux des segments, codes de Freeman.   
 
 Sur un GPU de type C1060 disposant de 3~Go de mÃ©moire, cela permet de traiter des images jusqu'Ã  presque 150 millions de pixels.
 Il est possible de rÃ©duire cette empreinte jusqu'Ã  13 octets par pixel, mais cela soulÃ¨ve la question de l'alignement des donnÃ©es en mÃ©moire, sans objet si on emploie les types entier et entier long (32 et 64 bits) pour la reprÃ©sentation des donnÃ©es et qui permet de prÃ©server les performances maximales des opÃ©rations et des accÃ¨s aux donnÃ©es du GPU. On pourrait tout de mÃªme porter ainsi la limite de taille de l'image d'entrÃ©e Ã  230 millions de pixels.
 
-La convergence de notre implÃ©mentation intervient en un nombre gÃ©nÃ©ralement plus rÃ©duit d'itÃ©rations vers un contour final qui diffÃ¨re par essence de celui obtenu avec la solution de rÃ©fÃ©rence. Ces effets sont la consÃ©quence dÃ©jÃ  abordÃ©e de l'heuristique d'optimisation appliquÃ©e Ã  l'implÃ©mentation parallÃ¨le qui conduit Ã  la crÃ©ation de certains segments non validÃ©s au prÃ©alable (voir fig. \ref{fig-cycle-contribs-segments}).
+Comme l'heuristique d'optimisation appliquÃ©e Ã  l'implÃ©mentation parallÃ¨le conduit Ã  la crÃ©ation de certains segments non validÃ©s au prÃ©alable (voir fig. \ref{fig-cycle-contribs-segments}), notre implÃ©mentation peut converger plus tÃ´t que la version de rÃ©fÃ©rence CPU, gÃ©nÃ©ralement une itÃ©ration avant.
 
-Les comparaisons visuelles et de valeur du critÃ¨re $GL$ qui peuvent Ãªtre faites pour les images de taille infÃ©rieure Ã  4096$\times$4096 pixels nous renseignent toutefois sur la qualitÃ© de la segmentation obtenue. Pour les tailles au delÃ  et jusqu'au maximum de 12000$\times$12000 pixels, le comportement est globalement conservÃ©, mais on note qu'il n'est pas pertinent de permettre des tailles de segments trop petites vis-Ã -vis de la taille d'image. Les dÃ©placements des n\oe uds ne gÃ©nÃ©rent alors plus de variations significatives des contributions correspondantes.
+Les comparaisons visuelles et de valeur du critÃ¨re final $GL$ aprÃ¨s convergence nous renseignent toutefois sur la qualitÃ© de la segmentation obtenue avec des solutions trÃ¨s voisines de celles de la version de rÃ©fÃ©rence.
 
-La figure \ref{fig-snakegpu-result} prÃ©sente une segmentation effectuÃ©e sur une image de 100 millions de pixels. La table \ref{tab-snake-results} rÃ©sume les performances obtenues pour diffÃ©rentes tailles de la mÃªme image.
+La figure \ref{fig-snakegpu-result} prÃ©sente une segmentation effectuÃ©e sur une image de 100 millions de pixels. La table \ref{tab-snake-results} rÃ©sume les performances obtenues pour diffÃ©rentes tailles de la mÃªme image. Une implÃ©mentation CPU multi threads permettrait d'accÃ©lÃ©rer significativement le calcul des images cumulÃ©es. Nous n'avons pas toutefois Ã©valuÃ© l'accÃ©lÃ©ration rÃ©elle qu'une telle solution apporterait. En revanche, on peut affirmer que l'emploi du GPU reste pertinent car aucune solution multi threads classique n'est envisageable pour implÃ©menter la partie segmentation de l'algorithme, la plus coÃ»teuse en temps de calcul et donc celle qu'il est le plus judicieux de parallÃ©liser.
+   
 \begin{table}[h]
   \centering
   \begin{tabular}{rrrrr}
@@ -505,7 +506,7 @@ La figure \ref{fig-snakegpu-result} prÃ©sente une segmentation effectuÃ©e sur un
 
       \bottomrule
 \end{tabular}
-   \caption{Comparaison des temps d'exÃ©cution de l'implÃ©mentation GPU (C2070) par rapport Ã  l'implÃ©mentation CPU de rÃ©fÃ©rence, appliquÃ©s Ã  une mÃªme image dilatÃ©e (fig. \ref{fig-snakecpu-cochon512}) pour en adapter la taille.}
+   \caption{Comparaison des temps d'exÃ©cution de l'implÃ©mentation GPU (C2070) par rapport Ã  l'implÃ©mentation CPU (mono thread) de rÃ©fÃ©rence, pour une mÃªme image dilatÃ©e (fig. \ref{fig-snakecpu-cochon512}) pour en adapter la taille.}
       \label{tab-snake-results}
 \end{table} 
 
@@ -518,10 +519,10 @@ La figure \ref{fig-snakegpu-result} prÃ©sente une segmentation effectuÃ©e sur un
 \label{fig-snakegpu-result}
 \end{figure}
 
-\subsection{DÃ©termination intelligente du contour initial}
+\subsection{DÃ©termination du contour initial au sens du maximum de vraisemblance}
 Nous avons dÃ©jÃ  discutÃ© de l'influence du contour initial sur le rÃ©sultat de la segmentation, mais il faut ajouter que la durÃ©e d'exÃ©cution est aussi impactÃ©e par ce choix, dans des proportions qui peuvent Ãªtre importantes selon la distance, la taille et dans une moindre mesure la forme de la cible.
 
-Ces effets se mesurent lors de la premiÃ¨re itÃ©ration, celle qui va cerner grossiÃ¨rement la cible avec un polygone Ã  quatre cotÃ©s. Si le contour initial se trouve trÃ¨s Ã©loignÃ©, comme dans la situation de la figure \ref{fig-snakecpu-cochon4kc3}, notre choix maintenant habituel d'un rectangle prÃ¨s des bords de l'image s'avÃ¨re peu adaptÃ© et conduit Ã  une premiÃ¨re itÃ©ration trÃ¨s longue. Dans un tel cas, pour une image de 10000$\times$10000 pixels, si la cible est un carrÃ© de 1000$\times$1000 pixels dont le sommet du bas Ã  droite se confond avec celui du contour et que l'on approche par pas de 64 pixels, on devra dans le meilleur des cas dÃ©placer les 4 n\oe uds du contour 110 fois de suite avant de pouvoir passer Ã  la deuxiÃ¨me itÃ©ration. Un pas de 128 permet de rÃ©duire ces valeurs, mais l'expÃ©rience montre qu'au delÃ , l'approche initiale de la cible est trop grossiÃ¨re et les itÃ©rations suivantes en pÃ¢tissent pour un rÃ©sultat souvent dÃ©gradÃ©.
+Ces effets se mesurent lors de la premiÃ¨re itÃ©ration, celle qui va cerner grossiÃ¨rement la cible avec un contour Ã  quatre n\oe uds. Si le contour initial se trouve trÃ¨s Ã©loignÃ©, comme dans la situation de la figure \ref{fig-snakecpu-cochon4kc3}, notre choix maintenant habituel d'un rectangle prÃ¨s des bords de l'image s'avÃ¨re peu adaptÃ© et conduit Ã  une premiÃ¨re itÃ©ration trÃ¨s longue. Dans un tel cas, pour une image de 10000$\times$10000 pixels, si la cible est un carrÃ© de 1000$\times$1000 pixels dont le sommet du bas Ã  droite se confond avec celui du contour et que l'on approche par pas de 64 pixels, on devra dans le meilleur des cas dÃ©placer les 4 n\oe uds du contour 110 fois de suite avant de pouvoir passer Ã  la deuxiÃ¨me itÃ©ration. Un pas de 128 permet de rÃ©duire ces valeurs, mais l'expÃ©rience montre qu'au delÃ , l'approche initiale de la cible est trop grossiÃ¨re et les itÃ©rations suivantes en pÃ¢tissent pour un rÃ©sultat souvent dÃ©gradÃ©.
 En revanche, si les proportions sont celles de la figure \ref{fig-snakecpu-cochon512}, seules 31 passes de dÃ©placement des 4 n\oe uds initiaux sont nÃ©cessaires.
 
 Pour optimiser l'initialisation, nous avons donc proposÃ© de tirer parti du GPU pour Ã©valuer une grande quantitÃ© de contours initiaux rectangulaires et rÃ©duire ainsi le coÃ»t de la premiÃ¨re itÃ©ration. Pour pouvoir employer la mÃ©moire partagÃ©e comme tampon de donnÃ©es, il faut limiter le nombre de contours Ã  Ã©valuer. Nous avons donc effectuÃ© un Ã©chantillonnage spatial des images et dÃ©terminÃ© le contour initial en deux temps, en mettant Ã  profit la propriÃ©tÃ© qu'ont les segments horizontaux d'avoir une contribution nulle, comme on peut le vÃ©rifier en se reportant Ã  la figure \ref{fig-freeman} et Ã  la table \ref{tab-freeman}. Le principe mis en \oe uvre, illustrÃ© par la figure \ref{fig-smart-init} est le suivant :
@@ -532,14 +533,14 @@ Pour optimiser l'initialisation, nous avons donc proposÃ© de tirer parti du GPU
 \item on fait de mÃªme en Ã©chantillonnant verticalement : les lignes d'indice $i=8t$ permettent de dÃ©crire tous les contours de diagonale $(i_L, j_L)-(i_H, j_H)$. Le meilleur contour est celui retenu pour l'initialisation de la segmentatation.  
 \end{enumerate}
 
-Le gain de  performance apportÃ© par cette initialisation \og intelligente \fg{} est naturellement trÃ¨s variable selon la cible, mais dans des situations favorables comme celle de l'image de la figure \ref{fig-snakecpu-cochon4kc3}, on parvient Ã  une accÃ©lÃ©ration proche de 15 alors qu'elle n'est que d'environ 7 avec l'initialisation basique. Cette proportion est conservÃ©e pour les tailles supÃ©rieures et signifie que la phase de segmentation est tout de mÃªme effectuÃ©e 30 fois plus rapidement qu'avec l'implÃ©mentation CPU, grÃ¢ce Ã  une premiÃ¨re itÃ©ration optimisÃ©e.  
+Le gain de  performance apportÃ© par cette stratÃ©gie d'initialisation est variable selon la cible, mais dans des situations favorables comme celle de l'image de la figure \ref{fig-snakecpu-cochon4kc3}, on parvient Ã  une accÃ©lÃ©ration proche de 15 alors qu'elle n'est que d'environ 7 avec l'initialisation basique. Cette proportion est conservÃ©e pour les tailles supÃ©rieures et signifie que la phase de segmentation est tout de mÃªme effectuÃ©e 30 fois plus rapidement qu'avec l'implÃ©mentation CPU, grÃ¢ce Ã  une premiÃ¨re itÃ©ration optimisÃ©e.  
 
 \begin{figure}
   \centering
   \subfigure[DÃ©termination de $j_L$ et $j_H$.]{\resizebox{6cm}{!}{\input{/home/zulu/Documents/these_gilles/THESE/Chapters/chapter3/img/smart_init1.pdf_t}}}\quad
  \subfigure[DÃ©termination de $i_L$ et $i_H$.]{\resizebox{6cm}{!}{\input{/home/zulu/Documents/these_gilles/THESE/Chapters/chapter3/img/smart_init2.pdf_t}}}
 \label{fig-smart-init}
-  \caption{DÃ©termination intelligente du contour initial en deux phases successives. (a) La premiÃ¨re Ã©tape repose sur un Ã©chantillonnage horizontal. (b) La seconde Ã©tape repose sur un Ã©chantillonnage vertical.}
+  \caption{DÃ©termination du contour initial au sens du maximum de vraisemblance, par deux phases successives. (a) La premiÃ¨re Ã©tape repose sur un Ã©chantillonnage horizontal. (b) La seconde Ã©tape repose sur un Ã©chantillonnage vertical.}
 \end{figure}
  
 \subsection{Conclusion}
@@ -552,13 +553,14 @@ L'emploi du GPU dans notre implÃ©mentation ne parvient pas Ã  Ãªtre optimal car,
 
 S'il s'agit de parler d'accÃ©lÃ©ration, notre implÃ©mentation divise les temps de traitement prÃ©cÃ©dents par un facteur allant de 6 Ã  15 selon l'image et le contour initial adoptÃ©. Rappelons encore que l'implÃ©mentation CPU de rÃ©fÃ©rence n'est pas une implÃ©mentation naÃ¯ve, mais une solution optimisÃ©e employant dÃ©jÃ  les capacitÃ©s de parallÃ©lisme des microprocesseurs modernes et affichant les performances les plus Ã©levÃ©es dans ce domaine ; il n'Ã©tait pas trivial d'en surpasser les performances, mÃªme avec un GPU.     
 
-Par nÃ©cessitÃ©, notre solution s'Ã©carte cependant quelque peu de l'algorithme original pour permettre les dÃ©placements simultanÃ©s de l'ensemble des sommets du polygone. Ce faisant, la dÃ©croissance du critÃ¨re n'est pas certaine Ã  toutes les Ã©tapes de la segmentation et l'on observe cette consÃ©quence, en particulier lors des derniÃ¨re itÃ©rations lorsque le pas de dÃ©placement ainsi que les variations du critÃ¨re sont faibles. Ce comportement  provoque parfois la convergence prÃ©maturÃ©e de la segmentation, mais n'influe toutefois que sur quelques n\oe uds et le contour ainsi obtenu ne s'Ã©loigne que trÃ¨s peu du contour obtenu par l'algorithme de rÃ©fÃ©rence.
+Par nÃ©cessitÃ©, notre solution s'Ã©carte cependant quelque peu de l'algorithme original pour permettre les dÃ©placements simultanÃ©s des sommets d'indices pairs, puis impairs, du polygone. Ce faisant, on observe parfois la convergence de notre solution Ã  l'avant derniÃ¨re Ã©tape de la segmentation rÃ©alisÃ©e par la version sÃ©quentielle de rÃ©fÃ©rence itÃ©ration, sans que cela n'influe significativement sur la qualitÃ©. En effet, seuls quelques n\oe uds voient leur position potentiellement modifiÃ©e d'un seul pixel (le pas de dÃ©placement des derniÃ¨res Ã©tapes) et le contour obtenu ne s'Ã©loigne donc que trÃ¨s peu du contour obtenu par l'algorithme de rÃ©fÃ©rence.
 
-La technique que nous avons proposÃ©e pour la dÃ©termination intelligente du contour initial permet d'augmenter encore les performances, surtout dans les grandes images lorsque la cible est petite vis-Ã -vis des dimensions de l'image. Il reste toutefois Ã  concevoir une technique permettant de prÃ©voir si cette recherche intelligente serait gÃ©nÃ©ratrice de gain de performance. 
+La technique que nous avons proposÃ©e pour la dÃ©termination intelligente du contour initial permet d'augmenter encore les performances, surtout dans les grandes images lorsque la cible est petite vis-Ã -vis des dimensions de l'image. Il reste toutefois Ã  concevoir une technique permettant de prÃ©voir si cette recherche de contour initial serait gÃ©nÃ©ratrice de gain de performance. 
 
 L'analyse fine des sÃ©quences de segmentation montre enfin que les premiÃ¨re Ã©tapes, qui mettent en \oe uvre les segments les plus longs, gÃ©nÃ¨rent des grilles de calcul suffisamment chargÃ©es et homogÃ¨nes pour prÃ©senter de bonnes performances. Les derniÃ¨res Ã©tapes, en revanche, traitent un grand nombre de petits segments, gÃ©nÃ©rant beaucoup de trous dans la grille de calcul et induisant des performances moindres. 
 
-Pour rÃ©sumer, l'accÃ©lÃ©ration globale obtenue est principalement dÃ©terminÃ©e par le calcul des images cumulÃ©es et des toutes premiÃ¨res Ã©tapes de dÃ©placements. Une possibilitÃ© Ã  explorer serait de construire une version hybride rÃ©alisant le dÃ©but de la segmentation sur GPU, puis la terminant sur le CPU hÃ´te. Ceci est envisageable en raison du trÃ¨s petit volume de donnÃ©es Ã  transfÃ©rer que constituent les paramÃ¨tres du contour (2~ko pour 100 n\oe uds).
+Pour rÃ©sumer, l'accÃ©lÃ©ration globale obtenue est principalement dÃ©terminÃ©e par le calcul des images cumulÃ©es et des toutes premiÃ¨res Ã©tapes de dÃ©placements. Une possibilitÃ© Ã  explorer serait de construire une version hybride rÃ©alisant le dÃ©but de la segmentation sur GPU, puis la terminant sur le CPU hÃ´te. Ceci est envisageable en raison du trÃ¨s petit volume de donnÃ©es Ã  transfÃ©rer que constituent les paramÃ¨tres du contour (2~ko pour 100 n\oe uds). Cette Ã©tude nous conforte Ã©galement dans l'idÃ©e que la transposition pour GPU d'algorithmes sÃ©quentiels optimisÃ©s pour CPU, malgrÃ© des adaptations Ã  l'architecture, ne semble pas Ãªtre la dÃ©marche permettant d'atteindre les niveaux de performances attendus lorsqu'on met en \oe uvre ces processeurs graphiques. 
+