]> AND Private Git Repository - lniv_gpu.git/commitdiff
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
version operationnelle avec chemins parametrables pathVar
authorGilles Perrot <gilles.perrot@univ-fcomte.fr>
Wed, 22 Jun 2011 06:06:05 +0000 (08:06 +0200)
committerGilles Perrot <gilles.perrot@univ-fcomte.fr>
Wed, 22 Jun 2011 06:06:05 +0000 (08:06 +0200)
22 files changed:
image_out16.pgm [new file with mode: 0644]
lniv.cvp [new file with mode: 0644]
lniv_Session19_Context_0.csv [new file with mode: 0644]
lniv_Session21_Context_0.csv [new file with mode: 0644]
lniv_Session22_Context_0.csv [new file with mode: 0644]
lniv_nosmem_tex_Context_0.csv [new file with mode: 0644]
lniv_smem2DnoCFI_Context_0.csv [new file with mode: 0644]
lniv_smemCFI_1linearArray_Context_0.csv [new file with mode: 0644]
lniv_smem_3staticArrays_Context_0.csv [new file with mode: 0644]
lniv_smem_3staticArrays_Context_0.trc [new file with mode: 0644]
lniv_smem_3staticArrays_Context_1.trc [new file with mode: 0644]
lniv_smem_3staticArrays_Context_2.trc [new file with mode: 0644]
lniv_smem_zc_CFI_linearArray_Context_0.csv [new file with mode: 0644]
profile.cvp [new file with mode: 0644]
profile_Session1_Context_0.csv [new file with mode: 0644]
profile_Session1_Context_0.trc [new file with mode: 0644]
profilerapitrace_0.trc [new file with mode: 0644]

index e69de29bb2d1d6434b8b29ae775ad8c2e48c5391..c39d6c5163bc3bd5d2e2fa0b58fdcf8271508120 100644 (file)
@@ -0,0 +1,2 @@
+# ne pas surveiller les fichiers objet
\ No newline at end of file
index 2801dda51ec61c0c02bda9e8dd5aa836b5b14d6c..20361caf68a025b383e906c6aaa496ef1311d5f4 100644 (file)
--- a/Makefile
+++ b/Makefile
@@ -34,9 +34,9 @@
 # Add source files here
 # Add source files here
-EXECUTABLE     := levelines
+EXECUTABLE     := lniv
 # CUDA source files (compiled with cudacc)
 # CUDA source files (compiled with cudacc)
-CUFILES                := main_gmem.cu
+CUFILES                := main.cu
 # CUDA dependency files
 CU_DEPS                := levelines_common.h
 # C/C++ source files (compiled with gcc / c++)
 # CUDA dependency files
 CU_DEPS                := levelines_common.h
 # C/C++ source files (compiled with gcc / c++)
diff --git a/image_out16.pgm b/image_out16.pgm
new file mode 100644 (file)
index 0000000..2cbfd03
Binary files /dev/null and b/image_out16.pgm differ
index ddb0ea2a01f25a19095bb56b10a1a0eb1f06383c..b96bc6b7b0227513c6deebd1fae6659ff25dabd7 100644 (file)
 // Reference CPU functions
 //extern "C" void fonc(...);
 // Reference CPU functions
 //extern "C" void fonc(...);
+ *
+ * \brief determine la valeur de NG de la ligne de niveau demarrant de i,j
+ * \author NB - PhyTI
+ *
+ * \param[in] image  image d'entree
+ * \param[in] i      coord i du point de depart
+ * \param[in] j      coord j du point de depart
+ *
+ * \return la valeur de la ligne
+ *
+ * la ligne de niveau ne va que d'un cote
+ * on cherche le segment de r pixels ou les valeurs
+ * de l'image ont une variance minimale 
+ * il y a 24 segments possibles (4 par quadrants)
+ * la direction 0 va vers le haut, les directions tournent 
+ * dans le sens horaire, dans l'ordre croissant
+ *
+ * pas de test de bord : pas d'utilisation a moins de r pixels du bords
+ * 
+ *
+ */
+int lniv4_value(unsigned int *image, int2 *path, int i, int j, int idim, int jdim, int *dout, unsigned int r )
+  int value_c ;
+  int value2_c ;
+  int d, v, p, d_min, eq_min, eq, sum, sum2 ;
+  int sum_eq_min ;
+  int it, jt ;
+  /* mem */
+  value_c = image[i*jdim + j] ;
+  value2_c = value_c*value_c ;
+  // direction d=0
+  sum = value_c ;
+  sum2 = value2_c ;
+  it = i ;
+  jt = j ;
+  for (p=0; p<r-1; p++)
+    {
+      it += path[p].x ; // Di_Q1[0][p] ;
+      jt += path[p].y ; // Dj_Q1[0][p] ;
+      v = image[it*jdim + jt] ;
+      sum += v ;
+      sum2 += v*v ;
+    }
+  eq_min = sum2 - sum*sum/r ; /* *4 */
+  sum_eq_min = sum ;
+  d_min = 0 ;
+  /* direction 1 a 5 */
+  for (d=1; d<6; d++)
+    {
+      sum = value_c ;
+      sum2 = value2_c ;
+      it = i ;
+      jt = j ;
+      for (p=0; p<r-1; p++)
+       {
+         it += path[d*jdim + p].x ; // Di_Q1[d][p] ;
+         jt += path[d*jdim + p].y ; // Dj_Q1[d][p] ;
+         v = image[it*jdim + jt] ;
+         sum += v ;
+         sum2 += v*v ;
+       }
+      eq = sum2 - sum*sum/r ; /* *4 */
+      if (eq < eq_min)
+       {
+         eq_min = eq ;
+         sum_eq_min = sum ;
+         d_min = d ; /* pour info */    
+       }
+    }
+  /* direction 6 a 11 */
+  for (d=0; d<6; d++)
+    {
+      sum = value_c ;
+      sum2 = value2_c ;
+      it = i ;
+      jt = j ;
+      for (p=0; p<r-1; p++)
+       {
+         it += path[d*jdim + p].y ; // Dj_Q1[d][p] ;
+         jt -= path[d*jdim + p].x ; // ]Di_Q1[d][p] ;
+         v = image[it*jdim + jt] ;
+         sum += v ;
+         sum2 += v*v ;
+       }
+      eq = sum2 - sum*sum/r ; /* *4 */
+      if (eq < eq_min)
+       {
+         eq_min = eq ;
+         sum_eq_min = sum ;
+         d_min = d+6 ; /* pour info */  
+       }
+    }
+  /* direction 12 a 17 */
+  for (d=0; d<6; d++)
+    {
+      sum = value_c ;
+      sum2 = value2_c ;
+      it = i ;
+      jt = j ;
+      for (p=0; p<r-1; p++)
+       {
+         it -= path[d*jdim + p].x ; // Di_Q1[d][p] ;
+         jt -= path[d*jdim + p].y ; // Dj_Q1[d][p] ;
+         v = image[it*jdim + jt] ;
+         sum += v ;
+         sum2 += v*v ;
+       }
+      eq = sum2 - sum*sum/r ; /* *4 */
+      if (eq < eq_min)
+       {
+         eq_min = eq ;
+         sum_eq_min = sum ;
+         d_min = d+12 ; /* pour info */         
+       }
+    }
+  /* direction 18 a 23 */
+  for (d=0; d<6; d++)
+    {
+      sum = value_c ;
+      sum2 = value2_c ;
+      it = i ;
+      jt = j ;
+      for (p=0; p<r-1; p++)
+       {
+         it -= path[d*jdim + p].y ; // Dj_Q1[d][p] ;
+         jt += path[d*jdim + p].x ; // Di_Q1[d][p] ;
+         v = image[it*jdim + jt] ;
+         sum += v ;
+         sum2 += v*v ;
+       }
+      eq = sum2 - sum*sum/r ; /* *4 */
+      if (eq < eq_min)
+       {
+            eq_min = eq ;
+            sum_eq_min = sum ;
+            d_min = d+18 ; /* pour info */      
+       }
+    }
+  *dout = d_min ;
+  return sum_eq_min/r ;
 // GPU functions (in file.cu)
 // GPU functions (in file.cu)
index 491c600fbbea0f7aae989d02ba208447ffc216c5..6838e8322a7e2e786910c26cbaa0a5132f5ccd09 100644 (file)
-// chemins des lignes de niveaux
-// longueur = 4 pixels
-// une ligne = un chemin
+ * chemins des lignes de niveaux pour la version à chemins constants
+ * Ne sont conservés que pour comparaison GPU/CPU -> à faire disparaître
+ * longueur = 4 pixels
+ * une ligne = un chemin
+ ************************************************************************/
 __constant__ int pathDi[PSIZE_I][PSIZE_J-1] =
     // Q1
 __constant__ int pathDi[PSIZE_I][PSIZE_J-1] =
     // Q1
-       {  -1, -1, -1},       // 
-       {  -1, -1, -1},       //  
-       {  -1, -1, -1},       // 
-       {  -1, -1, -1},       // 
-       {  -1,  0,  1},       // 
-       {   0, -1,  0},
+       {  -1, -1, -1},       // 90
+       {  -1, -1, -1},       // 75
+       {  -1, -1, -1},       // 60
+       {  -1, -1, -1},       // 45
+       {  -1,  0, -1},       // 30
+       {   0, -1,  0},       // 15
        // Q4
        // Q4
-       {   0,  0,  0},       // 
-       {   0,  1,  1},       //  
-       {   1,  0,  1},       // 
-       {   1,  1,  1},       // 
-       {   1,  1,  1},       // 
-       {   1,  1,  1},
+       {   0,  0,  0},       // 0
+       {   0,  1,  0},       // 345 
+       {   1,  0,  1},       // 330
+       {   1,  1,  1},       // 315
+       {   1,  1,  1},       // 300
+       {   1,  1,  1},       // 285
        // Q3
        // Q3
-       {   1,  1,  1},       // 
-       {   1,  1,  1},       //  
-       {   1,  1,  1},       // 
-       {   1,  1,  1},       // 
-       {   1,  0, -1},       // 
-       {   0,  1,  0},
+       {   1,  1,  1},       // 270
+       {   1,  1,  1},       // 255 
+       {   1,  1,  1},       // 240
+       {   1,  1,  1},       // 225
+       {   1,  0,  1},       // 210
+       {   0,  1,  0},       // 195
        // Q2
        // Q2
-       {   0,  0,  0},       // 
-       {   0, -1,  0},       //  
-       {  -1,  0, -1},       // 
-       {  -1, -1, -1},       // 
-       {  -1, -1, -1},       // 
-       {  -1, -1, -1}
+       {   0,  0,  0},       // 180
+       {   0, -1,  0},       // 165 
+       {  -1,  0, -1},       // 150
+       {  -1, -1, -1},       // 135
+       {  -1, -1, -1},       // 120
+       {  -1, -1, -1}        // 105
   } ;     // 
 __constant__ int pathDj[PSIZE_I][PSIZE_J-1] =
        // Q1
   } ;     // 
 __constant__ int pathDj[PSIZE_I][PSIZE_J-1] =
        // Q1
-       {  0,  0,  0},       // 
-       {  0,  1,  0},
-       {  1,  0,  1},  
-       {  1,  1,  1},  
-       {  1,  1,  1},  
-       {  1,  1,  1},
+       {  0,  0,  0},       // 90
+       {  0,  1,  0},       // 75
+       {  1,  0,  1},       // 60
+       {  1,  1,  1},       // 45
+       {  1,  1,  1},       // 30 
+       {  1,  1,  1},       // 15
        // Q4
        // Q4
-       {  1,  1,  1},       // 
-       {  1,  1,  1},
-       {  1,  1,  1},  
-       {  1,  1,  1},  
-       {  1,  0, -1},  
-       {  0,  1,  0},
-       // Q3
-       {  0,  0,  0},       // 
-       {  0, -1,  0},
-       { -1,  0, -1},  
-       { -1, -1, -1},  
-       { -1, -1, -1},  
-       { -1, -1, -1},
+       {  1,  1,  1},       // 0
+       {  1,  1,  1},       // 345
+       {  1,  1,  1},       // 330
+       {  1,  1,  1},       // 315  
+       {  1,  0,  1},       // 300
+       {  0,  1,  0},       // 285
+       // Q3 
+       {  0,  0,  0},       // 270
+       {  0, -1,  0},       // 255
+       { -1,  0, -1},       // 240
+       { -1, -1, -1},       // 225
+       { -1, -1, -1},       // 210
+       { -1, -1, -1},       // 195
        // Q2
        // Q2
-       { -1, -1, -1},       // 
-       { -1, -1, -1},
-       { -1, -1, -1},  
-       { -1, -1, -1},  
-       { -1,  0,  1},  
-       {  0, -1,  0}
+       { -1, -1, -1},       // 180
+       { -1, -1, -1},       // 165 
+       { -1, -1, -1},       // 150
+       { -1, -1, -1},       // 135
+       { -1,  0, -1},       // 120 
+       {  0, -1,  0}        // 105
   } ;     
   } ;     
+// valeurs des tangentes des angles de base pour la génération initiale des chemins
+// pour la version à chemins de longueur paramétrable
+__constant__ float tangente[] = {0.000, 0.268, 0.577, 1.000} ;
-// declare texture reference for 2D int texture
+// declarations des textures 
 texture<int, 2, cudaReadModeElementType> tex_img_in ;
 texture<int, 2, cudaReadModeElementType> tex_img_estim ;
 texture<int, 2, cudaReadModeElementType> tex_img_lniv ;
 texture<int, 2, cudaReadModeElementType> tex_img_in ;
 texture<int, 2, cudaReadModeElementType> tex_img_estim ;
 texture<int, 2, cudaReadModeElementType> tex_img_lniv ;
+texture<int2, 2, cudaReadModeElementType> tex_paths ;
+ *
+ * \brief calcule les chemins
+ * \author NB - PhyTI, modifié by zulu pour adaptater aux chemins paramétrables
+ *
+ * \param[in] r         longueur des chemins
+ *
+ * \param[out] d_paths  matrice des déplacements relatifs (chemins)
+ *
+ * Cette fonction utilise le tableau constant des tangentes des angles
+ * considérés pour le calcul de chemins (float tangente[]).
+ * 
+ */
+__global__ void kernel_calcul_paths( int2 * d_paths, unsigned int r){
+  unsigned int idpath = 0 ;
+  int ic, jc, iprec, jprec ;
+  float offset = 0.5 ;
+  unsigned int basepath = 0 ;
+  // Q1 inf
+  for (int a=0 ; a< 4 ; a++){        // les 4 angles 0,15,30 et 45
+       for (int p=0 ; p< r ; p++){      // les r points
+         ic = r-1 - floor(tangente[a]*p + offset) ;
+         if ( p > 0 ){
+               d_paths[idpath*(r-1)+p-1].x = ic - iprec ;
+               d_paths[idpath*(r-1)+p-1].y = 1 ;
+         }
+         iprec = ic ;
+       }
+       idpath++ ;
+  }
+  // Q1 sup
+  for (int a=2 ; a>0 ; a--){         // les 2 angles 60 et 75 
+       for (int p=0 ; p< r ; p++){      // les r points
+         jc = floor(tangente[a]*p + offset) ; 
+         if ( p > 0 ){
+               d_paths[idpath*(r-1)+p-1].x = -1 ;
+               d_paths[idpath*(r-1)+p-1].y = jc - jprec ;
+         }
+         jprec = jc ;
+       }
+       idpath++ ;
+  }
+  // Q2
+  basepath += 6 ;
+  for (int a=0 ; a< 6 ; a++){         // les 6 angles 90,105,120,135,150,165
+       for (int p=0 ; p<r-1 ; p++){      // les r points
+         d_paths[idpath*(r-1)+p].x = -d_paths[(idpath - basepath)*(r-1)+p].y ;
+         d_paths[idpath*(r-1)+p].y =  d_paths[(idpath - basepath)*(r-1)+p].x ;
+         }
+       idpath++ ;
+  }
+  // Q3
+  basepath += 6 ;
+  for (int a=0 ; a< 6 ; a++){         // les 6 angles 180,195,210,225,240,255
+       for (int p=0 ; p<r-1 ; p++){      // les r points
+         d_paths[idpath*(r-1)+p].x = -d_paths[(idpath - basepath)*(r-1)+p].x ;
+         d_paths[idpath*(r-1)+p].y = -d_paths[(idpath - basepath)*(r-1)+p].y ;
+         }
+       idpath++ ;
+  }
+  // Q4
+  basepath += 6 ;
+  for (int a=0 ; a< 6 ; a++){         // les 6 angles 270,285,300,315,330,345
+       for (int p=0 ; p<r-1 ; p++){      // les r points
+         d_paths[idpath*(r-1)+p].x =  d_paths[(idpath - basepath)*(r-1)+p].y ;
+         d_paths[idpath*(r-1)+p].y = -d_paths[(idpath - basepath)*(r-1)+p].x ;
+         }
+       idpath++ ;
+  }
+ *
+ * \brief calcule l'estimation initiale
+ * \author zulu - AND
+ *
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] r         coté de la fenêtre de moyenneage
+ *
+ * \param[out] d_estim  Image estimee 0
+ *
+ * Version texture : l'img originale est supposée en texture.
+ * L'estimation réalisée correspond a un moyenneur de 'rayon' r
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * 
+ */
+__global__ void kernel_neutre_img2estim(unsigned int *d_estim, unsigned int L, unsigned int H){
+  // coordonnes du point dans l'image
+  unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
+  unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;
+  unsigned int pos = i*L +j ;
+  d_estim[ pos ] = tex2D(tex_img_in, j, i) ;
+ *
+ * \brief calcule l'estimation initiale
+ * \author zulu - AND
+ *
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] r         coté de la fenêtre de moyenneage
+ *
+ * \param[out] d_estim  Image estimee 0
+ *
+ * Version texture : l'img originale est supposée en texture.
+ * L'estimation réalisée correspond a un moyenneur de 'rayon' r
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * 
+ */
 __global__ void kernel_init_estim_from_img_in(unsigned int * d_estim, unsigned int L, unsigned int H, unsigned int r){
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
 __global__ void kernel_init_estim_from_img_in(unsigned int * d_estim, unsigned int L, unsigned int H, unsigned int r){
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
@@ -91,11 +221,33 @@ __global__ void kernel_init_estim_from_img_in(unsigned int * d_estim, unsigned i
        d_estim[ pos ] = ng/((2*r+1)*(2*r+1)) ;
        d_estim[ pos ] = ng/((2*r+1)*(2*r+1)) ;
+       // pour les bords  : pas de traitement 
   d_estim[ pos ] = tex2D(tex_img_in, j, i) ;
   d_estim[ pos ] = tex2D(tex_img_in, j, i) ;
+ *
+ * \brief calcule l'estimation initiale
+ * \author zulu - AND
+ *
+ * \param[in] d_data    image originale
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] r         coté de la fenêtre de moyenneage
+ *
+ * \param[out] d_estim  Image estimee 0
+ *
+ * Version global mem : l'img originale est en mémoire globale, passée en param.
+ * L'estimation réalisée correspond a un moyenneur de 'rayon' r
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * Moins rapide que les 2 autres solutions.
+ * 
+ */
 __global__ void kernel_init_estim_from_img_in_global_mem(unsigned int * d_data, unsigned int * d_estim,
                                                                                                                 unsigned int L, unsigned int H, unsigned int r){
   // coordonnes du point dans l'image
 __global__ void kernel_init_estim_from_img_in_global_mem(unsigned int * d_data, unsigned int * d_estim,
                                                                                                                 unsigned int L, unsigned int H, unsigned int r){
   // coordonnes du point dans l'image
@@ -115,7 +267,28 @@ __global__ void kernel_init_estim_from_img_in_global_mem(unsigned int * d_data,
-__global__ void kernel_estim_next_step_global_mem(unsigned int * d_estim, unsigned int * d_lniv, unsigned int L, unsigned int H, unsigned int p){
+ *
+ * \brief calcule les niveaux de gris de l'estimation n+1
+ * \author zulu - AND
+ * 
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] p         poids du terme lniv
+ *
+ * \param[out] d_estim  Image estimee n+1 
+ *
+ * Version mixte : l'img originale est supposee en texture,
+ * l'img lniv en mémoire globale, passée en param.
+ * Cela évite la copie en texture de l'img lniv à chaque itération.
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * Moins rapide que 'texture' mais plus rapide que 'globalmem'
+ * 
+ */
+__global__ void kernel_estim_next_step_hybrid(unsigned int * d_estim, unsigned int * d_lniv, unsigned int L, unsigned int H, unsigned int p){
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;
@@ -125,6 +298,23 @@ __global__ void kernel_estim_next_step_global_mem(unsigned int * d_estim, unsign
+ *
+ * \brief calcule les niveaux de gris de l'estimation n+1
+ * \author zulu - AND
+ * 
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] p         poids du terme lniv
+ *
+ * \param[out] d_estim  Image estimee n+1 
+ *
+ * Version texture : Les donnees (img originale, img lniv) sont supposees en textures.
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * Plus rapide que les 2 autres solutions
+ *
+ */
 __global__ void kernel_estim_next_step_texture(unsigned int * d_estim, unsigned int L, unsigned int H, unsigned int p){
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
 __global__ void kernel_estim_next_step_texture(unsigned int * d_estim, unsigned int L, unsigned int H, unsigned int p){
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
@@ -135,6 +325,24 @@ __global__ void kernel_estim_next_step_texture(unsigned int * d_estim, unsigned
+ *
+ * \brief calcule les niveaux de gris de l'estimation n+1
+ * \author zulu - AND
+ * 
+ * \param[in] d_lniv    Image des lniv n
+ * \param[in] d_data    Image originale
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] p         poids du terme lniv
+ *
+ * \param[out] d_estim  Image estimee n+1 
+ *
+ * Version mémoire globale : les données sont passées en params.
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * 
+ */
 __global__ void kernel_estim_next_step_global_mem(unsigned int * d_estim, unsigned int * d_lniv, unsigned int * d_data,
                                                                                                  unsigned int L, unsigned int H, unsigned int p){
   // coordonnes du point dans l'image
 __global__ void kernel_estim_next_step_global_mem(unsigned int * d_estim, unsigned int * d_lniv, unsigned int * d_data,
                                                                                                  unsigned int L, unsigned int H, unsigned int p){
   // coordonnes du point dans l'image
@@ -146,94 +354,57 @@ __global__ void kernel_estim_next_step_global_mem(unsigned int * d_estim, unsign
-__global__ void kernel_levelines_global_mem(unsigned int * img_in, unsigned int * img_out, unsigned int L, unsigned int H)
-  // coordonnes du point dans l'image
-  unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
-  unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;
-  //unsigned int spos = threadIdx.x * blockDim.y + threadIdx.y ;
-  // nb de points par chemin
-  int lpath =  PSIZE_J ;
-  unsigned int ic, jc, zc, pos = i*L+j;
-  int idpath, idpix ;
-  unsigned int mse_min, mse_cur, val ;
-  uint2 mse ;
-  if((i>lpath)&&(i<H-lpath)&&(j>lpath)&&(j<L-lpath)){
-       for( idpath=0; idpath < PSIZE_I ; idpath++) {
-         ic = i ;
-         jc = j ;
-         pos = ic*L + jc ;
-         zc = img_in[ pos ] ;
-         mse.x = zc ;
-         mse.y = zc*zc ;
-         for( idpix=0; idpix < lpath-1 ; idpix++ ) {
-               ic += pathDi[idpath][idpix] ;
-               jc += pathDj[idpath][idpix] ;
-               pos = ic*L + jc ;
-               zc = img_in[ pos ] ;
-               mse.x += zc ;
-               mse.y += zc*zc ; 
-         }
-         // critere de selection du chemin ( SUM_(X2) - SUM_(X)2 / lpath )
-         // a ameliorer pour vitesse
-         mse_cur = ( mse.y - ( mse.x / lpath ) * mse.x ) ;
-         if (idpath == 0) {
-               mse_min = mse_cur ;
-               val = mse.x ;
-         } else {
-               if ( mse_cur < mse_min )  {
-                 mse_min = mse_cur ;
-                 val = mse.x ; 
-               }
-         } 
-       }
-       img_out[ i*L + j ] = val / lpath ; 
-  }
-__global__ void kernel_levelines_texture(unsigned int * img_out, unsigned int L, unsigned int H)
+ *
+ * \brief determine les lniv en chaque point de l'image
+ * \author zulu - AND
+ *
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] r         longueur des segments
+ *
+ * \param[out] img_out  image des lniv 
+ *
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * L'image d'entrée doit être au préalable en mémoire texture pointée par "tex_img_estim".
+ * Les matrices des chemins sont, elles, pointées par "tex_paths"
+ * Cette version ne fournit pas les indices des chemins pour les tracé éventuel des lniv.
+ */
+__global__ void kernel_levelines_texture(unsigned int * img_out, unsigned int L, unsigned int H, unsigned int r)
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;
-  //unsigned int spos = threadIdx.x * blockDim.y + threadIdx.y ;
   // nb de points par chemin
   // nb de points par chemin
-  int lpath =  PSIZE_J ;
-  unsigned int ic, jc, zc ;
+  int lpath =  r ;
+  unsigned int ic, jc, zc, z ;
   int idpath, idpix ;
   unsigned int mse_min, mse_cur, val ;
   uint2 mse ;
   int idpath, idpix ;
   unsigned int mse_min, mse_cur, val ;
   uint2 mse ;
-  if((i>lpath)&&(i<H-lpath)&&(j>lpath)&&(j<L-lpath)){
+  if((i>=lpath)&&(i<=H-lpath)&&(j>=lpath)&&(j<=L-lpath)){
+       z = tex2D(tex_img_estim, j, i) ;
        for( idpath=0; idpath < PSIZE_I ; idpath++) {
          ic = i ;
          jc = j ;
        for( idpath=0; idpath < PSIZE_I ; idpath++) {
          ic = i ;
          jc = j ;
-         zc = tex2D(tex_img_estim, j, i) ;
-         mse.x = zc ;
-         mse.y = zc*zc ;
+         mse.x = z ;
+         mse.y = z*z ;
          for( idpix=0; idpix < lpath-1 ; idpix++ ) {
          for( idpix=0; idpix < lpath-1 ; idpix++ ) {
-               ic += pathDi[idpath][idpix] ;
-               jc += pathDj[idpath][idpix] ;
+               ic += tex2D(tex_paths, idpix, idpath).x ;
+               jc += tex2D(tex_paths, idpix, idpath).y ;
                zc = tex2D(tex_img_estim, jc, ic) ;
                mse.x += zc ;
                mse.y += zc*zc ; 
          // critere de selection du chemin ( SUM_(X2) - SUM_(X)2 / lpath )
                zc = tex2D(tex_img_estim, jc, ic) ;
                mse.x += zc ;
                mse.y += zc*zc ; 
          // critere de selection du chemin ( SUM_(X2) - SUM_(X)2 / lpath )
-         // a ameliorer pour vitesse
+         // TODO cherchera  ameliorer pour vitesse
          mse_cur = ( mse.y - ( mse.x / lpath ) * mse.x ) ;
          mse_cur = ( mse.y - ( mse.x / lpath ) * mse.x ) ;
-         if (idpath == 0) {
+         if ( (idpath == 0) || (mse_cur < mse_min) ) {
                mse_min = mse_cur ;
                mse_min = mse_cur ;
-               val = mse.x ;
-         } else {
-               if ( mse_cur < mse_min )  {
-                 mse_min = mse_cur ;
-                 val = mse.x ; 
-               }
+               val = mse.x ; 
        img_out[ i*L + j ] = val / lpath ; 
        img_out[ i*L + j ] = val / lpath ; 
@@ -241,60 +412,101 @@ __global__ void kernel_levelines_texture(unsigned int * img_out, unsigned int L,
+ *
+ * \brief determine les lniv en chaque point de l'image
+ * \author zulu - AND
+ *
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] r         longueur des segments
+ *
+ * \param[out] img_out  image des lniv 
+ *
+ * Execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image.
+ * L'image d'entrée doit être au préalable en mémoire texture pointée par "tex_img_estim".
+ * Les matrices des chemins sont, elles, pointées par "tex_paths"
+ * Cette version ne fournit pas les indices des chemins pour les tracé éventuel des lniv.
+ * Cette version tente d'utiliser la shared memory pour compenser la baisse de perf due aux chemins
+ * paramétrables non constants.
+ */
-__global__ void kernel_levelines_only_texture(unsigned int * img_out, unsigned int L, unsigned int H)
+__global__ void kernel_levelines_texture_smem(unsigned int * img_out, unsigned int L, unsigned int H, unsigned int r)
+  // coordonnées du point dans le bloc
+  unsigned int iib = threadIdx.x ;
+  unsigned int jib = threadIdx.y ;
   // coordonnes du point dans l'image
   // coordonnes du point dans l'image
-  unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
-  unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;;
-  //unsigned int spos = threadIdx.x * blockDim.y + threadIdx.y ;
+  unsigned int i = blockIdx.x*blockDim.x + iib ;
+  unsigned int j = blockIdx.y*blockDim.y + jib ;
   // nb de points par chemin
   // nb de points par chemin
-  int lpath =  PSIZE_J ;
-  unsigned int ic, jc ;
+  int lpath =  r ;
+  int ic, jc ;
   int idpath, idpix ;
   int idpath, idpix ;
-  unsigned int mse_min, mse_cur ;
-  //extern __shared__ uint2 mse[] ;
-  uint2 mse ;
+  unsigned int val, mse_cur, mse_min, z, zc ;
+  uint2 mse_data ;
+  //__shared__ unsigned int val_img[16*16] ;
+  //val_img[jib*16+iib] = tex2D(tex_img_estim, j, i) ;
-  if((i>lpath)&&(i<H-lpath)&&(j>lpath)&&(j<L-lpath)){
+  if((i>=lpath)&&(i<=H-lpath)&&(j>=lpath)&&(j<=L-lpath)){
+       z = tex2D(tex_img_estim, j, i) ;
        for( idpath=0; idpath < PSIZE_I ; idpath++) {
          ic = i ;
          jc = j ;
        for( idpath=0; idpath < PSIZE_I ; idpath++) {
          ic = i ;
          jc = j ;
-         mse.x = tex2D(tex_img_in, i, j) ;
-         mse.y = tex2D(tex_img_in, i, j)*tex2D(tex_img_in, i, j) ;
+         mse_data.x = z ;
+         mse_data.y = z*z ;
+         mse_min = mse_data.y - mse_data.x/lpath*mse_data.y ;
          for( idpix=0; idpix < lpath-1 ; idpix++ ) {
          for( idpix=0; idpix < lpath-1 ; idpix++ ) {
-               ic += pathDi[idpath][idpix] ;
-               jc += pathDj[idpath][idpix] ;
-               mse.x += tex2D( tex_img_in, ic, jc ) ;
-               mse.y += tex2D( tex_img_in, ic, jc ) * tex2D( tex_img_in, ic, jc ) ; 
+               ic += tex2D(tex_paths, idpix, idpath).x ;
+               jc += tex2D(tex_paths, idpix, idpath).y ;
+               zc = tex2D(tex_img_estim, jc, ic) ;
+               mse_data.x += zc ;
+               mse_data.y += zc*zc ; 
          // critere de selection du chemin ( SUM_(X2) - SUM_(X)2 / lpath )
          // critere de selection du chemin ( SUM_(X2) - SUM_(X)2 / lpath )
-         // a ameliorer pour vitesse
-         mse_cur = ( mse.y - ( mse.x / lpath ) * mse.x ) ;
-         if (idpath > 0) {
-               if ( mse_cur < mse_min )  {
-                 mse_min = mse_cur ;
-               }
-         } else {
+         // TODO cherchera  ameliorer pour vitesse
+         mse_cur = ( mse_data.y - ( mse_data.x / lpath ) * mse_data.x ) ;
+         if ( mse_cur < mse_min ){
                mse_min = mse_cur ;
                mse_min = mse_cur ;
-         }
+               val = mse_data.x ;
+         } 
-       img_out[ i*L + j ] = mse_min / lpath ; 
+       img_out[ i*L + j ] = val / lpath ; 
+ *
+ * \brief trace les segments sur un maillage carré
+ * \author zulu - AND
+ *
+ * \param[in] img_in    image d'entree
+ * \param[in] dir       tableaux des directions
+ * \param[in] L         Largeur de l'image
+ * \param[in] H         Hauteur de l'image
+ * \param[in] pas       coté du maillage
+ * \param[in] ng        niveau de gris des segments
+ * \param[in] r         longueur des segments
+ *
+ * \param[out] img_out  image + les segments superposés
+ *
+ * Kernel trivial. Ne trace rien sur les bords.
+ * execution sur des blocs de threads 2D et une grille 2D
+ * selon les dimensions de l'image
+ */
 __global__ void kernel_trace_levelines(unsigned int * img_in, unsigned int * dir, unsigned int * img_out,
 __global__ void kernel_trace_levelines(unsigned int * img_in, unsigned int * dir, unsigned int * img_out,
-                                                                          unsigned int L, unsigned int H, unsigned int pas, unsigned int ng){
+                                                                          unsigned int L, unsigned int H, unsigned int pas, unsigned int ng,
+                                                                          unsigned int r ){
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;;
   // nb de points par chemin
   // coordonnes du point dans l'image
   unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;;
   // nb de points par chemin
-  int lpath =  PSIZE_J ;
+  int lpath =  r ;
   unsigned int ic, jc, idpix ;
   unsigned int idpath  ;
   unsigned int ic, jc, idpix ;
   unsigned int idpath  ;
@@ -306,8 +518,8 @@ __global__ void kernel_trace_levelines(unsigned int * img_in, unsigned int * dir
        idpath = dir[ic*L+jc] ;
        img_out[ ic*L+jc ] = ng ;
        for ( idpix=0 ; idpix < lpath-1 ; idpix++ ){
        idpath = dir[ic*L+jc] ;
        img_out[ ic*L+jc ] = ng ;
        for ( idpix=0 ; idpix < lpath-1 ; idpix++ ){
-         ic += pathDi[idpath][idpix] ;
-         jc += pathDj[idpath][idpix] ;
+         ic += tex2D(tex_paths, idpix, idpath).x ; // pathDi[idpath][idpix] ;
+         jc += tex2D(tex_paths, idpix, idpath).y ; // pathDj[idpath][idpix] ;
          img_out[ ic*L + jc ] = ng ;
          img_out[ ic*L + jc ] = ng ;
diff --git a/lniv.cvp b/lniv.cvp
new file mode 100644 (file)
index 0000000..741b8ce
--- /dev/null
+++ b/lniv.cvp
@@ -0,0 +1,148 @@
+<!DOCTYPE cvp>
+<cvp version="4.0" >
+ <session>
+  <name>smem_3staticArrays</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 10:47:10</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="1" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
+ <session>
+  <name>nosmem_tex</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 10:50:54</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="0" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
+ <session>
+  <name>smem2DnoCFI</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 11:10:33</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="0" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
+ <session>
+  <name>smemCFI_1linearArray</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 11:16:24</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="0" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
+ <session>
+  <name>smem_zc_CFI_linearArray</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 11:30:11</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="0" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
+ <session>
+  <name>Session19</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 14:10:47</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="0" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
+ <session>
+  <name>Session21</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 14:27:50</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="0" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
+ <session>
+  <name>Session22</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 14:34:00</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="0" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
diff --git a/lniv_Session19_Context_0.csv b/lniv_Session19_Context_0.csv
new file mode 100644 (file)
index 0000000..dedd7fe
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef914083a0
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/lniv_Session21_Context_0.csv b/lniv_Session21_Context_0.csv
new file mode 100644 (file)
index 0000000..5f60f58
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef91ef4898
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/lniv_Session22_Context_0.csv b/lniv_Session22_Context_0.csv
new file mode 100644 (file)
index 0000000..fe8eba7
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef92065818
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/lniv_nosmem_tex_Context_0.csv b/lniv_nosmem_tex_Context_0.csv
new file mode 100644 (file)
index 0000000..733b9a7
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef88fd8ba8
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/lniv_smem2DnoCFI_Context_0.csv b/lniv_smem2DnoCFI_Context_0.csv
new file mode 100644 (file)
index 0000000..764af7e
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef899f0960
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/lniv_smemCFI_1linearArray_Context_0.csv b/lniv_smemCFI_1linearArray_Context_0.csv
new file mode 100644 (file)
index 0000000..23169a9
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef89bda598
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/lniv_smem_3staticArrays_Context_0.csv b/lniv_smem_3staticArrays_Context_0.csv
new file mode 100644 (file)
index 0000000..a1b06dd
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef8902a258
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/lniv_smem_3staticArrays_Context_0.trc b/lniv_smem_3staticArrays_Context_0.trc
new file mode 100644 (file)
index 0000000..4589c3e
Binary files /dev/null and b/lniv_smem_3staticArrays_Context_0.trc differ
diff --git a/lniv_smem_3staticArrays_Context_1.trc b/lniv_smem_3staticArrays_Context_1.trc
new file mode 100644 (file)
index 0000000..f7a3b2e
Binary files /dev/null and b/lniv_smem_3staticArrays_Context_1.trc differ
diff --git a/lniv_smem_3staticArrays_Context_2.trc b/lniv_smem_3staticArrays_Context_2.trc
new file mode 100644 (file)
index 0000000..d33cbfa
Binary files /dev/null and b/lniv_smem_3staticArrays_Context_2.trc differ
diff --git a/lniv_smem_zc_CFI_linearArray_Context_0.csv b/lniv_smem_zc_CFI_linearArray_Context_0.csv
new file mode 100644 (file)
index 0000000..387d763
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef8a3fef18
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/main.cu b/main.cu
index d9db4f87d169ddb4929cba23f8ebf36939db3f0a..0bb7c3d43d83f8b5c55cb37551253ef3e859037e 100644 (file)
--- a/main.cu
+++ b/main.cu
 // lib spec
 #include "defines.h"
 #include "levelines_common.h"
 // lib spec
 #include "defines.h"
 #include "levelines_common.h"
 #include "levelines_kernels.cu"
 #include "levelines_kernels.cu"
-__global__ void kernel_debil(unsigned int * ptr1, unsigned int * ptr2, unsigned int L, int val){
-  unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
-  unsigned int j = blockIdx.y*blockDim.y + threadIdx.y;
-  unsigned int pos = i*L +j ;
+int main(int argc, char **argv){
-  ptr2[pos] = val - ptr1[pos] ;
+  // use device with highest Gflops/s
+  cudaSetDevice( 0 );
-int main(int argc, char **argv){
+  unsigned int timer ;
+  cutilCheckError( cutCreateTimer(&timer) );
+  cutilCheckError( cutResetTimer(timer) );
+  cutilCheckError( cutStartTimer(timer) );
+  //alloc bidon pour anticiper l'initialisation du GPU
+  short * d_bidon ;
+  cutilSafeCall( cudaMalloc( (void**) &d_bidon, sizeof(short))) ;  
   //float coef_regul = atof( argv[1] ) ;
   //float coef_regul = atof( argv[1] ) ;
-  unsigned int timer ;
-  cutilCheckError( cutCreateTimer(&timer) );
-  cutilCheckError( cutResetTimer(timer) );
   char* image_path = argv[argc-1];
   char* image_path = argv[argc-1];
-  char* image_out = "./image_out.pgm" ;
+  unsigned int r = atoi(argv[1]) ;
+  bool seq_out = atoi(argv[2]) ;
+  unsigned int iter , nb_iter = atoi(argv[3]) ;
+  unsigned int  poids = 15 ;
+  char * image_out_base = "./image_out" ;
+  char * pgm_ext = ".pgm" ;
+  char image_out[80] ;
   unsigned int * h_data = NULL ;
   unsigned int * h_data_out = NULL ;
   unsigned int * h_data = NULL ;
   unsigned int * h_data_out = NULL ;
-  unsigned int H, L, size;
-  cutilCheckError( cutStartTimer(timer) );
-  cutilCheckError( cutLoadPGMi(image_path, &h_data, &L, &H));
-  cutilCheckError( cutStopTimer(timer) );
+  unsigned int H, L, size, psize ;
-  size = H * L * sizeof( unsigned int ); 
-  printf("Loaded  %d x %d = %d pixels from '%s' en %f ms,\n", L, H, size, image_path,  cutGetTimerValue(timer));
-  //essai alloc mapped
-  /*
-  cutilCheckError( cutResetTimer(timer) );
-  cutilCheckError( cutStartTimer(timer) );
-  unsigned int * h_ptr1, * d_ptr1 ;
-  unsigned int * h_ptr2, * d_ptr2 ;
-  int  h =  ;
-  int l = h ;
-  int mem = h*l*sizeof(unsigned int) ;
-  cutilSafeCall(cudaSetDeviceFlags(cudaDeviceMapHost));
-  cutilCheckError( cutStopTimer(timer) );
-  printf("Temps set flag Mapped : %f ms\n", cutGetTimerValue(timer)) ;
-  cutilCheckError( cutStartTimer(timer) );
-  cutilSafeCall(cudaHostAlloc((void **)&h_ptr1, mem, cudaHostAllocMapped));
-  cutilSafeCall(cudaHostAlloc((void **)&h_ptr2, mem, cudaHostAllocMapped));
+  // chargt image
+  cutilCheckError( cutLoadPGMi(image_path, &h_data, &L, &H));
   cutilCheckError( cutStopTimer(timer) );
   cutilCheckError( cutStopTimer(timer) );
-  printf("Temps cumul alloc Mapped : %f ms\n", cutGetTimerValue(timer)) ;
-  for (int i = 0; i<h*l ; i++) h_ptr1[i] = 200 ;
+  size = H * L * sizeof( unsigned int );
+  psize = (r-1)*PSIZE_I*sizeof(int2) ;
-  cutilCheckError( cutStartTimer(timer) );
-  cutilSafeCall(cudaHostGetDevicePointer((void **)&d_ptr1, (void *)h_ptr1, 0));
-  cutilSafeCall(cudaHostGetDevicePointer((void **)&d_ptr2, (void *)h_ptr2, 0));
-  cutilCheckError( cutStopTimer(timer) );
-  printf("Temps cumul get pointer  Mapped : %f ms\n", cutGetTimerValue(timer)) ;
-  cutilCheckError( cutStartTimer(timer) );
-  dim3 blocks(16,16,1) ;
-  dim3 grid( h / blocks.x, l / blocks.y, 1 ) ;
-  kernel_debil<<< grid, blocks >>>(d_ptr1, d_ptr2, l, 255) ;
+  printf("Longueur des chemins = %d pixels\n", r);
+  printf("Init GPU + Image %s  %d x %d = %d pixels en %f ms,\n", image_path, L, H, size, cutGetTimerValue(timer));
-  cutilCheckError( cutStopTimer(timer) );
-  printf("Temps total Mapped : %f ms\n", cutGetTimerValue(timer)) ;
-  char * image_1 = "./image_1.pgm" ;
-  char * image_2 = "./image_2.pgm" ;
-  cutilCheckError( cutSavePGMi(image_1, h_ptr1, l, h) ) ;
-  cutilCheckError( cutSavePGMi(image_2, h_ptr2, l, h) ) ;
-  */
-  // use device with highest Gflops/s
-  cudaSetDevice( cutGetMaxGflopsDeviceId() );
-  /*
-       cutilSafeCall( cudaMallocArray(&a_Src, &floatTex, imageW, imageH) );
-       cutilSafeCall( cudaMalloc((void **)&d_Output, imageW * imageH * sizeof(float)) );
-       cutilSafeCall( cudaThreadSynchronize() );
-       cutilCheckError( cutResetTimer(hTimer) );
-       cutilCheckError( cutStartTimer(hTimer) );
-       cutilSafeCall( cudaThreadSynchronize() );
-       cutilCheckError( cutStopTimer(hTimer) );
-       gpuTime = cutGetTimerValue(hTimer) / (float)iterations;
-  */
   cutilCheckError( cutResetTimer(timer) );
   cutilCheckError( cutStartTimer(timer) );
   // allocation mem GPU
   unsigned int * d_directions =NULL ;
   unsigned int * d_lniv, * d_estim = NULL ;
   cutilCheckError( cutResetTimer(timer) );
   cutilCheckError( cutStartTimer(timer) );
   // allocation mem GPU
   unsigned int * d_directions =NULL ;
   unsigned int * d_lniv, * d_estim = NULL ;
+  int2 * d_paths ;
   cutilSafeCall( cudaMalloc( (void**) &d_directions, size)) ;
   cutilSafeCall( cudaMalloc( (void**) &d_lniv, size ) );
   cutilSafeCall( cudaMalloc( (void**) &d_estim, size ) );
   cutilSafeCall( cudaMalloc( (void**) &d_directions, size)) ;
   cutilSafeCall( cudaMalloc( (void**) &d_lniv, size ) );
   cutilSafeCall( cudaMalloc( (void**) &d_estim, size ) );
+  cutilSafeCall( cudaMalloc( (void**) &d_paths, psize ) );
   // allocate array and copy image data
   cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindUnsigned);
   // allocate array and copy image data
   cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindUnsigned);
-  cudaArray * array_img_in, *array_img_estim, *array_img_lniv;
+  cudaChannelFormatDesc channelDescP = cudaCreateChannelDesc(32, 32, 0, 0, cudaChannelFormatKindSigned);
+  cudaArray * array_img_in, *array_img_estim, *array_img_lniv, *array_paths;
   cutilSafeCall( cudaMallocArray( &array_img_in, &channelDesc, L, H )); 
   cutilSafeCall( cudaMemcpyToArray( array_img_in, 0, 0, h_data, size, cudaMemcpyHostToDevice)) ;
   cutilSafeCall( cudaBindTextureToArray( tex_img_in, array_img_in, channelDesc));
   cutilSafeCall( cudaMallocArray( &array_img_in, &channelDesc, L, H )); 
   cutilSafeCall( cudaMemcpyToArray( array_img_in, 0, 0, h_data, size, cudaMemcpyHostToDevice)) ;
   cutilSafeCall( cudaBindTextureToArray( tex_img_in, array_img_in, channelDesc));
-  cutilCheckError( cutStopTimer(timer) );
   cutilSafeCall( cudaMallocArray( &array_img_estim, &channelDesc, L, H )); 
   cutilSafeCall( cudaBindTextureToArray( tex_img_estim, array_img_estim, channelDesc));
   cutilSafeCall( cudaMallocArray( &array_img_estim, &channelDesc, L, H )); 
   cutilSafeCall( cudaBindTextureToArray( tex_img_estim, array_img_estim, channelDesc));
@@ -141,28 +90,75 @@ int main(int argc, char **argv){
   cutilSafeCall( cudaMallocArray( &array_img_lniv, &channelDesc, L, H )); 
   cutilSafeCall( cudaBindTextureToArray( tex_img_lniv, array_img_lniv, channelDesc));
   cutilSafeCall( cudaMallocArray( &array_img_lniv, &channelDesc, L, H )); 
   cutilSafeCall( cudaBindTextureToArray( tex_img_lniv, array_img_lniv, channelDesc));
+  cutilSafeCall( cudaMallocArray( &array_paths, &channelDescP, (r-1), PSIZE_I )); 
+  cutilSafeCall( cudaBindTextureToArray( tex_paths, array_paths, channelDescP));
+  cutilCheckError( cutStopTimer(timer) );
   printf("Temps alloc + transferts en Textures : %f ms\n", cutGetTimerValue(timer)) ;
   printf("Temps alloc + transferts en Textures : %f ms\n", cutGetTimerValue(timer)) ;
-   * APPELS KERNELS et chronos
   cutilCheckError( cutResetTimer(timer) );
   cutilCheckError( cutStartTimer(timer) );
   cutilCheckError( cutResetTimer(timer) );
   cutilCheckError( cutStartTimer(timer) );
-       unsigned int iter , nb_iter = 15 ;
-       unsigned int  poids = 15 ;
-       dim3 dimBlock(8,8,1) ;
-       dim3 dimGrid( H / dimBlock.x, L / dimBlock.y, 1 ) ;
-       unsigned int smem_size = dimBlock.x * dimBlock.y * sizeof(unsigned int) ;
-       // init image estimee avec image_in
+  dim3 dimBlock(1,1,1) ;
+  dim3 dimGrid(1,1,1) ;
+  // calcul des chemins
+  kernel_calcul_paths<<< dimGrid, dimBlock, 0 >>>(d_paths, r);
+  // copie du tableau en texture
+  cutilSafeCall( cudaMemcpyToArray( array_paths, 0, 0, d_paths, psize, cudaMemcpyDeviceToDevice)) ;
+  cutilCheckError( cutStopTimer(timer) );
+  printf("Temps generation chemin + transfert en texture : %f ms\n", cutGetTimerValue(timer)) ;
+  /*****************************
+   * APPELS KERNELS et chronos
+   *****************************/
+       dimBlock = dim3(16,16,1) ;
+       dimGrid = dim3( H / dimBlock.x,L / dimBlock.y, 1 ) ;
+       // pour enregistrement image lniv GPU
+       free(h_data_out) ;
+       h_data_out = new unsigned int[H*L] ;
+       //init image estimee avec image_in
+       cutilCheckError( cutResetTimer(timer) );
+       cutilCheckError( cutStartTimer(timer) );
        kernel_init_estim_from_img_in<<< dimGrid, dimBlock, 0 >>>(d_estim, L, H, 7);
        kernel_init_estim_from_img_in<<< dimGrid, dimBlock, 0 >>>(d_estim, L, H, 7);
-       printf("Grille : %d x %d de Blocs : %d x %d - Shared mem : %d octets\n", dimGrid.x, dimGrid.y, dimBlock.x, dimBlock.y, smem_size) ;
+       // kernel de copie
+       /*
+       kernel_neutre_img2estim<<< dimGrid, dimBlock, 0>>>(d_estim, L, H);
+       */
+       cudaThreadSynchronize() ;
+       cutilCheckError( cutStopTimer(timer) );
+       printf("Temps kernel init : %f ms\n", cutGetTimerValue(timer)) ;
+       // a remplacer par
+       /*
+       cutilCheckError( cutResetTimer(timer) );
+       cutilCheckError( cutStartTimer(timer) );
+       cutilSafeCall( cudaMemcpyFromArray( d_estim, array_img_in, 0, 0, size, cudaMemcpyDeviceToDevice)) ;
+       cutilCheckError( cutStopTimer(timer) );
+       printf("Temps memcpyFromArray : %f ms\n", cutGetTimerValue(timer)) ;
+       */
+       printf("Grille : %d x %d de Blocs : %d x %d \n", dimGrid.x, dimGrid.y, dimBlock.x, dimBlock.y) ;
+       cutilCheckError( cutResetTimer(timer) );
+       cutilCheckError( cutStartTimer(timer) );
        for ( iter =0 ; iter < nb_iter ; iter++ )
                cutilSafeCall( cudaMemcpyToArray( array_img_estim, 0, 0, d_estim, size, cudaMemcpyDeviceToDevice)) ;
        for ( iter =0 ; iter < nb_iter ; iter++ )
                cutilSafeCall( cudaMemcpyToArray( array_img_estim, 0, 0, d_estim, size, cudaMemcpyDeviceToDevice)) ;
-               kernel_levelines_texture<<< dimGrid, dimBlock, 0 >>>( d_lniv, L, H );
+               kernel_levelines_texture_smem<<< dimGrid, dimBlock, 0 >>>( d_lniv, L, H, r );
                cutilSafeCall( cudaMemcpyToArray( array_img_lniv, 0, 0, d_lniv, size, cudaMemcpyDeviceToDevice)) ;
                cutilSafeCall( cudaMemcpyToArray( array_img_lniv, 0, 0, d_lniv, size, cudaMemcpyDeviceToDevice)) ;
+               if (seq_out){
+                 sprintf(image_out, "%s%d%s", image_out_base, iter+1, pgm_ext) ;
+                 printf("chaine : %s\n", image_out);
+                 cutilSafeCall( cudaMemcpy(h_data_out , d_estim, size, cudaMemcpyDeviceToHost) );
+                 cutilCheckError( cutSavePGMi(image_out, h_data_out, L, H) ) ;
+                 }
                kernel_estim_next_step_texture<<< dimGrid, dimBlock, 0 >>>(d_estim, L, H, poids) ;
                kernel_estim_next_step_texture<<< dimGrid, dimBlock, 0 >>>(d_estim, L, H, poids) ;
@@ -171,26 +167,95 @@ int main(int argc, char **argv){
        cutilCheckError( cutStopTimer(timer) );
        printf("Execution moy par kernel : %f ms\n", cutGetTimerValue(timer)/(float)nb_iter) ;
        printf("Total pour %d kernels : %f ms\n", nb_iter, cutGetTimerValue(timer)) ;
        cutilCheckError( cutStopTimer(timer) );
        printf("Execution moy par kernel : %f ms\n", cutGetTimerValue(timer)/(float)nb_iter) ;
        printf("Total pour %d kernels : %f ms\n", nb_iter, cutGetTimerValue(timer)) ;
         * VERIFS 
         * VERIFS 
-       //trace des lniv sur grille de 'pas x pas'
-       //kernel_trace_levelines<<< dimGrid, dimBlock, 0 >>>(d_data, d_directions, d_data2, L, H, 16, 255) ;
-       //cudaThreadSynchronize();
-       // enregistrement image lniv GPU
-       h_data_out = new unsigned int[H*L] ;
-       if ( h_data_out != NULL)
-         cutilSafeCall( cudaMemcpy(h_data_out , d_estim, size, cudaMemcpyDeviceToHost) );
-        else
-         printf("Echec allocation mem CPU\n");                 
-       cutilCheckError( cutSavePGMi(image_out, h_data_out, L, H) ) ;
+       /**************************************************
+        * recuperation matrice des chemins pour affichage
+        **************************************************/
+       int2 * h_paths = new int2[(r-1)*PSIZE_I] ;
+       cutilSafeCall( cudaMemcpyFromArray(h_paths , array_paths, 0, 0, psize, cudaMemcpyDeviceToHost) );
+       /*
+       //verif Di
+       printf("matrice  Di");
+       for(int idpath=0; idpath< PSIZE_I; idpath++){b
+         printf("\n");
+         for(int idpix=0; idpix< r-1; idpix++){
+               printf(" % d ", h_paths[idpath*(r-1) + idpix].x );
+         }
+         printf("\t// %d°", idpath*15) ;
+       }
+       //verif Dj
+       printf("\nmatrice  Dj");
+       for(int idpath=0; idpath< PSIZE_I; idpath++){
+         printf("\n");
+         for(int idpix=0; idpix< r-1; idpix++){
+               printf(" % d ", h_paths[idpath*(r-1) + idpix].y);
+         }
+         printf("\t// %d°", idpath*15) ;
+       }
+       printf("\n");
+       */
+       /***************************************************
+        *   fin verif visuelle matrices des chemins
+        ***************************************************/
-       // calcul lniv CPU
+       /***************************************************
+        *       execution sequentielle pour comparaison
+        *  la comparaison n'est pertinente que
+        * si d_lniv contient les lniv de l'image se départ
+        **************************************************/
+       /*
+       // calcul sequentiel
+       cutilCheckError( cutResetTimer(timer) );
+       cutilCheckError( cutStartTimer(timer) );
+       h_data_out = new unsigned int[H*L] ;
+       int * dout  = new int[H*L] ;
+       for ( iter =0 ; iter < nb_iter ; iter++ ){
+         for (int i=r; i<= H-r; i++){
+               for (int j=r; j<= L-r; j++){
+                 h_data_out[i*L+j] = lniv4_value(h_data, h_paths, i, j, H, L, &dout[i*L+j], r) ;
+               }
+         }
+       }
+       cutilCheckError( cutStopTimer(timer) );
+       printf("Execution sequentielle CPU : %f ms\n", cutGetTimerValue(timer)) ;
+       // comparaison
+       unsigned int * h_lniv = new unsigned int[H*L] ;
+       int pos, cpt_err=0, cpt_pix=0 ;
+       cutilSafeCall( cudaMemcpy(h_lniv , d_lniv, size, cudaMemcpyDeviceToHost) );
+       for ( iter =0 ; iter < nb_iter ; iter++ ){
+         for (int i=r; i<= H-r; i++){
+               for (int j=r; j<= L-r; j++){
+                 pos = i*L + j ;
+                 if ( h_data_out[ pos ] != h_lniv[ pos ] ) {
+                       cpt_err++ ;
+                       printf(" pixel ( %d , %d ) -> GPU= %d  CPU= %d \n", i, j, h_lniv[pos], h_data_out[pos]);
+                 }
+                 cpt_pix++ ;
+               }
+         }
+       }
+       printf("TAUX ERREUR GPU/CPU : %d / %d \n", cpt_err, cpt_pix );
+       */
+       //trace des lniv sur grille de 'pas x pas'
+       //kernel_trace_levelines<<< dimGrid, dimBlock, 0 >>>(d_data, d_directions, d_data2, L, H, 16, 255, r) ;
+       if (!seq_out){
+         if ( h_data_out != NULL)
+               cutilSafeCall( cudaMemcpy(h_data_out , d_estim, size, cudaMemcpyDeviceToHost) );
+         else
+               printf("Echec allocation mem CPU\n");           
+         sprintf(image_out, "%s%d%s", image_out_base, iter+1, pgm_ext) ;
+         cutilCheckError( cutSavePGMi(image_out, h_data_out, L, H) ) ;
+       }
        // TODO verifier pourquoi les deux lignes suivantes produisent une erreur
        //cutilExit(argc, argv);
        // TODO verifier pourquoi les deux lignes suivantes produisent une erreur
        //cutilExit(argc, argv);
diff --git a/profile.cvp b/profile.cvp
new file mode 100644 (file)
index 0000000..f5adf09
--- /dev/null
@@ -0,0 +1,22 @@
+<!DOCTYPE cvp>
+<cvp version="4.0" >
+ <session>
+  <name>Session1</name>
+  <progpath>"/home/perrot/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/lniv"</progpath>
+  <cmdlineargs>4 0 15 /home/perrot/Images/cochons/cochon_512b.pgm</cmdlineargs>
+  <workdirpath>/home/perrot/NVIDIA_GPU_Computing_SDK/C/src/lniv_gpu</workdirpath>
+  <datetime>21 Jun 2011 10:18:11</datetime>
+  <normalizedcounter>false</normalizedcounter>
+  <device multProcessorCount="30" warpSize="32" textureAlignment="256" maxRegPerBlock="16384" computeCapability="1.3" maxThreadPerBlock="512" totalConstMem="65536" maxGridDim="65535 65535" maxShareMemPerBlock="16384" id="0" chip="160" maxBlockDim="512 512 64" GpuOverlap="1" name="Tesla C1060" label="Device_0" clockFreq="1296000" maxPitchMem="2147483647" >
+   <context totalcountercount="0" invalidcountercount="0" id="0" label="Context_0" truncatedcountercount="0" trace="1" >
+    <run number="2" >branch,divergent_branch,instructions,warp_serialize</run>
+    <run number="3" >cta_launched,local_load,local_store,gld_32b</run>
+    <run number="4" >gld_64b,gld_128b,gst_32b,gst_64b</run>
+    <run number="5" >gst_128b</run>
+    <run number="6" >gld_request,gst_request</run>
+    <run number="7" >tex_cache_hit,tex_cache_miss</run>
+   </context>
+  </device>
+ </session>
diff --git a/profile_Session1_Context_0.csv b/profile_Session1_Context_0.csv
new file mode 100644 (file)
index 0000000..8f4a1d0
--- /dev/null
@@ -0,0 +1,72 @@
+# TIMESTAMPFACTOR fffff6ef886fccd8
+# CUDA_DEVICE 0 Tesla C1060
diff --git a/profile_Session1_Context_0.trc b/profile_Session1_Context_0.trc
new file mode 100644 (file)
index 0000000..1fa3e00
Binary files /dev/null and b/profile_Session1_Context_0.trc differ
diff --git a/profilerapitrace_0.trc b/profilerapitrace_0.trc
new file mode 100644 (file)
index 0000000..0ada1fc
Binary files /dev/null and b/profilerapitrace_0.trc differ