]> AND Private Git Repository - kahina_paper2.git/blob - Simulations/BIG/full_openmp_4GPU.o140684
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
ajout du code du kernel
[kahina_paper2.git] / Simulations / BIG / full_openmp_4GPU.o140684
1 REMAINING: 4
2 Taking GPU #0
3 Taking GPU #1
4 Taking GPU #2
5 Taking GPU #3
6 zone limite de 'log-exp' 1.0003
7 CPU thread 3 (of 4) uses CUDA device 3
8 CPU thread 2 (of 4) uses CUDA device 2
9 CPU thread 0 (of 4) uses CUDA device 0
10 CPU thread 1 (of 4) uses CUDA device 1
11 gpu 0 dimgrid 4688 dimblock 256  degrePoly 1200000
12 gpu 2 dimgrid 4688 dimblock 256  degrePoly 1200000
13 gpu 2 dimgrid2 1172 start 600064  size 300032
14 gpu 0 dimgrid2 1172 start 0  size 300032
15 gpu 1 dimgrid 4688 dimblock 256  degrePoly 1200000
16 gpu 1 dimgrid2 1172 start 300032  size 300032
17 gpu 3 dimgrid 4688 dimblock 256  degrePoly 1200000
18 gpu 3 dimgrid2 1172 start 900096  size 300032
19 gpu 0 iter : 1  Arret : 2.44482E-06 s/iter 74.639875 
20 gpu 0 iter : 2  Arret : 2.30873E-06 s/iter 74.564382 
21 gpu 0 iter : 3  Arret : 2.11145E-06 s/iter 74.751331 
22 gpu 0 iter : 4  Arret : 2.21313E-06 s/iter 74.600699 
23 gpu 0 iter : 5  Arret : 2.19564E-06 s/iter 74.570504 
24 gpu 0 iter : 6  Arret : 2.11756E-06 s/iter 74.733217 
25 gpu 0 iter : 7  Arret : 2.14117E-06 s/iter 74.506427 
26 gpu 0 iter : 8  Arret : 2.20119E-06 s/iter 74.544657 
27 gpu 0 iter : 9  Arret : 2.37346E-06 s/iter 74.562161 
28 gpu 0 iter : 10  Arret : 2.64946E-06 s/iter 74.853449 
29 gpu 0 iter : 11  Arret : 0.000186918 s/iter 74.525156 
30 gpu 0 iter : 12  Arret : 0.00138474 s/iter 74.516126 
31 gpu 0 iter : 13  Arret : 0.00258201 s/iter 74.587762 
32 gpu 0 iter : 14  Arret : 0.0010761 s/iter 84.238307 
33 gpu 0 iter : 15  Arret : 0.00188521 s/iter 86.686536 
34 gpu 0 iter : 16  Arret : 0.00499919 s/iter 75.862454 
35 gpu 0 iter : 17  Arret : 0.00360609 s/iter 76.568609 
36 gpu 0 iter : 18  Arret : 1.06553 s/iter 94.954529 
37 gpu 0 iter : 19  Arret : 0.0393766 s/iter 92.481432 
38 gpu 0 iter : 20  Arret : 0.0223315 s/iter 94.476898 
39 gpu 0 iter : 21  Arret : 0.0410657 s/iter 94.178787 
40 gpu 0 iter : 22  Arret : 0.0381889 s/iter 85.335835 
41 gpu 0 iter : 23  Arret : 0.0874342 s/iter 85.783340 
42 gpu 0 iter : 24  Arret : 0.203536 s/iter 89.450930 
43 gpu 0 iter : 25  Arret : 0.120518 s/iter 86.419200 
44 gpu 0 iter : 26  Arret : 0.0247685 s/iter 74.681052 
45 gpu 0 iter : 27  Arret : 0.0082978 s/iter 74.762347 
46 gpu 0 iter : 28  Arret : 0.0042467 s/iter 74.824984 
47 gpu 0 iter : 29  Arret : 0.000439949 s/iter 74.307768 
48 gpu 0 iter : 30  Arret : 0.000137259 s/iter 74.423240 
49 gpu 0 iter : 31  Arret : 7.309E-05 s/iter 74.324788 
50 gpu 0 iter : 32  Arret : 8.35608E-06 s/iter 74.355819 
51 gpu 0 iter : 33  Arret : 1.88149E-08 s/iter 74.258167 
52 gpu 0 iter : 34  Arret : 1.77927E-14 s/iter 74.313275 
53 temps : 2689.68 seconde(s)
54 zone limite de 'log-exp' 1.00025
55 CPU thread 2 (of 4) uses CUDA device 2
56 CPU thread 0 (of 4) uses CUDA device 0
57 CPU thread 3 (of 4) uses CUDA device 3
58 CPU thread 1 (of 4) uses CUDA device 1
59 gpu 3 dimgrid 5469 dimblock 256  degrePoly 1400000
60 gpu 3 dimgrid2 1368 start 1050048  size 350016
61 gpu 0 dimgrid 5469 dimblock 256  degrePoly 1400000
62 gpu 0 dimgrid2 1368 start 0  size 350016
63 gpu 1 dimgrid 5469 dimblock 256  degrePoly 1400000
64 gpu 1 dimgrid2 1368 start 350016  size 350016
65 gpu 2 dimgrid 5469 dimblock 256  degrePoly 1400000
66 gpu 2 dimgrid2 1368 start 700032  size 350016
67 gpu 0 iter : 1  Arret : 2.10282E-06 s/iter 101.078414 
68 gpu 0 iter : 2  Arret : 2.0946E-06 s/iter 101.041217 
69 gpu 0 iter : 3  Arret : 2.13477E-06 s/iter 100.998517 
70 gpu 0 iter : 4  Arret : 2.10394E-06 s/iter 100.989310 
71 gpu 0 iter : 5  Arret : 2.00366E-06 s/iter 101.050293 
72 gpu 0 iter : 6  Arret : 2.09791E-06 s/iter 100.993768 
73 gpu 0 iter : 7  Arret : 2.04507E-06 s/iter 101.097449 
74 gpu 0 iter : 8  Arret : 1.84181E-06 s/iter 100.925116 
75 gpu 0 iter : 9  Arret : 1.99862E-06 s/iter 101.253105 
76 gpu 0 iter : 10  Arret : 2.47959E-06 s/iter 100.921977 
77 gpu 0 iter : 11  Arret : 0.000783744 s/iter 100.977066 
78 gpu 0 iter : 12  Arret : 0.00804452 s/iter 101.068138 
79 gpu 0 iter : 13  Arret : 0.00729316 s/iter 101.335318 
80 gpu 0 iter : 14  Arret : 0.00213 s/iter 102.383645 
81 gpu 0 iter : 15  Arret : 0.159477 s/iter 107.708354 
82 gpu 0 iter : 16  Arret : 0.847468 s/iter 109.172629 
83 gpu 0 iter : 17  Arret : 0.811732 s/iter 107.915741 
84 gpu 0 iter : 18  Arret : 3.93575 s/iter 111.916735 
85 gpu 0 iter : 19  Arret : 0.121284 s/iter 116.713178 
86 gpu 0 iter : 20  Arret : 0.0192941 s/iter 120.572398 
87 gpu 0 iter : 21  Arret : 0.0182609 s/iter 121.039853 
88 gpu 0 iter : 22  Arret : 0.0172062 s/iter 122.036788 
89 gpu 0 iter : 23  Arret : 0.0107296 s/iter 120.368267 
90 gpu 0 iter : 24  Arret : 0.0238956 s/iter 119.713485 
91 gpu 0 iter : 25  Arret : 0.0585596 s/iter 113.854843 
92 gpu 0 iter : 26  Arret : 0.0166418 s/iter 100.980212 
93 gpu 0 iter : 27  Arret : 0.000530953 s/iter 101.008612 
94 gpu 0 iter : 28  Arret : 0.000564291 s/iter 100.812084 
95 gpu 0 iter : 29  Arret : 8.45556E-07 s/iter 100.855989 
96 gpu 0 iter : 30  Arret : 1.25696E-12 s/iter 100.729882 
97 gpu 0 iter : 31  Arret : 1.57009E-16 s/iter 100.862921 
98 temps : 3295.39 seconde(s)
99 zone limite de 'log-exp' 1.00018
100 CPU thread 1 (of 4) uses CUDA device 1
101 CPU thread 2 (of 4) uses CUDA device 2
102 CPU thread 0 (of 4) uses CUDA device 0
103 CPU thread 3 (of 4) uses CUDA device 3
104 gpu 0 dimgrid 7813 dimblock 256  degrePoly 2000000
105 gpu 0 dimgrid2 1954 start 0  size 500032
106 gpu 1 dimgrid 7813 dimblock 256  degrePoly 2000000
107 gpu 1 dimgrid2 1954 start 500032  size 500032
108 gpu 2 dimgrid 7813 dimblock 256  degrePoly 2000000
109 gpu 2 dimgrid2 1954 start 1000064  size 500032
110 gpu 3 dimgrid 7813 dimblock 256  degrePoly 2000000
111 gpu 3 dimgrid2 1954 start 1500096  size 500032
112 gpu 0 iter : 1  Arret : 1.41783E-06 s/iter 205.699797 
113 gpu 0 iter : 2  Arret : 1.3616E-06 s/iter 205.388330 
114 gpu 0 iter : 3  Arret : 1.32097E-06 s/iter 205.527548 
115 gpu 0 iter : 4  Arret : 1.33335E-06 s/iter 206.148644 
116 gpu 0 iter : 5  Arret : 1.31806E-06 s/iter 206.270502 
117 gpu 0 iter : 6  Arret : 1.52658E-06 s/iter 206.476330 
118 gpu 0 iter : 7  Arret : 1.53874E-06 s/iter 206.070477 
119 gpu 0 iter : 8  Arret : 1.36502E-06 s/iter 205.982843 
120 gpu 0 iter : 9  Arret : 1.36688E-06 s/iter 205.493588 
121 gpu 0 iter : 10  Arret : 1.7716E-06 s/iter 206.082545 
122 gpu 0 iter : 11  Arret : 0.000713789 s/iter 206.598775 
123 gpu 0 iter : 12  Arret : 0.00129587 s/iter 206.013463 
124 gpu 0 iter : 13  Arret : 0.00356853 s/iter 206.828948 
125 gpu 0 iter : 14  Arret : 0.00567563 s/iter 214.007985 
126 gpu 0 iter : 15  Arret : 0.00554453 s/iter 232.252817 
127 gpu 0 iter : 16  Arret : 1.04921 s/iter 228.088790 
128 gpu 0 iter : 17  Arret : 0.121352 s/iter 209.740568 
129 gpu 0 iter : 18  Arret : 0.177027 s/iter 220.589742 
130 gpu 0 iter : 19  Arret : 0.142704 s/iter 217.273146 
131 gpu 0 iter : 20  Arret : 0.030086 s/iter 220.609907 
132 gpu 0 iter : 21  Arret : 0.0270766 s/iter 209.003185 
133 gpu 0 iter : 22  Arret : 0.0185505 s/iter 218.854174 
134 gpu 0 iter : 23  Arret : 0.00830722 s/iter 207.800890 
135 gpu 0 iter : 24  Arret : 0.0125614 s/iter 207.676175 
136 gpu 0 iter : 25  Arret : 0.0017746 s/iter 207.822734 
137 gpu 0 iter : 26  Arret : 3.36244E-05 s/iter 207.869291 
138 gpu 0 iter : 27  Arret : 2.30077E-06 s/iter 207.532544 
139 gpu 0 iter : 28  Arret : 4.08095E-08 s/iter 207.329257 
140 gpu 0 iter : 29  Arret : 9.32731E-13 s/iter 206.858689 
141 temps : 6105.16 seconde(s)
142 zone limite de 'log-exp' 1.00012
143 CPU thread 2 (of 4) uses CUDA device 2
144 CPU thread 3 (of 4) uses CUDA device 3
145 CPU thread 0 (of 4) uses CUDA device 0
146 CPU thread 1 (of 4) uses CUDA device 1
147 gpu 0 dimgrid 11719 dimblock 256  degrePoly 3000000
148 gpu 0 dimgrid2 2930 start 0  size 750016
149 gpu 2 dimgrid 11719 dimblock 256  degrePoly 3000000
150 gpu 2 dimgrid2 2930 start 1500032  size 750016
151 gpu 3 dimgrid 11719 dimblock 256  degrePoly 3000000
152 gpu 3 dimgrid2 2930 start 2250048  size 750016
153 gpu 1 dimgrid 11719 dimblock 256  degrePoly 3000000
154 gpu 1 dimgrid2 2930 start 750016  size 750016
155 gpu 0 iter : 1  Arret : 9.65662E-07 s/iter 461.902449 
156 gpu 0 iter : 2  Arret : 9.76206E-07 s/iter 461.818288 
157 gpu 0 iter : 3  Arret : 9.88763E-07 s/iter 461.410666 
158 gpu 0 iter : 4  Arret : 9.97989E-07 s/iter 461.587599 
159 gpu 0 iter : 5  Arret : 9.31223E-07 s/iter 461.314767 
160 gpu 0 iter : 6  Arret : 9.48351E-07 s/iter 461.753957 
161 gpu 0 iter : 7  Arret : 1.00829E-06 s/iter 461.809276 
162 gpu 0 iter : 8  Arret : 9.72791E-07 s/iter 461.539355 
163 gpu 0 iter : 9  Arret : 9.87121E-07 s/iter 461.458642 
164 gpu 0 iter : 10  Arret : 1.19479E-06 s/iter 461.810796 
165 gpu 0 iter : 11  Arret : 0.000221282 s/iter 461.821476 
166 gpu 0 iter : 12  Arret : 0.000344341 s/iter 460.985545 
167 gpu 0 iter : 13  Arret : 0.00110164 s/iter 461.528817 
168 gpu 0 iter : 14  Arret : 0.964677 s/iter 466.427092 
169 gpu 0 iter : 15  Arret : 3.82939 s/iter 467.570894 
170 gpu 0 iter : 16  Arret : 0.381779 s/iter 468.615707 
171 gpu 0 iter : 17  Arret : 0.211695 s/iter 480.267149 
172 gpu 0 iter : 18  Arret : 0.0742952 s/iter 476.977879 
173 gpu 0 iter : 19  Arret : 0.164849 s/iter 473.636002 
174 gpu 0 iter : 20  Arret : 0.159823 s/iter 472.866587 
175 gpu 0 iter : 21  Arret : 0.0472861 s/iter 474.015677 
176 gpu 0 iter : 22  Arret : 0.0323264 s/iter 466.289093 
177 gpu 0 iter : 23  Arret : 0.0485177 s/iter 466.379497 
178 gpu 0 iter : 24  Arret : 0.0595915 s/iter 463.698664 
179 gpu 0 iter : 25  Arret : 0.0164616 s/iter 462.422176 
180 gpu 0 iter : 26  Arret : 0.000451002 s/iter 460.400840 
181 gpu 0 iter : 27  Arret : 1.45653E-06 s/iter 460.573741 
182 gpu 0 iter : 28  Arret : 1.41903E-11 s/iter 462.724001 
183 gpu 0 iter : 29  Arret : 1.57009E-16 s/iter 460.548684 
184 temps : 13488 seconde(s)
185 zone limite de 'log-exp' 1.00009
186 CPU thread 3 (of 4) uses CUDA device 3
187 CPU thread 1 (of 4) uses CUDA device 1
188 CPU thread 2 (of 4) uses CUDA device 2
189 CPU thread 0 (of 4) uses CUDA device 0
190 gpu 1 dimgrid 15625 dimblock 256  degrePoly 4000000
191 gpu 2 dimgrid 15625 dimblock 256  degrePoly 4000000
192 gpu 3 dimgrid 15625 dimblock 256  degrePoly 4000000
193 gpu 3 dimgrid2 3907 start 3000000  size 1000000
194 gpu 1 dimgrid2 3907 start 1000000  size 1000000
195 gpu 2 dimgrid2 3907 start 2000000  size 1000000
196 gpu 0 dimgrid 15625 dimblock 256  degrePoly 4000000
197 gpu 0 dimgrid2 3907 start 0  size 1000000
198 gpu 0 iter : 1  Arret : 7.13507E-07 s/iter 817.508617 
199 gpu 0 iter : 2  Arret : 7.20094E-07 s/iter 818.908125 
200 gpu 0 iter : 3  Arret : 7.28751E-07 s/iter 820.265865 
201 gpu 0 iter : 4  Arret : 6.51165E-07 s/iter 818.432643 
202 gpu 0 iter : 5  Arret : 7.28105E-07 s/iter 817.730901 
203 gpu 0 iter : 6  Arret : 7.38098E-07 s/iter 819.571359 
204 gpu 0 iter : 7  Arret : 7.04284E-07 s/iter 818.758532 
205 gpu 0 iter : 8  Arret : 7.5334E-07 s/iter 818.100543 
206 gpu 0 iter : 9  Arret : 6.79044E-07 s/iter 818.476009 
207 gpu 0 iter : 10  Arret : 7.73741E-07 s/iter 819.462739 
208 gpu 0 iter : 11  Arret : 2.82143E-05 s/iter 818.518901 
209 gpu 0 iter : 12  Arret : 0.000443039 s/iter 818.516432 
210 gpu 0 iter : 13  Arret : 0.000886057 s/iter 823.390814 
211 gpu 0 iter : 14  Arret : 0.00205987 s/iter 819.345638 
212 gpu 0 iter : 15  Arret : 0.00937057 s/iter 825.773513 
213 gpu 0 iter : 16  Arret : 0.00932936 s/iter 844.157309 
214 gpu 0 iter : 17  Arret : 0.194265 s/iter 854.703102 
215 gpu 0 iter : 18  Arret : 0.0698451 s/iter 852.222049 
216 gpu 0 iter : 19  Arret : 0.283545 s/iter 867.758665 
217 gpu 0 iter : 20  Arret : 1.19617 s/iter 847.010405 
218 gpu 0 iter : 21  Arret : 0.0451126 s/iter 840.429949 
219 gpu 0 iter : 22  Arret : 0.0159319 s/iter 831.098682 
220 gpu 0 iter : 23  Arret : 0.0102042 s/iter 821.563847 
221 gpu 0 iter : 24  Arret : 0.00390116 s/iter 818.546315 
222 gpu 0 iter : 25  Arret : 0.000294328 s/iter 820.074389 
223 gpu 0 iter : 26  Arret : 7.774E-05 s/iter 818.592072 
224 gpu 0 iter : 27  Arret : 2.91292E-06 s/iter 818.542294 
225 gpu 0 iter : 28  Arret : 3.27025E-06 s/iter 818.997322 
226 gpu 0 iter : 29  Arret : 2.38632E-06 s/iter 818.581842 
227 gpu 0 iter : 30  Arret : 1.44132E-07 s/iter 819.569590 
228 gpu 0 iter : 31  Arret : 1.1039E-10 s/iter 818.574265 
229 gpu 0 iter : 32  Arret : 1.57009E-16 s/iter 818.740279 
230 temps : 26495 seconde(s)
231 zone limite de 'log-exp' 1.00007
232 CPU thread 3 (of 4) uses CUDA device 3
233 CPU thread 1 (of 4) uses CUDA device 1
234 CPU thread 2 (of 4) uses CUDA device 2
235 CPU thread 0 (of 4) uses CUDA device 0
236 gpu 3 dimgrid 19532 dimblock 256  degrePoly 5000000
237 gpu 3 dimgrid2 4883 start 3750144  size 1250048
238 gpu 1 dimgrid 19532 dimblock 256  degrePoly 5000000
239 gpu 1 dimgrid2 4883 start 1250048  size 1250048
240 gpu 2 dimgrid 19532 dimblock 256  degrePoly 5000000
241 gpu 2 dimgrid2 4883 start 2500096  size 1250048
242 gpu 0 dimgrid 19532 dimblock 256  degrePoly 5000000
243 gpu 0 dimgrid2 4883 start 0  size 1250048
244 gpu 0 iter : 1  Arret : 5.5526E-07 s/iter 1277.818322 
245 gpu 0 iter : 2  Arret : 5.61731E-07 s/iter 1277.992626 
246 gpu 0 iter : 3  Arret : 5.64964E-07 s/iter 1277.611125 
247 gpu 0 iter : 4  Arret : 5.72211E-07 s/iter 1276.532785 
248 gpu 0 iter : 5  Arret : 5.52232E-07 s/iter 1277.275538 
249 gpu 0 iter : 6  Arret : 5.84776E-07 s/iter 1277.220058 
250 gpu 0 iter : 7  Arret : 5.78912E-07 s/iter 1275.509197 
251 gpu 0 iter : 8  Arret : 5.79479E-07 s/iter 1278.916489 
252 gpu 0 iter : 9  Arret : 6.18115E-07 s/iter 1274.895894 
253 gpu 0 iter : 10  Arret : 7.95575E-07 s/iter 1278.799546 
254 gpu 0 iter : 11  Arret : 0.000144509 s/iter 1274.000706 
255 gpu 0 iter : 12  Arret : 0.00033866 s/iter 1279.802690 
256 gpu 0 iter : 13  Arret : 0.000459288 s/iter 1277.437917 
257 gpu 0 iter : 14  Arret : 0.00271507 s/iter 1285.725652 
258 gpu 0 iter : 15  Arret : 0.00416423 s/iter 1306.932716 
259 gpu 0 iter : 16  Arret : 0.0203828 s/iter 1359.882166 
260 gpu 0 iter : 17  Arret : 0.0178872 s/iter 1347.000432 
261 gpu 0 iter : 18  Arret : 0.0127105 s/iter 1348.523047 
262 gpu 0 iter : 19  Arret : 0.0128704 s/iter 1338.221357 
263 gpu 0 iter : 20  Arret : 0.0222235 s/iter 1333.615666 
264 gpu 0 iter : 21  Arret : 0.031043 s/iter 1321.029250 
265 gpu 0 iter : 22  Arret : 0.0293537 s/iter 1307.821391 
266 gpu 0 iter : 23  Arret : 0.0147864 s/iter 1292.696397 
267 gpu 0 iter : 24  Arret : 0.00622656 s/iter 1277.914185 
268 gpu 0 iter : 25  Arret : 0.00544242 s/iter 1276.236495 
269 gpu 0 iter : 26  Arret : 0.00645191 s/iter 1275.391733 
270 gpu 0 iter : 27  Arret : 0.00753073 s/iter 1276.452405 
271 gpu 0 iter : 28  Arret : 0.000248698 s/iter 1280.456039 
272 gpu 0 iter : 29  Arret : 1.37858E-06 s/iter 1279.135441 
273 gpu 0 iter : 30  Arret : 4.93212E-07 s/iter 1274.588590 
274 gpu 0 iter : 31  Arret : 1.80451E-07 s/iter 1278.396215 
275 gpu 0 iter : 32  Arret : 3.28612E-09 s/iter 1274.750792 
276 gpu 0 iter : 33  Arret : 1.99852E-14 s/iter 1276.780371 
277 temps : 42620.5 seconde(s)