]> AND Private Git Repository - Cipher_code.git/blob - IDA_new/gf-complete/src/gf_w32.c
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
Merge branch 'master' of ssh://info.iut-bm.univ-fcomte.fr/Cipher_code
[Cipher_code.git] / IDA_new / gf-complete / src / gf_w32.c
1 /*
2  * GF-Complete: A Comprehensive Open Source Library for Galois Field Arithmetic
3  * James S. Plank, Ethan L. Miller, Kevin M. Greenan,
4  * Benjamin A. Arnold, John A. Burnum, Adam W. Disney, Allen C. McBride.
5  *
6  * gf_w32.c
7  *
8  * Routines for 32-bit Galois fields
9  */
10
11
12 #include "gf_int.h"
13 #include <stdio.h>
14 #include <stdlib.h>
15 #include "gf_w32.h"
16 #include "gf_cpu.h"
17
18 #define MM_PRINT32(s, r) { uint8_t blah[16], ii; printf("%-12s", s); _mm_storeu_si128((__m128i *)blah, r); for (ii = 0; ii < 16; ii += 4) printf(" %02x%02x%02x%02x", blah[15-ii], blah[14-ii], blah[13-ii], blah[12-ii]); printf("\n"); }
19
20 #define MM_PRINT8(s, r) { uint8_t blah[16], ii; printf("%-12s", s); _mm_storeu_si128((__m128i *)blah, r); for (ii = 0; ii < 16; ii += 1) printf("%s%02x", (ii%4==0) ? "   " : " ", blah[15-ii]); printf("\n"); }
21
22 #define AB2(ip, am1 ,am2, b, t1, t2) {\
23   t1 = (b << 1) & am1;\
24   t2 = b & am2; \
25   t2 = ((t2 << 1) - (t2 >> (GF_FIELD_WIDTH-1))); \
26   b = (t1 ^ (t2 & ip));}
27
28 #define SSE_AB2(pp, m1 ,m2, va, t1, t2) {\
29           t1 = _mm_and_si128(_mm_slli_epi64(va, 1), m1); \
30           t2 = _mm_and_si128(va, m2); \
31           t2 = _mm_sub_epi64 (_mm_slli_epi64(t2, 1), _mm_srli_epi64(t2, (GF_FIELD_WIDTH-1))); \
32           va = _mm_xor_si128(t1, _mm_and_si128(t2, pp)); }
33
34 static
35 inline
36 uint32_t gf_w32_inverse_from_divide (gf_t *gf, uint32_t a)
37 {
38   return gf->divide.w32(gf, 1, a);
39 }
40
41 static
42 inline
43 uint32_t gf_w32_divide_from_inverse (gf_t *gf, uint32_t a, uint32_t b)
44 {
45   b = gf->inverse.w32(gf, b);
46   return gf->multiply.w32(gf, a, b);
47 }
48
49 static
50 void
51 gf_w32_multiply_region_from_single(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int 
52 xor)
53 {
54   uint32_t i;
55   uint32_t *s32;
56   uint32_t *d32;
57    
58   s32 = (uint32_t *) src;
59   d32 = (uint32_t *) dest; 
60  
61   if (xor) {
62     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
63       d32[i] ^= gf->multiply.w32(gf, val, s32[i]);
64     } 
65   } else {
66     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
67       d32[i] = gf->multiply.w32(gf, val, s32[i]);
68     } 
69   }
70 }
71
72 #if defined(INTEL_SSE4_PCLMUL)
73
74 static 
75 void
76 gf_w32_clm_multiply_region_from_single_2(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
77 {
78
79   uint32_t i;
80   uint32_t *s32;
81   uint32_t *d32;
82   
83   __m128i         a, b;
84   __m128i         result;
85   __m128i         prim_poly;
86   __m128i         w;
87   gf_internal_t * h = gf->scratch;
88   
89   prim_poly = _mm_set_epi32(0, 0, 1, (uint32_t)(h->prim_poly & 0xffffffffULL));
90    
91   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
92   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
93
94   a = _mm_insert_epi32 (_mm_setzero_si128(), val, 0);
95   s32 = (uint32_t *) src;
96   d32 = (uint32_t *) dest; 
97  
98   if (xor) {
99     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
100       b = _mm_insert_epi32 (a, s32[i], 0);
101       result = _mm_clmulepi64_si128 (a, b, 0);
102       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
103       result = _mm_xor_si128 (result, w);
104       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
105       result = _mm_xor_si128 (result, w);
106       d32[i] ^= ((gf_val_32_t)_mm_extract_epi32(result, 0));
107     } 
108   } else {
109     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
110       b = _mm_insert_epi32 (a, s32[i], 0);
111       result = _mm_clmulepi64_si128 (a, b, 0);
112       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
113       result = _mm_xor_si128 (result, w);
114       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
115       result = _mm_xor_si128 (result, w);
116       d32[i] = ((gf_val_32_t)_mm_extract_epi32(result, 0));
117     } 
118   }
119 }
120 #endif
121
122 #if defined(INTEL_SSE4_PCLMUL) 
123
124 static 
125 void
126 gf_w32_clm_multiply_region_from_single_3(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
127 {
128
129   uint32_t i;
130   uint32_t *s32;
131   uint32_t *d32;
132   
133   __m128i         a, b;
134   __m128i         result;
135   __m128i         prim_poly;
136   __m128i         w;
137   gf_internal_t * h = gf->scratch;
138   
139   prim_poly = _mm_set_epi32(0, 0, 1, (uint32_t)(h->prim_poly & 0xffffffffULL));
140
141   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
142   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
143   
144   a = _mm_insert_epi32 (_mm_setzero_si128(), val, 0);
145   
146   s32 = (uint32_t *) src;
147   d32 = (uint32_t *) dest; 
148  
149   if (xor) {
150     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
151       b = _mm_insert_epi32 (a, s32[i], 0);
152       result = _mm_clmulepi64_si128 (a, b, 0);
153       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
154       result = _mm_xor_si128 (result, w);
155       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
156       result = _mm_xor_si128 (result, w);
157       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
158       result = _mm_xor_si128 (result, w);
159       d32[i] ^= ((gf_val_32_t)_mm_extract_epi32(result, 0));
160     } 
161   } else {
162     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
163       b = _mm_insert_epi32 (a, s32[i], 0);
164       result = _mm_clmulepi64_si128 (a, b, 0);
165       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
166       result = _mm_xor_si128 (result, w);
167       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
168       result = _mm_xor_si128 (result, w);
169       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
170       result = _mm_xor_si128 (result, w);
171       d32[i] = ((gf_val_32_t)_mm_extract_epi32(result, 0));
172     } 
173   }
174 }
175 #endif
176
177 #if defined(INTEL_SSE4_PCLMUL)
178 static 
179 void
180 gf_w32_clm_multiply_region_from_single_4(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
181 {
182   uint32_t i;
183   uint32_t *s32;
184   uint32_t *d32;
185   
186   __m128i         a, b;
187   __m128i         result;
188   __m128i         prim_poly;
189   __m128i         w;
190   gf_internal_t * h = gf->scratch;
191   
192   prim_poly = _mm_set_epi32(0, 0, 1, (uint32_t)(h->prim_poly & 0xffffffffULL));
193
194   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
195   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
196   
197   a = _mm_insert_epi32 (_mm_setzero_si128(), val, 0);
198   
199   s32 = (uint32_t *) src;
200   d32 = (uint32_t *) dest; 
201  
202   if (xor) {
203     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
204       b = _mm_insert_epi32 (a, s32[i], 0);
205       result = _mm_clmulepi64_si128 (a, b, 0);
206       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
207       result = _mm_xor_si128 (result, w);
208       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
209       result = _mm_xor_si128 (result, w);
210       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
211       result = _mm_xor_si128 (result, w);
212       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
213       result = _mm_xor_si128 (result, w);
214       d32[i] ^= ((gf_val_32_t)_mm_extract_epi32(result, 0));
215     } 
216   } else {
217     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
218       b = _mm_insert_epi32 (a, s32[i], 0);
219       result = _mm_clmulepi64_si128 (a, b, 0);
220       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
221       result = _mm_xor_si128 (result, w);
222       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
223       result = _mm_xor_si128 (result, w);
224       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
225       result = _mm_xor_si128 (result, w);
226       w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
227       result = _mm_xor_si128 (result, w);
228       d32[i] = ((gf_val_32_t)_mm_extract_epi32(result, 0));
229     } 
230   }
231 }
232 #endif
233
234 static
235 inline
236 uint32_t gf_w32_euclid (gf_t *gf, uint32_t b)
237 {
238   uint32_t e_i, e_im1, e_ip1;
239   uint32_t d_i, d_im1, d_ip1;
240   uint32_t y_i, y_im1, y_ip1;
241   uint32_t c_i;
242
243   if (b == 0) return -1;
244   e_im1 = ((gf_internal_t *) (gf->scratch))->prim_poly; 
245   e_i = b;
246   d_im1 = 32;
247   for (d_i = d_im1-1; ((1 << d_i) & e_i) == 0; d_i--) ;
248   y_i = 1;
249   y_im1 = 0;
250
251   while (e_i != 1) {
252
253     e_ip1 = e_im1;
254     d_ip1 = d_im1;
255     c_i = 0;
256
257     while (d_ip1 >= d_i) {
258       c_i ^= (1 << (d_ip1 - d_i));
259       e_ip1 ^= (e_i << (d_ip1 - d_i));
260       d_ip1--;
261       if (e_ip1 == 0) return 0;
262       while ((e_ip1 & (1 << d_ip1)) == 0) d_ip1--;
263     }
264
265     y_ip1 = y_im1 ^ gf->multiply.w32(gf, c_i, y_i);
266     y_im1 = y_i;
267     y_i = y_ip1;
268
269     e_im1 = e_i;
270     d_im1 = d_i;
271     e_i = e_ip1;
272     d_i = d_ip1;
273   }
274
275   return y_i;
276 }
277
278 static
279 gf_val_32_t gf_w32_extract_word(gf_t *gf, void *start, int bytes, int index)
280 {
281   uint32_t *r32, rv;
282
283   r32 = (uint32_t *) start;
284   rv = r32[index];
285   return rv;
286 }
287
288 static
289 gf_val_32_t gf_w32_composite_extract_word(gf_t *gf, void *start, int bytes, int index)
290 {
291   int sub_size;
292   gf_internal_t *h;
293   uint8_t *r8, *top;
294   uint32_t a, b, *r32;
295   gf_region_data rd;
296
297   h = (gf_internal_t *) gf->scratch;
298   gf_set_region_data(&rd, gf, start, start, bytes, 0, 0, 32);
299   r32 = (uint32_t *) start;
300   if (r32 + index < (uint32_t *) rd.d_start) return r32[index];
301   if (r32 + index >= (uint32_t *) rd.d_top) return r32[index];
302   index -= (((uint32_t *) rd.d_start) - r32);
303   r8 = (uint8_t *) rd.d_start;
304   top = (uint8_t *) rd.d_top;
305   sub_size = (top-r8)/2;
306
307   a = h->base_gf->extract_word.w32(h->base_gf, r8, sub_size, index);
308   b = h->base_gf->extract_word.w32(h->base_gf, r8+sub_size, sub_size, index);
309   return (a | (b << 16));
310 }
311
312 static
313 gf_val_32_t gf_w32_split_extract_word(gf_t *gf, void *start, int bytes, int index)
314 {
315   int i;
316   uint32_t *r32, rv;
317   uint8_t *r8;
318   gf_region_data rd;
319
320   gf_set_region_data(&rd, gf, start, start, bytes, 0, 0, 64);
321   r32 = (uint32_t *) start;
322   if (r32 + index < (uint32_t *) rd.d_start) return r32[index];
323   if (r32 + index >= (uint32_t *) rd.d_top) return r32[index];
324   index -= (((uint32_t *) rd.d_start) - r32);
325   r8 = (uint8_t *) rd.d_start;
326   r8 += ((index & 0xfffffff0)*4);
327   r8 += (index & 0xf);
328   r8 += 48;
329   rv =0;
330   for (i = 0; i < 4; i++) {
331     rv <<= 8;
332     rv |= *r8;
333     r8 -= 16;
334   }
335   return rv;
336 }
337
338
339 static
340 inline
341 uint32_t gf_w32_matrix (gf_t *gf, uint32_t b)
342 {
343   return gf_bitmatrix_inverse(b, 32, ((gf_internal_t *) (gf->scratch))->prim_poly);
344 }
345
346 /* JSP: GF_MULT_SHIFT: The world's dumbest multiplication algorithm.  I only
347    include it for completeness.  It does have the feature that it requires no
348    extra memory.  
349 */
350
351 #if defined(INTEL_SSE4_PCLMUL)
352
353 static
354 inline
355 gf_val_32_t
356 gf_w32_cfmgk_multiply (gf_t *gf, gf_val_32_t a32, gf_val_32_t b32)
357 {
358   gf_val_32_t rv = 0;
359
360   __m128i         a, b;
361   __m128i         result;
362   __m128i         w;
363   __m128i         g, q;
364   gf_internal_t * h = gf->scratch;
365   uint64_t        g_star, q_plus;
366
367   q_plus = *(uint64_t *) h->private;
368   g_star = *((uint64_t *) h->private + 1);
369
370   a = _mm_insert_epi32 (_mm_setzero_si128(), a32, 0);
371   b = _mm_insert_epi32 (a, b32, 0);
372   g = _mm_insert_epi64 (a, g_star, 0);
373   q = _mm_insert_epi64 (a, q_plus, 0);
374   
375   result = _mm_clmulepi64_si128 (a, b, 0);
376   w = _mm_clmulepi64_si128 (q, _mm_srli_si128 (result, 4), 0);
377   w = _mm_clmulepi64_si128 (g, _mm_srli_si128 (w, 4), 0);
378   result = _mm_xor_si128 (result, w);
379
380   /* Extracts 32 bit value from result. */
381   rv = ((gf_val_32_t)_mm_extract_epi32(result, 0));
382   return rv;
383 }
384 #endif
385
386 #if defined(INTEL_SSE4_PCLMUL)
387
388 static 
389 void
390 gf_w32_cfmgk_multiply_region_from_single(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
391 {
392
393   uint32_t i;
394   uint32_t *s32;
395   uint32_t *d32;
396   
397   __m128i         a, b;
398   __m128i         result;
399   __m128i         w;
400   __m128i         g, q;
401   gf_internal_t * h = gf->scratch;
402   uint64_t        g_star, q_plus;
403   
404   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
405   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
406
407   q_plus = *(uint64_t *) h->private;
408   g_star = *((uint64_t *) h->private + 1);
409
410   a = _mm_insert_epi32 (_mm_setzero_si128(), val, 0);
411   g = _mm_insert_epi64 (a, g_star, 0);
412   q = _mm_insert_epi64 (a, q_plus, 0);
413   s32 = (uint32_t *) src;
414   d32 = (uint32_t *) dest; 
415  
416   if (xor) {
417     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
418       b = _mm_insert_epi32 (a, s32[i], 0);
419       result = _mm_clmulepi64_si128 (a, b, 0);
420       w = _mm_clmulepi64_si128 (q, _mm_srli_si128 (result, 4), 0);
421       w = _mm_clmulepi64_si128 (g, _mm_srli_si128 (w, 4), 0);
422       result = _mm_xor_si128 (result, w);
423       d32[i] ^= ((gf_val_32_t)_mm_extract_epi32(result, 0));
424     } 
425   } else {
426     for (i = 0; i < bytes/sizeof(uint32_t); i++) {
427       b = _mm_insert_epi32 (a, s32[i], 0);
428       result = _mm_clmulepi64_si128 (a, b, 0);
429       w = _mm_clmulepi64_si128 (q, _mm_srli_si128 (result, 4), 0);
430       w = _mm_clmulepi64_si128 (g, _mm_srli_si128 (w, 4), 0);
431       result = _mm_xor_si128 (result, w);
432       d32[i] = ((gf_val_32_t)_mm_extract_epi32(result, 0));
433     } 
434   }
435 }
436 #endif
437
438
439 #if defined(INTEL_SSE4_PCLMUL)
440
441 static
442 inline
443 gf_val_32_t
444 gf_w32_clm_multiply_2 (gf_t *gf, gf_val_32_t a32, gf_val_32_t b32)
445 {
446   gf_val_32_t rv = 0;
447
448   __m128i         a, b;
449   __m128i         result;
450   __m128i         prim_poly;
451   __m128i         w;
452   gf_internal_t * h = gf->scratch;
453
454
455   a = _mm_insert_epi32 (_mm_setzero_si128(), a32, 0);
456   b = _mm_insert_epi32 (a, b32, 0);
457   
458   prim_poly = _mm_set_epi32(0, 0, 1, (uint32_t)(h->prim_poly & 0xffffffffULL));
459   
460   /* Do the initial multiply */
461
462   result = _mm_clmulepi64_si128 (a, b, 0);
463
464   /* Ben: Do prim_poly reduction twice. We are guaranteed that we will only
465      have to do the reduction at most twice, because (w-2)/z == 2. Where
466      z is equal to the number of zeros after the leading 1 
467
468    _mm_clmulepi64_si128 is the carryless multiply operation. Here
469    _mm_srli_si128 shifts the result to the right by 4 bytes. This allows
470    us to multiply the prim_poly by the leading bits of the result. We
471    then xor the result of that operation back with the result.*/
472
473   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
474   result = _mm_xor_si128 (result, w);
475   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
476   result = _mm_xor_si128 (result, w);
477
478   /* Extracts 32 bit value from result. */
479   rv = ((gf_val_32_t)_mm_extract_epi32(result, 0));
480   return rv;
481 }
482 #endif
483
484 #if defined(INTEL_SSE4_PCLMUL)
485
486 static
487 inline
488 gf_val_32_t
489 gf_w32_clm_multiply_3 (gf_t *gf, gf_val_32_t a32, gf_val_32_t b32)
490 {
491   gf_val_32_t rv = 0;
492
493   __m128i         a, b;
494   __m128i         result;
495   __m128i         prim_poly;
496   __m128i         w;
497   gf_internal_t * h = gf->scratch;
498
499
500   a = _mm_insert_epi32 (_mm_setzero_si128(), a32, 0);
501   b = _mm_insert_epi32 (a, b32, 0);
502
503   prim_poly = _mm_set_epi32(0, 0, 1, (uint32_t)(h->prim_poly & 0xffffffffULL));
504
505   /* Do the initial multiply */
506   
507   result = _mm_clmulepi64_si128 (a, b, 0);
508
509   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
510   result = _mm_xor_si128 (result, w);
511   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
512   result = _mm_xor_si128 (result, w);
513   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
514   result = _mm_xor_si128 (result, w);
515
516   /* Extracts 32 bit value from result. */
517   
518   rv = ((gf_val_32_t)_mm_extract_epi32(result, 0));
519   return rv;
520 }
521 #endif
522
523 #if defined(INTEL_SSE4_PCLMUL)
524
525 static
526 inline
527 gf_val_32_t
528 gf_w32_clm_multiply_4 (gf_t *gf, gf_val_32_t a32, gf_val_32_t b32)
529 {
530   gf_val_32_t rv = 0;
531
532   __m128i         a, b;
533   __m128i         result;
534   __m128i         prim_poly;
535   __m128i         w;
536   gf_internal_t * h = gf->scratch;
537
538
539   a = _mm_insert_epi32 (_mm_setzero_si128(), a32, 0);
540   b = _mm_insert_epi32 (a, b32, 0);
541
542   prim_poly = _mm_set_epi32(0, 0, 1, (uint32_t)(h->prim_poly & 0xffffffffULL));
543
544   /* Do the initial multiply */
545   
546   result = _mm_clmulepi64_si128 (a, b, 0);
547
548   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
549   result = _mm_xor_si128 (result, w);
550   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
551   result = _mm_xor_si128 (result, w);
552   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
553   result = _mm_xor_si128 (result, w);
554   w = _mm_clmulepi64_si128 (prim_poly, _mm_srli_si128 (result, 4), 0);
555   result = _mm_xor_si128 (result, w);
556
557   /* Extracts 32 bit value from result. */
558   
559   rv = ((gf_val_32_t)_mm_extract_epi32(result, 0));
560   return rv;
561 }
562 #endif
563
564
565 static
566 inline
567 uint32_t
568 gf_w32_shift_multiply (gf_t *gf, uint32_t a32, uint32_t b32)
569 {
570   uint64_t product, i, pp, a, b, one;
571   gf_internal_t *h;
572
573   a = a32;
574   b = b32;
575   h = (gf_internal_t *) gf->scratch;
576   one = 1;
577   pp = h->prim_poly | (one << 32);
578
579   product = 0;
580
581   for (i = 0; i < GF_FIELD_WIDTH; i++) { 
582     if (a & (one << i)) product ^= (b << i);
583   }
584   for (i = (GF_FIELD_WIDTH*2-2); i >= GF_FIELD_WIDTH; i--) {
585     if (product & (one << i)) product ^= (pp << (i-GF_FIELD_WIDTH)); 
586   }
587   return product;
588 }
589
590   static 
591 int gf_w32_cfmgk_init(gf_t *gf)
592 {
593   SET_FUNCTION(gf,inverse,w32,gf_w32_euclid)
594   SET_FUNCTION(gf,multiply_region,w32,gf_w32_multiply_region_from_single)
595   
596 #if defined(INTEL_SSE4_PCLMUL)
597   if (gf_cpu_supports_intel_pclmul) {
598     gf_internal_t *h;
599
600     h = (gf_internal_t *) gf->scratch;
601     SET_FUNCTION(gf,multiply,w32,gf_w32_cfmgk_multiply)
602     SET_FUNCTION(gf,multiply_region,w32,gf_w32_cfmgk_multiply_region_from_single)
603
604     uint64_t *q_plus = (uint64_t *) h->private;
605     uint64_t *g_star = (uint64_t *) h->private + 1;
606
607     uint64_t tmp = h->prim_poly << 32;
608     *q_plus = 1ULL << 32;
609
610     int i;
611     for(i = 63; i >= 32; i--)
612       if((1ULL << i) & tmp)
613       {
614         *q_plus |= 1ULL << (i-32);
615         tmp ^= h->prim_poly << (i-32);
616       }
617
618     *g_star = h->prim_poly & ((1ULL << 32) - 1);
619
620     return 1;
621   }
622 #endif
623
624   return 0;
625 }
626
627   static 
628 int gf_w32_cfm_init(gf_t *gf)
629 {
630   SET_FUNCTION(gf,inverse,w32,gf_w32_euclid)
631   SET_FUNCTION(gf,multiply_region,w32,gf_w32_multiply_region_from_single)
632   
633   /*Ben: We also check to see if the prim poly will work for pclmul */
634   /*Ben: Check to see how many reduction steps it will take*/
635
636 #if defined(INTEL_SSE4_PCLMUL)
637   if (gf_cpu_supports_intel_pclmul) {
638     gf_internal_t *h;
639
640     h = (gf_internal_t *) gf->scratch;
641
642     if ((0xfffe0000 & h->prim_poly) == 0){ 
643       SET_FUNCTION(gf,multiply,w32,gf_w32_clm_multiply_2)
644       SET_FUNCTION(gf,multiply_region,w32,gf_w32_clm_multiply_region_from_single_2)
645     }else if ((0xffc00000 & h->prim_poly) == 0){
646       SET_FUNCTION(gf,multiply,w32,gf_w32_clm_multiply_3)
647       SET_FUNCTION(gf,multiply_region,w32,gf_w32_clm_multiply_region_from_single_3)
648     }else if ((0xfe000000 & h->prim_poly) == 0){
649       SET_FUNCTION(gf,multiply,w32,gf_w32_clm_multiply_4)
650       SET_FUNCTION(gf,multiply_region,w32,gf_w32_clm_multiply_region_from_single_4)
651     } else {
652       return 0;
653     }
654     return 1;
655   }
656   #endif
657
658   return 0;
659 }
660
661   static 
662 int gf_w32_shift_init(gf_t *gf)
663 {
664   SET_FUNCTION(gf,inverse,w32,gf_w32_euclid)
665   SET_FUNCTION(gf,multiply_region,w32,gf_w32_multiply_region_from_single)
666   SET_FUNCTION(gf,multiply,w32,gf_w32_shift_multiply)
667   return 1;
668 }
669
670 static
671   void
672 gf_w32_group_set_shift_tables(uint32_t *shift, uint32_t val, gf_internal_t *h)
673 {
674   uint32_t i;
675   uint32_t j;
676
677   shift[0] = 0;
678
679   for (i = 1; i < ((uint32_t)1 << h->arg1); i <<= 1) {
680     for (j = 0; j < i; j++) shift[i|j] = shift[j]^val;
681     if (val & GF_FIRST_BIT) {
682       val <<= 1;
683       val ^= h->prim_poly;
684     } else {
685       val <<= 1;
686     }
687   }
688 }
689
690   static
691 void gf_w32_group_s_equals_r_multiply_region(gf_t *gf, void *src, void *dest, gf_val_32_t val, int bytes, int xor)
692 {
693   int leftover, rs;
694   uint32_t p, l, ind, a32;
695   int bits_left;
696   int g_s;
697   gf_region_data rd;
698   uint32_t *s32, *d32, *top;
699   struct gf_w32_group_data *gd;
700   gf_internal_t *h = (gf_internal_t *) gf->scratch;
701
702   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
703   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
704
705   gd = (struct gf_w32_group_data *) h->private;
706   g_s = h->arg1;
707   gf_w32_group_set_shift_tables(gd->shift, val, h);
708
709   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 4);
710   gf_do_initial_region_alignment(&rd);
711
712   s32 = (uint32_t *) rd.s_start;
713   d32 = (uint32_t *) rd.d_start;
714   top = (uint32_t *) rd.d_top;
715
716   leftover = 32 % g_s;
717   if (leftover == 0) leftover = g_s;
718
719   while (d32 < top) {
720     rs = 32 - leftover;
721     a32 = *s32;
722     ind = a32 >> rs;
723     a32 <<= leftover;
724     p = gd->shift[ind];
725
726     bits_left = rs;
727     rs = 32 - g_s;
728
729     while (bits_left > 0) {
730       bits_left -= g_s;
731       ind = a32 >> rs;
732       a32 <<= g_s;
733       l = p >> rs;
734       p = (gd->shift[ind] ^ gd->reduce[l] ^ (p << g_s));
735     }
736     if (xor) p ^= *d32;
737     *d32 = p;
738     d32++;
739     s32++;
740   }
741   gf_do_final_region_alignment(&rd);
742 }
743
744   static
745 void gf_w32_group_multiply_region(gf_t *gf, void *src, void *dest, gf_val_32_t val, int bytes, int xor)
746 {
747   uint32_t *s32, *d32, *top;
748   int i;
749   int leftover;
750   uint64_t p, l, r;
751   uint32_t a32, ind;
752   int g_s, g_r;
753   struct gf_w32_group_data *gd;
754   gf_region_data rd;
755
756   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
757   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
758
759   gf_internal_t *h = (gf_internal_t *) gf->scratch;
760   g_s = h->arg1;
761   g_r = h->arg2;
762   gd = (struct gf_w32_group_data *) h->private;
763   gf_w32_group_set_shift_tables(gd->shift, val, h);
764
765   leftover = GF_FIELD_WIDTH % g_s;
766   if (leftover == 0) leftover = g_s;
767
768   gd = (struct gf_w32_group_data *) h->private;
769   gf_w32_group_set_shift_tables(gd->shift, val, h);
770
771   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 4);
772   gf_do_initial_region_alignment(&rd);
773
774   s32 = (uint32_t *) rd.s_start;
775   d32 = (uint32_t *) rd.d_start;
776   top = (uint32_t *) rd.d_top;
777
778   while (d32 < top) {
779     a32 = *s32;
780     ind = a32 >> (GF_FIELD_WIDTH - leftover);
781     p = gd->shift[ind];
782     p <<= g_s;
783     a32 <<= leftover;
784   
785     i = (GF_FIELD_WIDTH - leftover);
786     while (i > g_s) {
787       ind = a32 >> (GF_FIELD_WIDTH-g_s);
788       p ^= gd->shift[ind];
789       a32 <<= g_s;
790       p <<= g_s;
791       i -= g_s;
792     }
793   
794     ind = a32 >> (GF_FIELD_WIDTH-g_s);
795     p ^= gd->shift[ind];
796   
797     for (i = gd->tshift ; i >= 0; i -= g_r) {
798       l = p & (gd->rmask << i);
799       r = gd->reduce[l >> (i+32)];
800       r <<= (i);
801       p ^= r;
802     }
803
804     if (xor) p ^= *d32;
805     *d32 = p;
806     d32++;
807     s32++;
808   }
809   gf_do_final_region_alignment(&rd);
810 }
811
812 static
813 inline
814 gf_val_32_t
815 gf_w32_group_s_equals_r_multiply(gf_t *gf, gf_val_32_t a, gf_val_32_t b)
816 {
817   int leftover, rs;
818   uint32_t p, l, ind, a32;
819   int bits_left;
820   int g_s;
821
822   struct gf_w32_group_data *gd;
823   gf_internal_t *h = (gf_internal_t *) gf->scratch;
824   g_s = h->arg1;
825
826   gd = (struct gf_w32_group_data *) h->private;
827   gf_w32_group_set_shift_tables(gd->shift, b, h);
828
829   leftover = 32 % g_s;
830   if (leftover == 0) leftover = g_s;
831
832   rs = 32 - leftover;
833   a32 = a;
834   ind = a32 >> rs;
835   a32 <<= leftover;
836   p = gd->shift[ind];
837
838   bits_left = rs;
839   rs = 32 - g_s;
840
841   while (bits_left > 0) {
842     bits_left -= g_s;
843     ind = a32 >> rs;
844     a32 <<= g_s;
845     l = p >> rs;
846     p = (gd->shift[ind] ^ gd->reduce[l] ^ (p << g_s));
847   }
848   return p;
849 }
850
851 static
852 inline
853 gf_val_32_t
854 gf_w32_group_4_4_multiply(gf_t *gf, gf_val_32_t a, gf_val_32_t b)
855 {
856   uint32_t p, l, ind, a32;
857
858   struct gf_w32_group_data *d44;
859   gf_internal_t *h = (gf_internal_t *) gf->scratch;
860
861   d44 = (struct gf_w32_group_data *) h->private;
862   gf_w32_group_set_shift_tables(d44->shift, b, h);
863
864   a32 = a;
865   ind = a32 >> 28;
866   a32 <<= 4;
867   p = d44->shift[ind];
868   ind = a32 >> 28;
869   a32 <<= 4;
870   l = p >> 28;
871   p = (d44->shift[ind] ^ d44->reduce[l] ^ (p << 4));
872   ind = a32 >> 28;
873   a32 <<= 4;
874   l = p >> 28;
875   p = (d44->shift[ind] ^ d44->reduce[l] ^ (p << 4));
876   ind = a32 >> 28;
877   a32 <<= 4;
878   l = p >> 28;
879   p = (d44->shift[ind] ^ d44->reduce[l] ^ (p << 4));
880   ind = a32 >> 28;
881   a32 <<= 4;
882   l = p >> 28;
883   p = (d44->shift[ind] ^ d44->reduce[l] ^ (p << 4));
884   ind = a32 >> 28;
885   a32 <<= 4;
886   l = p >> 28;
887   p = (d44->shift[ind] ^ d44->reduce[l] ^ (p << 4));
888   ind = a32 >> 28;
889   a32 <<= 4;
890   l = p >> 28;
891   p = (d44->shift[ind] ^ d44->reduce[l] ^ (p << 4));
892   ind = a32 >> 28;
893   l = p >> 28;
894   p = (d44->shift[ind] ^ d44->reduce[l] ^ (p << 4));
895   return p;
896 }
897
898 static
899 inline
900 gf_val_32_t
901 gf_w32_group_multiply(gf_t *gf, gf_val_32_t a, gf_val_32_t b)
902 {
903   int i;
904   int leftover;
905   uint64_t p, l, r;
906   uint32_t a32, ind;
907   int g_s, g_r;
908   struct gf_w32_group_data *gd;
909
910   gf_internal_t *h = (gf_internal_t *) gf->scratch;
911   g_s = h->arg1;
912   g_r = h->arg2;
913   gd = (struct gf_w32_group_data *) h->private;
914   gf_w32_group_set_shift_tables(gd->shift, b, h);
915
916   leftover = GF_FIELD_WIDTH % g_s;
917   if (leftover == 0) leftover = g_s;
918
919   a32 = a;
920   ind = a32 >> (GF_FIELD_WIDTH - leftover);
921   p = gd->shift[ind];
922   p <<= g_s;
923   a32 <<= leftover;
924
925   i = (GF_FIELD_WIDTH - leftover);
926   while (i > g_s) {
927     ind = a32 >> (GF_FIELD_WIDTH-g_s);
928     p ^= gd->shift[ind];
929     a32 <<= g_s;
930     p <<= g_s;
931     i -= g_s;
932   }
933
934   ind = a32 >> (GF_FIELD_WIDTH-g_s);
935   p ^= gd->shift[ind];
936
937   for (i = gd->tshift ; i >= 0; i -= g_r) {
938     l = p & (gd->rmask << i);
939     r = gd->reduce[l >> (i+32)];
940     r <<= (i);
941     p ^= r;
942   }
943   return p;
944 }
945
946 static
947 inline
948 gf_val_32_t
949 gf_w32_bytwo_b_multiply (gf_t *gf, gf_val_32_t a, gf_val_32_t b)
950 {
951   uint32_t prod, pp, bmask;
952   gf_internal_t *h;
953
954   h = (gf_internal_t *) gf->scratch;
955   pp = h->prim_poly;
956
957   prod = 0;
958   bmask = 0x80000000;
959
960   while (1) {
961     if (a & 1) prod ^= b;
962     a >>= 1;
963     if (a == 0) return prod;
964     if (b & bmask) {
965       b = ((b << 1) ^ pp);
966     } else {
967       b <<= 1;
968     }
969   }
970 }
971
972 static
973 inline
974 gf_val_32_t
975 gf_w32_bytwo_p_multiply (gf_t *gf, gf_val_32_t a, gf_val_32_t b)
976 {
977   uint32_t prod, pp, pmask, amask;
978   gf_internal_t *h;
979
980   h = (gf_internal_t *) gf->scratch;
981   pp = h->prim_poly;
982
983
984   prod = 0;
985   pmask = 0x80000000;
986   amask = 0x80000000;
987
988   while (amask != 0) {
989     if (prod & pmask) {
990       prod = ((prod << 1) ^ pp);
991     } else {
992       prod <<= 1;
993     }
994     if (a & amask) prod ^= b;
995     amask >>= 1;
996   }
997   return prod;
998 }
999
1000 static
1001 void
1002 gf_w32_bytwo_p_nosse_multiply_region(gf_t *gf, void *src, void *dest, gf_val_32_t val, int bytes, int xor)
1003 {
1004   uint64_t *s64, *d64, t1, t2, ta, prod, amask;
1005   gf_region_data rd;
1006   struct gf_w32_bytwo_data *btd;
1007
1008   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1009   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1010
1011   btd = (struct gf_w32_bytwo_data *) ((gf_internal_t *) (gf->scratch))->private;
1012
1013   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 8);
1014   gf_do_initial_region_alignment(&rd);
1015
1016   s64 = (uint64_t *) rd.s_start;
1017   d64 = (uint64_t *) rd.d_start;
1018
1019   if (xor) {
1020     while (s64 < (uint64_t *) rd.s_top) {
1021       prod = 0;
1022       amask = 0x80000000;
1023       ta = *s64;
1024       while (amask != 0) {
1025         AB2(btd->prim_poly, btd->mask1, btd->mask2, prod, t1, t2);
1026         if (val & amask) prod ^= ta;
1027         amask >>= 1;
1028       }
1029       *d64 ^= prod;
1030       d64++;
1031       s64++;
1032     }
1033   } else {
1034     while (s64 < (uint64_t *) rd.s_top) {
1035       prod = 0;
1036       amask = 0x80000000;
1037       ta = *s64;
1038       while (amask != 0) {
1039         AB2(btd->prim_poly, btd->mask1, btd->mask2, prod, t1, t2);
1040         if (val & amask) prod ^= ta;
1041         amask >>= 1;
1042       }
1043       *d64 = prod;
1044       d64++;
1045       s64++;
1046     }
1047   }
1048   gf_do_final_region_alignment(&rd);
1049 }
1050
1051 #define BYTWO_P_ONESTEP {\
1052       SSE_AB2(pp, m1 ,m2, prod, t1, t2); \
1053       t1 = _mm_and_si128(v, one); \
1054       t1 = _mm_sub_epi32(t1, one); \
1055       t1 = _mm_and_si128(t1, ta); \
1056       prod = _mm_xor_si128(prod, t1); \
1057       v = _mm_srli_epi64(v, 1); }
1058
1059 #ifdef INTEL_SSE2
1060 static
1061 void
1062 gf_w32_bytwo_p_sse_multiply_region(gf_t *gf, void *src, void *dest, gf_val_32_t val, int bytes, int xor)
1063 {
1064   int i;
1065   uint8_t *s8, *d8;
1066   uint32_t vrev;
1067   __m128i pp, m1, m2, ta, prod, t1, t2, tp, one, v;
1068   struct gf_w32_bytwo_data *btd;
1069   gf_region_data rd;
1070    
1071   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1072   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1073
1074   btd = (struct gf_w32_bytwo_data *) ((gf_internal_t *) (gf->scratch))->private;
1075
1076   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 16);
1077   gf_do_initial_region_alignment(&rd);
1078
1079   vrev = 0;
1080   for (i = 0; i < 32; i++) {
1081     vrev <<= 1;
1082     if (!(val & ((gf_val_32_t)1 << i))) vrev |= 1;
1083   }
1084
1085   s8 = (uint8_t *) rd.s_start;
1086   d8 = (uint8_t *) rd.d_start;
1087
1088   pp = _mm_set1_epi32(btd->prim_poly&0xffffffff);
1089   m1 = _mm_set1_epi32((btd->mask1)&0xffffffff);
1090   m2 = _mm_set1_epi32((btd->mask2)&0xffffffff);
1091   one = _mm_set1_epi32(1);
1092
1093   while (d8 < (uint8_t *) rd.d_top) {
1094     prod = _mm_setzero_si128();
1095     v = _mm_set1_epi32(vrev);
1096     ta = _mm_load_si128((__m128i *) s8);
1097     tp = (!xor) ? _mm_setzero_si128() : _mm_load_si128((__m128i *) d8);
1098     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1099     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1100     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1101     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1102     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1103     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1104     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1105     BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP; BYTWO_P_ONESTEP;
1106     _mm_store_si128((__m128i *) d8, _mm_xor_si128(prod, tp));
1107     d8 += 16;
1108     s8 += 16;
1109   }
1110   gf_do_final_region_alignment(&rd);
1111 }
1112 #endif
1113
1114 static
1115 void
1116 gf_w32_bytwo_b_nosse_multiply_region(gf_t *gf, void *src, void *dest, gf_val_32_t val, int bytes, int xor)
1117 {
1118   uint64_t *s64, *d64, t1, t2, ta, tb, prod;
1119   struct gf_w32_bytwo_data *btd;
1120   gf_region_data rd;
1121
1122   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1123   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1124
1125   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 32);
1126   gf_do_initial_region_alignment(&rd);
1127
1128   btd = (struct gf_w32_bytwo_data *) ((gf_internal_t *) (gf->scratch))->private;
1129   s64 = (uint64_t *) rd.s_start;
1130   d64 = (uint64_t *) rd.d_start;
1131
1132   switch (val) {
1133   case 2:
1134     if (xor) {
1135       while (d64 < (uint64_t *) rd.d_top) {
1136         ta = *s64;
1137         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1138         *d64 ^= ta;
1139         d64++;
1140         s64++;
1141       }
1142     } else {
1143       while (d64 < (uint64_t *) rd.d_top) {
1144         ta = *s64;
1145         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1146         *d64 = ta;
1147         d64++;
1148         s64++;
1149       }
1150     }
1151     break;
1152   case 3:
1153     if (xor) {
1154       while (d64 < (uint64_t *) rd.d_top) {
1155         ta = *s64;
1156         prod = ta;
1157         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1158         *d64 ^= (ta ^ prod);
1159         d64++;
1160         s64++;
1161       }
1162     } else {
1163       while (d64 < (uint64_t *) rd.d_top) {
1164         ta = *s64;
1165         prod = ta;
1166         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1167         *d64 = (ta ^ prod);
1168         d64++;
1169         s64++;
1170       }
1171     }
1172     break;
1173   case 4:
1174     if (xor) {
1175       while (d64 < (uint64_t *) rd.d_top) {
1176         ta = *s64;
1177         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1178         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1179         *d64 ^= ta;
1180         d64++;
1181         s64++;
1182       }
1183     } else {
1184       while (d64 < (uint64_t *) rd.d_top) {
1185         ta = *s64;
1186         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1187         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1188         *d64 = ta;
1189         d64++;
1190         s64++;
1191       }
1192     }
1193     break;
1194   case 5:
1195     if (xor) {
1196       while (d64 < (uint64_t *) rd.d_top) {
1197         ta = *s64;
1198         prod = ta;
1199         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1200         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1201         *d64 ^= (ta ^ prod);
1202         d64++;
1203         s64++;
1204       }
1205     } else {
1206       while (d64 < (uint64_t *) rd.d_top) {
1207         ta = *s64;
1208         prod = ta;
1209         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1210         AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1211         *d64 = ta ^ prod;
1212         d64++;
1213         s64++;
1214       }
1215     }
1216     break;
1217   default:
1218     if (xor) {
1219       while (d64 < (uint64_t *) rd.d_top) {
1220         prod = *d64 ;
1221         ta = *s64;
1222         tb = val;
1223         while (1) {
1224           if (tb & 1) prod ^= ta;
1225           tb >>= 1;
1226           if (tb == 0) break;
1227           AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1228         }
1229         *d64 = prod;
1230         d64++;
1231         s64++;
1232       }
1233     } else {
1234       while (d64 < (uint64_t *) rd.d_top) {
1235         prod = 0 ;
1236         ta = *s64;
1237         tb = val;
1238         while (1) {
1239           if (tb & 1) prod ^= ta;
1240           tb >>= 1;
1241           if (tb == 0) break;
1242           AB2(btd->prim_poly, btd->mask1, btd->mask2, ta, t1, t2);
1243         }
1244         *d64 = prod;
1245         d64++;
1246         s64++;
1247       }
1248     }
1249     break;
1250   }
1251   gf_do_final_region_alignment(&rd);
1252 }
1253
1254 #ifdef INTEL_SSE2
1255 static
1256 void
1257 gf_w32_bytwo_b_sse_region_2_noxor(gf_region_data *rd, struct gf_w32_bytwo_data *btd)
1258 {
1259   uint8_t *d8, *s8;
1260   __m128i pp, m1, m2, t1, t2, va;
1261
1262   s8 = (uint8_t *) rd->s_start;
1263   d8 = (uint8_t *) rd->d_start;
1264
1265   pp = _mm_set1_epi32(btd->prim_poly&0xffffffff);
1266   m1 = _mm_set1_epi32((btd->mask1)&0xffffffff);
1267   m2 = _mm_set1_epi32((btd->mask2)&0xffffffff);
1268
1269   while (d8 < (uint8_t *) rd->d_top) {
1270     va = _mm_load_si128 ((__m128i *)(s8));
1271     SSE_AB2(pp, m1, m2, va, t1, t2);
1272     _mm_store_si128((__m128i *)d8, va);
1273     d8 += 16;
1274     s8 += 16;
1275   }
1276 }
1277 #endif
1278
1279 #ifdef INTEL_SSE2
1280 static
1281 void
1282 gf_w32_bytwo_b_sse_region_2_xor(gf_region_data *rd, struct gf_w32_bytwo_data *btd)
1283 {
1284   uint8_t *d8, *s8;
1285   __m128i pp, m1, m2, t1, t2, va, vb;
1286
1287   s8 = (uint8_t *) rd->s_start;
1288   d8 = (uint8_t *) rd->d_start;
1289
1290   pp = _mm_set1_epi32(btd->prim_poly&0xffffffff);
1291   m1 = _mm_set1_epi32((btd->mask1)&0xffffffff);
1292   m2 = _mm_set1_epi32((btd->mask2)&0xffffffff);
1293
1294   while (d8 < (uint8_t *) rd->d_top) {
1295     va = _mm_load_si128 ((__m128i *)(s8));
1296     SSE_AB2(pp, m1, m2, va, t1, t2);
1297     vb = _mm_load_si128 ((__m128i *)(d8));
1298     vb = _mm_xor_si128(vb, va);
1299     _mm_store_si128((__m128i *)d8, vb);
1300     d8 += 16;
1301     s8 += 16;
1302   }
1303 }
1304 #endif
1305
1306
1307 #ifdef INTEL_SSE2
1308 static
1309 void 
1310 gf_w32_bytwo_b_sse_multiply_region(gf_t *gf, void *src, void *dest, gf_val_32_t val, int bytes, int xor)
1311 {
1312   uint32_t itb;
1313   uint8_t *d8, *s8;
1314   __m128i pp, m1, m2, t1, t2, va, vb;
1315   struct gf_w32_bytwo_data *btd;
1316   gf_region_data rd;
1317     
1318   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1319   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1320
1321   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 16);
1322   gf_do_initial_region_alignment(&rd);
1323
1324   btd = (struct gf_w32_bytwo_data *) ((gf_internal_t *) (gf->scratch))->private;
1325
1326   if (val == 2) {
1327     if (xor) {
1328       gf_w32_bytwo_b_sse_region_2_xor(&rd, btd);
1329     } else {
1330       gf_w32_bytwo_b_sse_region_2_noxor(&rd, btd);
1331     }
1332     gf_do_final_region_alignment(&rd);
1333     return;
1334   }
1335
1336   s8 = (uint8_t *) rd.s_start;
1337   d8 = (uint8_t *) rd.d_start;
1338
1339   pp = _mm_set1_epi32(btd->prim_poly&0xffffffff);
1340   m1 = _mm_set1_epi32((btd->mask1)&0xffffffff);
1341   m2 = _mm_set1_epi32((btd->mask2)&0xffffffff);
1342
1343   while (d8 < (uint8_t *) rd.d_top) {
1344     va = _mm_load_si128 ((__m128i *)(s8));
1345     vb = (!xor) ? _mm_setzero_si128() : _mm_load_si128 ((__m128i *)(d8));
1346     itb = val;
1347     while (1) {
1348       if (itb & 1) vb = _mm_xor_si128(vb, va);
1349       itb >>= 1;
1350       if (itb == 0) break;
1351       SSE_AB2(pp, m1, m2, va, t1, t2);
1352     }
1353     _mm_store_si128((__m128i *)d8, vb);
1354     d8 += 16;
1355     s8 += 16;
1356   }
1357
1358   gf_do_final_region_alignment(&rd);
1359 }
1360 #endif
1361
1362 static
1363 int gf_w32_bytwo_init(gf_t *gf)
1364 {
1365   gf_internal_t *h;
1366   uint64_t ip, m1, m2;
1367   struct gf_w32_bytwo_data *btd;
1368
1369   h = (gf_internal_t *) gf->scratch;
1370   btd = (struct gf_w32_bytwo_data *) (h->private);
1371   ip = h->prim_poly & 0xffffffff;
1372   m1 = 0xfffffffe;
1373   m2 = 0x80000000;
1374   btd->prim_poly = 0;
1375   btd->mask1 = 0;
1376   btd->mask2 = 0;
1377
1378   while (ip != 0) {
1379     btd->prim_poly |= ip;
1380     btd->mask1 |= m1;
1381     btd->mask2 |= m2;
1382     ip <<= GF_FIELD_WIDTH;
1383     m1 <<= GF_FIELD_WIDTH;
1384     m2 <<= GF_FIELD_WIDTH;
1385   }
1386
1387   if (h->mult_type == GF_MULT_BYTWO_p) {
1388     SET_FUNCTION(gf,multiply,w32,gf_w32_bytwo_p_multiply)
1389     #ifdef INTEL_SSE2
1390       if (gf_cpu_supports_intel_sse2 && !(h->region_type & GF_REGION_NOSIMD)) {
1391         SET_FUNCTION(gf,multiply_region,w32,gf_w32_bytwo_p_sse_multiply_region) 
1392       } else {
1393     #endif 
1394         SET_FUNCTION(gf,multiply_region,w32,gf_w32_bytwo_p_nosse_multiply_region) 
1395         if(h->region_type & GF_REGION_SIMD)
1396           return 0;
1397     #ifdef INTEL_SSE2
1398       }
1399     #endif
1400   } else {
1401     SET_FUNCTION(gf,multiply,w32,gf_w32_bytwo_b_multiply) 
1402     #ifdef INTEL_SSE2
1403       if (gf_cpu_supports_intel_sse2 && !(h->region_type & GF_REGION_NOSIMD)) {
1404         SET_FUNCTION(gf,multiply_region,w32,gf_w32_bytwo_b_sse_multiply_region) 
1405       } else {
1406     #endif 
1407       SET_FUNCTION(gf,multiply_region,w32,gf_w32_bytwo_b_nosse_multiply_region) 
1408       if(h->region_type & GF_REGION_SIMD)
1409         return 0;
1410     #ifdef INTEL_SSE2
1411       }
1412     #endif
1413   }
1414
1415   SET_FUNCTION(gf,inverse,w32,gf_w32_euclid)
1416   return 1;
1417 }
1418
1419 static
1420 inline
1421 uint32_t
1422 gf_w32_split_8_8_multiply (gf_t *gf, uint32_t a32, uint32_t b32)
1423 {
1424   uint32_t product, i, j, mask, tb;
1425   gf_internal_t *h;
1426   struct gf_w32_split_8_8_data *d8;
1427   
1428   h = (gf_internal_t *) gf->scratch;
1429   d8 = (struct gf_w32_split_8_8_data *) h->private;
1430   product = 0;
1431   mask = 0xff;
1432
1433   for (i = 0; i < 4; i++) {
1434     tb = b32;
1435     for (j = 0; j < 4; j++) {
1436       product ^= d8->tables[i+j][a32&mask][tb&mask];
1437       tb >>= 8;
1438     }
1439     a32 >>= 8;
1440   }
1441   return product;
1442 }
1443
1444 static
1445 inline
1446 void
1447 gf_w32_split_8_32_lazy_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
1448 {
1449   gf_internal_t *h;
1450   uint32_t *s32, *d32, *top, p, a, v;
1451   struct gf_split_8_32_lazy_data *d8;
1452   struct gf_w32_split_8_8_data *d88;
1453   uint32_t *t[4];
1454   int i, j, k, change;
1455   uint32_t pp;
1456   gf_region_data rd;
1457   
1458   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1459   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1460
1461   h = (gf_internal_t *) gf->scratch;
1462   if (h->arg1 == 32 || h->arg2 == 32 || h->mult_type == GF_MULT_DEFAULT) {
1463     d8 = (struct gf_split_8_32_lazy_data *) h->private;
1464     for (i = 0; i < 4; i++) t[i] = d8->tables[i];
1465     change = (val != d8->last_value);
1466     if (change) d8->last_value = val;
1467   } else {
1468     d88 = (struct gf_w32_split_8_8_data *) h->private;
1469     for (i = 0; i < 4; i++) t[i] = d88->region_tables[i];
1470     change = (val != d88->last_value);
1471     if (change) d88->last_value = val;
1472   }
1473   pp = h->prim_poly;
1474
1475   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 4);
1476   gf_do_initial_region_alignment(&rd);
1477
1478   s32 = (uint32_t *) rd.s_start;
1479   d32 = (uint32_t *) rd.d_start;
1480   top = (uint32_t *) rd.d_top;
1481   
1482   if (change) {
1483     v = val;
1484     for (i = 0; i < 4; i++) {
1485       t[i][0] = 0;
1486       for (j = 1; j < 256; j <<= 1) {
1487         for (k = 0; k < j; k++) {
1488           t[i][k^j] = (v ^ t[i][k]);
1489         }
1490         v = (v & GF_FIRST_BIT) ? ((v << 1) ^ pp) : (v << 1);
1491       }
1492     }
1493   } 
1494
1495   while (d32 < top) {
1496     p = (xor) ? *d32 : 0;
1497     a = *s32;
1498     i = 0;
1499     while (a != 0) {
1500       v = (a & 0xff);
1501       p ^= t[i][v];
1502       a >>= 8;
1503       i++;
1504     }
1505     *d32 = p;
1506     d32++;
1507     s32++;
1508   }
1509   gf_do_final_region_alignment(&rd);
1510 }
1511
1512 static
1513 inline
1514 void
1515 gf_w32_split_16_32_lazy_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
1516 {
1517   gf_internal_t *h;
1518   uint32_t *s32, *d32, *top, p, a, v;
1519   struct gf_split_16_32_lazy_data *d16;
1520   uint32_t *t[2];
1521   int i, j, k, change;
1522   uint32_t pp;
1523   gf_region_data rd;
1524   
1525   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1526   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1527
1528   h = (gf_internal_t *) gf->scratch;
1529   d16 = (struct gf_split_16_32_lazy_data *) h->private;
1530   for (i = 0; i < 2; i++) t[i] = d16->tables[i];
1531   change = (val != d16->last_value);
1532   if (change) d16->last_value = val;
1533
1534   pp = h->prim_poly;
1535
1536   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 4);
1537   gf_do_initial_region_alignment(&rd);
1538
1539   s32 = (uint32_t *) rd.s_start;
1540   d32 = (uint32_t *) rd.d_start;
1541   top = (uint32_t *) rd.d_top;
1542   
1543   if (change) {
1544     v = val;
1545     for (i = 0; i < 2; i++) {
1546       t[i][0] = 0;
1547       for (j = 1; j < (1 << 16); j <<= 1) {
1548         for (k = 0; k < j; k++) {
1549           t[i][k^j] = (v ^ t[i][k]);
1550         }
1551         v = (v & GF_FIRST_BIT) ? ((v << 1) ^ pp) : (v << 1);
1552       }
1553     }
1554   } 
1555
1556   while (d32 < top) {
1557     p = (xor) ? *d32 : 0;
1558     a = *s32;
1559     i = 0;
1560     while (a != 0 && i < 2) {
1561       v = (a & 0xffff);
1562       p ^= t[i][v];
1563       a >>= 16;
1564       i++;
1565     }
1566     *d32 = p;
1567     d32++;
1568     s32++;
1569   }
1570   gf_do_final_region_alignment(&rd);
1571 }
1572
1573 static
1574 void
1575 gf_w32_split_2_32_lazy_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
1576 {
1577   gf_internal_t *h;
1578   struct gf_split_2_32_lazy_data *ld;
1579   int i;
1580   uint32_t pp, v, v2, s, *s32, *d32, *top;
1581   gf_region_data rd;
1582  
1583   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1584   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1585
1586   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 4);
1587   gf_do_initial_region_alignment(&rd);
1588
1589   h = (gf_internal_t *) gf->scratch;
1590   pp = h->prim_poly;
1591
1592   ld = (struct gf_split_2_32_lazy_data *) h->private;
1593   
1594   if (ld->last_value != val) {
1595     v = val;
1596     for (i = 0; i < 16; i++) {
1597       v2 = (v << 1);
1598       if (v & GF_FIRST_BIT) v2 ^= pp;
1599       ld->tables[i][0] = 0;
1600       ld->tables[i][1] = v;
1601       ld->tables[i][2] = v2;
1602       ld->tables[i][3] = (v2 ^ v);
1603       v = (v2 << 1);
1604       if (v2 & GF_FIRST_BIT) v ^= pp;
1605     }
1606   }
1607   ld->last_value = val;
1608
1609   s32 = (uint32_t *) rd.s_start;
1610   d32 = (uint32_t *) rd.d_start;
1611   top = (uint32_t *) rd.d_top;
1612
1613   while (d32 != top) {
1614     v = (xor) ? *d32 : 0;
1615     s = *s32;
1616     i = 0;
1617     while (s != 0) {
1618       v ^= ld->tables[i][s&3];
1619       s >>= 2;
1620       i++;
1621     }
1622     *d32 = v;
1623     d32++;
1624     s32++;
1625   }
1626   gf_do_final_region_alignment(&rd);
1627 }
1628
1629 #ifdef INTEL_SSSE3
1630 static
1631 void
1632 gf_w32_split_2_32_lazy_sse_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
1633 {
1634   gf_internal_t *h;
1635   int i, tindex;
1636   uint32_t pp, v, v2, *s32, *d32, *top;
1637   __m128i vi, si, pi, shuffler, tables[16], adder, xi, mask1, mask2;
1638   gf_region_data rd;
1639  
1640   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1641   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1642
1643   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 32);
1644   gf_do_initial_region_alignment(&rd);
1645
1646   h = (gf_internal_t *) gf->scratch;
1647   pp = h->prim_poly;
1648   
1649   s32 = (uint32_t *) rd.s_start;
1650   d32 = (uint32_t *) rd.d_start;
1651   top = (uint32_t *) rd.d_top;
1652   
1653   v = val;
1654   for (i = 0; i < 16; i++) {
1655     v2 = (v << 1);
1656     if (v & GF_FIRST_BIT) v2 ^= pp;
1657     tables[i] = _mm_set_epi32(v2 ^ v, v2, v, 0);
1658     v = (v2 << 1);
1659     if (v2 & GF_FIRST_BIT) v ^= pp;
1660   }
1661
1662   shuffler = _mm_set_epi8(0xc, 0xc, 0xc, 0xc, 8, 8, 8, 8, 4, 4, 4, 4, 0, 0, 0, 0);
1663   adder = _mm_set_epi8(3, 2, 1, 0, 3, 2, 1, 0, 3, 2, 1, 0, 3, 2, 1, 0);
1664   mask1 = _mm_set1_epi8(0x3);
1665   mask2 = _mm_set1_epi8(0xc);
1666
1667   while (d32 != top) {
1668     pi = (xor) ? _mm_load_si128 ((__m128i *) d32) : _mm_setzero_si128();
1669     vi = _mm_load_si128((__m128i *) s32);
1670  
1671     tindex = 0;
1672     for (i = 0; i < 4; i++) {
1673       si = _mm_shuffle_epi8(vi, shuffler);
1674
1675       xi = _mm_and_si128(si, mask1);
1676       xi = _mm_slli_epi16(xi, 2);
1677       xi = _mm_xor_si128(xi, adder);
1678       pi = _mm_xor_si128(pi, _mm_shuffle_epi8(tables[tindex], xi));
1679       tindex++;
1680
1681       xi = _mm_and_si128(si, mask2);
1682       xi = _mm_xor_si128(xi, adder);
1683       pi = _mm_xor_si128(pi, _mm_shuffle_epi8(tables[tindex], xi));
1684       si = _mm_srli_epi16(si, 2);
1685       tindex++;
1686
1687       xi = _mm_and_si128(si, mask2);
1688       xi = _mm_xor_si128(xi, adder);
1689       pi = _mm_xor_si128(pi, _mm_shuffle_epi8(tables[tindex], xi));
1690       si = _mm_srli_epi16(si, 2);
1691       tindex++;
1692
1693       xi = _mm_and_si128(si, mask2);
1694       xi = _mm_xor_si128(xi, adder);
1695       pi = _mm_xor_si128(pi, _mm_shuffle_epi8(tables[tindex], xi));
1696       tindex++;
1697       
1698       vi = _mm_srli_epi32(vi, 8);
1699     }
1700     _mm_store_si128((__m128i *) d32, pi);
1701     d32 += 4;
1702     s32 += 4;
1703   }
1704
1705   gf_do_final_region_alignment(&rd);
1706
1707 }
1708 #endif
1709
1710 static
1711 void
1712 gf_w32_split_4_32_lazy_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
1713 {
1714   gf_internal_t *h;
1715   struct gf_split_4_32_lazy_data *ld;
1716   int i, j, k;
1717   uint32_t pp, v, s, *s32, *d32, *top;
1718   gf_region_data rd;
1719  
1720   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1721   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1722
1723   h = (gf_internal_t *) gf->scratch;
1724   pp = h->prim_poly;
1725
1726   ld = (struct gf_split_4_32_lazy_data *) h->private;
1727
1728   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 4);
1729   gf_do_initial_region_alignment(&rd);
1730   
1731   if (ld->last_value != val) {
1732     v = val;
1733     for (i = 0; i < 8; i++) {
1734       ld->tables[i][0] = 0;
1735       for (j = 1; j < 16; j <<= 1) {
1736         for (k = 0; k < j; k++) {
1737           ld->tables[i][k^j] = (v ^ ld->tables[i][k]);
1738         }
1739         v = (v & GF_FIRST_BIT) ? ((v << 1) ^ pp) : (v << 1);
1740       }
1741     }
1742   }
1743   ld->last_value = val;
1744
1745   s32 = (uint32_t *) rd.s_start;
1746   d32 = (uint32_t *) rd.d_start;
1747   top = (uint32_t *) rd.d_top;
1748
1749   while (d32 != top) {
1750     v = (xor) ? *d32 : 0;
1751     s = *s32;
1752     i = 0;
1753     while (s != 0) {
1754       v ^= ld->tables[i][s&0xf];
1755       s >>= 4;
1756       i++;
1757     }
1758     *d32 = v;
1759     d32++;
1760     s32++;
1761   }
1762   gf_do_final_region_alignment(&rd);
1763 }
1764
1765 #ifdef INTEL_SSSE3
1766 static
1767 void
1768 gf_w32_split_4_32_lazy_sse_altmap_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
1769 {
1770   gf_internal_t *h;
1771   int i, j, k;
1772   uint32_t pp, v, *s32, *d32, *top;
1773   __m128i si, tables[8][4], p0, p1, p2, p3, mask1, v0, v1, v2, v3;
1774   struct gf_split_4_32_lazy_data *ld;
1775   uint8_t btable[16];
1776   gf_region_data rd;
1777  
1778   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1779   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1780
1781   h = (gf_internal_t *) gf->scratch;
1782   pp = h->prim_poly;
1783   
1784   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 64);
1785   gf_do_initial_region_alignment(&rd);
1786
1787   s32 = (uint32_t *) rd.s_start;
1788   d32 = (uint32_t *) rd.d_start;
1789   top = (uint32_t *) rd.d_top;
1790   
1791   ld = (struct gf_split_4_32_lazy_data *) h->private;
1792  
1793   v = val;
1794   for (i = 0; i < 8; i++) {
1795     ld->tables[i][0] = 0;
1796     for (j = 1; j < 16; j <<= 1) {
1797       for (k = 0; k < j; k++) {
1798         ld->tables[i][k^j] = (v ^ ld->tables[i][k]);
1799       }
1800       v = (v & GF_FIRST_BIT) ? ((v << 1) ^ pp) : (v << 1);
1801     }
1802     for (j = 0; j < 4; j++) {
1803       for (k = 0; k < 16; k++) {
1804         btable[k] = (uint8_t) ld->tables[i][k];
1805         ld->tables[i][k] >>= 8;
1806       }
1807       tables[i][j] = _mm_loadu_si128((__m128i *) btable);
1808     }
1809   }
1810
1811   mask1 = _mm_set1_epi8(0xf);
1812
1813   if (xor) {
1814     while (d32 != top) {
1815       p0 = _mm_load_si128 ((__m128i *) d32);
1816       p1 = _mm_load_si128 ((__m128i *) (d32+4));
1817       p2 = _mm_load_si128 ((__m128i *) (d32+8));
1818       p3 = _mm_load_si128 ((__m128i *) (d32+12));
1819   
1820       v0 = _mm_load_si128((__m128i *) s32); s32 += 4;
1821       v1 = _mm_load_si128((__m128i *) s32); s32 += 4;
1822       v2 = _mm_load_si128((__m128i *) s32); s32 += 4;
1823       v3 = _mm_load_si128((__m128i *) s32); s32 += 4;
1824   
1825       si = _mm_and_si128(v0, mask1);
1826       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[0][0], si));
1827       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[0][1], si));
1828       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[0][2], si));
1829       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[0][3], si));
1830       
1831       v0 = _mm_srli_epi32(v0, 4);
1832       si = _mm_and_si128(v0, mask1);
1833       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[1][0], si));
1834       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[1][1], si));
1835       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[1][2], si));
1836       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[1][3], si));
1837   
1838       si = _mm_and_si128(v1, mask1);
1839       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[2][0], si));
1840       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[2][1], si));
1841       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[2][2], si));
1842       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[2][3], si));
1843       
1844       v1 = _mm_srli_epi32(v1, 4);
1845       si = _mm_and_si128(v1, mask1);
1846       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[3][0], si));
1847       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[3][1], si));
1848       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[3][2], si));
1849       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[3][3], si));
1850   
1851       si = _mm_and_si128(v2, mask1);
1852       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[4][0], si));
1853       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[4][1], si));
1854       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[4][2], si));
1855       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[4][3], si));
1856       
1857       v2 = _mm_srli_epi32(v2, 4);
1858       si = _mm_and_si128(v2, mask1);
1859       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[5][0], si));
1860       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[5][1], si));
1861       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[5][2], si));
1862       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[5][3], si));
1863   
1864       si = _mm_and_si128(v3, mask1);
1865       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[6][0], si));
1866       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[6][1], si));
1867       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[6][2], si));
1868       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[6][3], si));
1869       
1870       v3 = _mm_srli_epi32(v3, 4);
1871       si = _mm_and_si128(v3, mask1);
1872       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[7][0], si));
1873       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[7][1], si));
1874       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[7][2], si));
1875       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[7][3], si));
1876   
1877       _mm_store_si128((__m128i *) d32, p0);
1878       _mm_store_si128((__m128i *) (d32+4), p1);
1879       _mm_store_si128((__m128i *) (d32+8), p2);
1880       _mm_store_si128((__m128i *) (d32+12), p3);
1881       d32 += 16;
1882     } 
1883   } else {
1884     while (d32 != top) {
1885   
1886       v0 = _mm_load_si128((__m128i *) s32); s32 += 4;
1887       v1 = _mm_load_si128((__m128i *) s32); s32 += 4;
1888       v2 = _mm_load_si128((__m128i *) s32); s32 += 4;
1889       v3 = _mm_load_si128((__m128i *) s32); s32 += 4;
1890
1891       si = _mm_and_si128(v0, mask1);
1892       p0 = _mm_shuffle_epi8(tables[0][0], si);
1893       p1 = _mm_shuffle_epi8(tables[0][1], si);
1894       p2 = _mm_shuffle_epi8(tables[0][2], si);
1895       p3 = _mm_shuffle_epi8(tables[0][3], si);
1896       
1897       v0 = _mm_srli_epi32(v0, 4);
1898       si = _mm_and_si128(v0, mask1);
1899       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[1][0], si));
1900       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[1][1], si));
1901       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[1][2], si));
1902       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[1][3], si));
1903   
1904       si = _mm_and_si128(v1, mask1);
1905       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[2][0], si));
1906       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[2][1], si));
1907       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[2][2], si));
1908       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[2][3], si));
1909       
1910       v1 = _mm_srli_epi32(v1, 4);
1911       si = _mm_and_si128(v1, mask1);
1912       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[3][0], si));
1913       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[3][1], si));
1914       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[3][2], si));
1915       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[3][3], si));
1916   
1917       si = _mm_and_si128(v2, mask1);
1918       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[4][0], si));
1919       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[4][1], si));
1920       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[4][2], si));
1921       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[4][3], si));
1922       
1923       v2 = _mm_srli_epi32(v2, 4);
1924       si = _mm_and_si128(v2, mask1);
1925       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[5][0], si));
1926       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[5][1], si));
1927       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[5][2], si));
1928       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[5][3], si));
1929   
1930       si = _mm_and_si128(v3, mask1);
1931       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[6][0], si));
1932       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[6][1], si));
1933       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[6][2], si));
1934       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[6][3], si));
1935       
1936       v3 = _mm_srli_epi32(v3, 4);
1937       si = _mm_and_si128(v3, mask1);
1938       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[7][0], si));
1939       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[7][1], si));
1940       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[7][2], si));
1941       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[7][3], si));
1942   
1943       _mm_store_si128((__m128i *) d32, p0);
1944       _mm_store_si128((__m128i *) (d32+4), p1);
1945       _mm_store_si128((__m128i *) (d32+8), p2);
1946       _mm_store_si128((__m128i *) (d32+12), p3);
1947       d32 += 16;
1948     } 
1949   }
1950
1951   gf_do_final_region_alignment(&rd);
1952 }
1953 #endif
1954
1955
1956 #ifdef INTEL_SSSE3
1957 static
1958 void
1959 gf_w32_split_4_32_lazy_sse_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
1960 {
1961   gf_internal_t *h;
1962   int i, j, k;
1963   uint32_t pp, v, *s32, *d32, *top, tmp_table[16];
1964   __m128i si, tables[8][4], p0, p1, p2, p3, mask1, v0, v1, v2, v3, mask8;
1965   __m128i tv1, tv2, tv3, tv0;
1966   uint8_t btable[16];
1967   gf_region_data rd;
1968
1969   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
1970   if (val == 1) { gf_multby_one(src, dest, bytes, xor); return; }
1971
1972   h = (gf_internal_t *) gf->scratch;
1973   pp = h->prim_poly;
1974   
1975   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 64);
1976   gf_do_initial_region_alignment(&rd);
1977
1978   s32 = (uint32_t *) rd.s_start;
1979   d32 = (uint32_t *) rd.d_start;
1980   top = (uint32_t *) rd.d_top;
1981
1982   v = val;
1983   for (i = 0; i < 8; i++) {
1984     tmp_table[0] = 0;
1985     for (j = 1; j < 16; j <<= 1) {
1986       for (k = 0; k < j; k++) {
1987         tmp_table[k^j] = (v ^ tmp_table[k]);
1988       }
1989       v = (v & GF_FIRST_BIT) ? ((v << 1) ^ pp) : (v << 1);
1990     }
1991     for (j = 0; j < 4; j++) {
1992       for (k = 0; k < 16; k++) {
1993         btable[k] = (uint8_t) tmp_table[k];
1994         tmp_table[k] >>= 8;
1995       }
1996       tables[i][j] = _mm_loadu_si128((__m128i *) btable);
1997     }
1998   }
1999
2000   mask1 = _mm_set1_epi8(0xf);
2001   mask8 = _mm_set1_epi16(0xff);
2002
2003   if (xor) {
2004     while (d32 != top) {
2005       v0 = _mm_load_si128((__m128i *) s32); s32 += 4;
2006       v1 = _mm_load_si128((__m128i *) s32); s32 += 4;
2007       v2 = _mm_load_si128((__m128i *) s32); s32 += 4;
2008       v3 = _mm_load_si128((__m128i *) s32); s32 += 4;
2009   
2010       p0 = _mm_srli_epi16(v0, 8);
2011       p1 = _mm_srli_epi16(v1, 8);
2012       p2 = _mm_srli_epi16(v2, 8);
2013       p3 = _mm_srli_epi16(v3, 8);
2014
2015       tv0 = _mm_and_si128(v0, mask8);
2016       tv1 = _mm_and_si128(v1, mask8);
2017       tv2 = _mm_and_si128(v2, mask8);
2018       tv3 = _mm_and_si128(v3, mask8);
2019
2020       v0 = _mm_packus_epi16(p1, p0);
2021       v1 = _mm_packus_epi16(tv1, tv0);
2022       v2 = _mm_packus_epi16(p3, p2);
2023       v3 = _mm_packus_epi16(tv3, tv2);
2024
2025       p0 = _mm_srli_epi16(v0, 8);
2026       p1 = _mm_srli_epi16(v1, 8);
2027       p2 = _mm_srli_epi16(v2, 8);
2028       p3 = _mm_srli_epi16(v3, 8);
2029
2030       tv0 = _mm_and_si128(v0, mask8);
2031       tv1 = _mm_and_si128(v1, mask8);
2032       tv2 = _mm_and_si128(v2, mask8);
2033       tv3 = _mm_and_si128(v3, mask8);
2034
2035       v0 = _mm_packus_epi16(p2, p0);
2036       v1 = _mm_packus_epi16(p3, p1);
2037       v2 = _mm_packus_epi16(tv2, tv0);
2038       v3 = _mm_packus_epi16(tv3, tv1);
2039
2040       si = _mm_and_si128(v0, mask1);
2041       p0 = _mm_shuffle_epi8(tables[6][0], si);
2042       p1 = _mm_shuffle_epi8(tables[6][1], si);
2043       p2 = _mm_shuffle_epi8(tables[6][2], si);
2044       p3 = _mm_shuffle_epi8(tables[6][3], si);
2045       
2046       v0 = _mm_srli_epi32(v0, 4);
2047       si = _mm_and_si128(v0, mask1);
2048       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[7][0], si));
2049       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[7][1], si));
2050       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[7][2], si));
2051       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[7][3], si));
2052   
2053       si = _mm_and_si128(v1, mask1);
2054       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[4][0], si));
2055       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[4][1], si));
2056       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[4][2], si));
2057       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[4][3], si));
2058       
2059       v1 = _mm_srli_epi32(v1, 4);
2060       si = _mm_and_si128(v1, mask1);
2061       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[5][0], si));
2062       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[5][1], si));
2063       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[5][2], si));
2064       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[5][3], si));
2065   
2066       si = _mm_and_si128(v2, mask1);
2067       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[2][0], si));
2068       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[2][1], si));
2069       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[2][2], si));
2070       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[2][3], si));
2071       
2072       v2 = _mm_srli_epi32(v2, 4);
2073       si = _mm_and_si128(v2, mask1);
2074       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[3][0], si));
2075       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[3][1], si));
2076       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[3][2], si));
2077       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[3][3], si));
2078   
2079       si = _mm_and_si128(v3, mask1);
2080       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[0][0], si));
2081       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[0][1], si));
2082       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[0][2], si));
2083       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[0][3], si));
2084       
2085       v3 = _mm_srli_epi32(v3, 4);
2086       si = _mm_and_si128(v3, mask1);
2087       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[1][0], si));
2088       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[1][1], si));
2089       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[1][2], si));
2090       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[1][3], si));
2091   
2092       tv0 = _mm_unpackhi_epi8(p1, p3);
2093       tv1 = _mm_unpackhi_epi8(p0, p2);
2094       tv2 = _mm_unpacklo_epi8(p1, p3);
2095       tv3 = _mm_unpacklo_epi8(p0, p2);
2096
2097       p0 = _mm_unpackhi_epi8(tv1, tv0);
2098       p1 = _mm_unpacklo_epi8(tv1, tv0);
2099       p2 = _mm_unpackhi_epi8(tv3, tv2);
2100       p3 = _mm_unpacklo_epi8(tv3, tv2);
2101
2102       v0 = _mm_load_si128 ((__m128i *) d32);
2103       v1 = _mm_load_si128 ((__m128i *) (d32+4));
2104       v2 = _mm_load_si128 ((__m128i *) (d32+8));
2105       v3 = _mm_load_si128 ((__m128i *) (d32+12));
2106   
2107       p0 = _mm_xor_si128(p0, v0);
2108       p1 = _mm_xor_si128(p1, v1);
2109       p2 = _mm_xor_si128(p2, v2);
2110       p3 = _mm_xor_si128(p3, v3);
2111
2112       _mm_store_si128((__m128i *) d32, p0);
2113       _mm_store_si128((__m128i *) (d32+4), p1);
2114       _mm_store_si128((__m128i *) (d32+8), p2);
2115       _mm_store_si128((__m128i *) (d32+12), p3);
2116       d32 += 16;
2117     } 
2118   } else {
2119     while (d32 != top) {
2120       v0 = _mm_load_si128((__m128i *) s32); s32 += 4;
2121       v1 = _mm_load_si128((__m128i *) s32); s32 += 4;
2122       v2 = _mm_load_si128((__m128i *) s32); s32 += 4;
2123       v3 = _mm_load_si128((__m128i *) s32); s32 += 4;
2124  
2125       p0 = _mm_srli_epi16(v0, 8);
2126       p1 = _mm_srli_epi16(v1, 8);
2127       p2 = _mm_srli_epi16(v2, 8);
2128       p3 = _mm_srli_epi16(v3, 8);
2129       
2130       tv0 = _mm_and_si128(v0, mask8);
2131       tv1 = _mm_and_si128(v1, mask8);
2132       tv2 = _mm_and_si128(v2, mask8);
2133       tv3 = _mm_and_si128(v3, mask8);
2134       
2135       v0 = _mm_packus_epi16(p1, p0);
2136       v1 = _mm_packus_epi16(tv1, tv0);
2137       v2 = _mm_packus_epi16(p3, p2);
2138       v3 = _mm_packus_epi16(tv3, tv2);
2139       
2140       p0 = _mm_srli_epi16(v0, 8);
2141       p1 = _mm_srli_epi16(v1, 8);
2142       p2 = _mm_srli_epi16(v2, 8);
2143       p3 = _mm_srli_epi16(v3, 8);
2144      
2145       tv0 = _mm_and_si128(v0, mask8);
2146       tv1 = _mm_and_si128(v1, mask8);
2147       tv2 = _mm_and_si128(v2, mask8);
2148       tv3 = _mm_and_si128(v3, mask8);
2149       
2150       v0 = _mm_packus_epi16(p2, p0);
2151       v1 = _mm_packus_epi16(p3, p1);
2152       v2 = _mm_packus_epi16(tv2, tv0);
2153       v3 = _mm_packus_epi16(tv3, tv1);
2154       
2155       si = _mm_and_si128(v0, mask1);
2156       p0 = _mm_shuffle_epi8(tables[6][0], si);
2157       p1 = _mm_shuffle_epi8(tables[6][1], si);
2158       p2 = _mm_shuffle_epi8(tables[6][2], si);
2159       p3 = _mm_shuffle_epi8(tables[6][3], si);
2160       
2161       v0 = _mm_srli_epi32(v0, 4);
2162       si = _mm_and_si128(v0, mask1);
2163       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[7][0], si));
2164       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[7][1], si));
2165       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[7][2], si));
2166       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[7][3], si));
2167   
2168       si = _mm_and_si128(v1, mask1);
2169       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[4][0], si));
2170       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[4][1], si));
2171       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[4][2], si));
2172       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[4][3], si));
2173       
2174       v1 = _mm_srli_epi32(v1, 4);
2175       si = _mm_and_si128(v1, mask1);
2176       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[5][0], si));
2177       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[5][1], si));
2178       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[5][2], si));
2179       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[5][3], si));
2180   
2181       si = _mm_and_si128(v2, mask1);
2182       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[2][0], si));
2183       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[2][1], si));
2184       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[2][2], si));
2185       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[2][3], si));
2186       
2187       v2 = _mm_srli_epi32(v2, 4);
2188       si = _mm_and_si128(v2, mask1);
2189       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[3][0], si));
2190       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[3][1], si));
2191       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[3][2], si));
2192       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[3][3], si));
2193   
2194       si = _mm_and_si128(v3, mask1);
2195       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[0][0], si));
2196       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[0][1], si));
2197       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[0][2], si));
2198       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[0][3], si));
2199       
2200       v3 = _mm_srli_epi32(v3, 4);
2201       si = _mm_and_si128(v3, mask1);
2202       p0 = _mm_xor_si128(p0, _mm_shuffle_epi8(tables[1][0], si));
2203       p1 = _mm_xor_si128(p1, _mm_shuffle_epi8(tables[1][1], si));
2204       p2 = _mm_xor_si128(p2, _mm_shuffle_epi8(tables[1][2], si));
2205       p3 = _mm_xor_si128(p3, _mm_shuffle_epi8(tables[1][3], si)); 
2206   
2207       tv0 = _mm_unpackhi_epi8(p1, p3);
2208       tv1 = _mm_unpackhi_epi8(p0, p2);
2209       tv2 = _mm_unpacklo_epi8(p1, p3);
2210       tv3 = _mm_unpacklo_epi8(p0, p2);
2211       
2212       p0 = _mm_unpackhi_epi8(tv1, tv0);
2213       p1 = _mm_unpacklo_epi8(tv1, tv0);
2214       p2 = _mm_unpackhi_epi8(tv3, tv2);
2215       p3 = _mm_unpacklo_epi8(tv3, tv2);
2216       
2217       _mm_store_si128((__m128i *) d32, p0);
2218       _mm_store_si128((__m128i *) (d32+4), p1);
2219       _mm_store_si128((__m128i *) (d32+8), p2);
2220       _mm_store_si128((__m128i *) (d32+12), p3);
2221       d32 += 16;
2222     } 
2223   }
2224   gf_do_final_region_alignment(&rd);
2225 }
2226 #endif
2227
2228 static 
2229 int gf_w32_split_init(gf_t *gf)
2230 {
2231   gf_internal_t *h;
2232   struct gf_split_2_32_lazy_data *ld2;
2233   struct gf_split_4_32_lazy_data *ld4;
2234   struct gf_w32_split_8_8_data *d8;
2235   struct gf_split_8_32_lazy_data *d32;
2236   struct gf_split_16_32_lazy_data *d16;
2237   uint32_t p, basep;
2238   int i, j, exp;
2239
2240   h = (gf_internal_t *) gf->scratch;
2241
2242   /* Defaults */
2243   
2244   SET_FUNCTION(gf,inverse,w32,gf_w32_euclid)
2245
2246   /* JSP: First handle single multiplication:  
2247      If args == 8, then we're doing split 8 8.  
2248      Otherwise, if PCLMUL, we use that.
2249      Otherwise, we use bytwo_p.
2250    */
2251
2252   if (h->arg1 == 8 && h->arg2 == 8) {
2253     SET_FUNCTION(gf,multiply,w32,gf_w32_split_8_8_multiply)
2254 #if defined(INTEL_SSE4_PCLMUL)
2255   } else if (gf_cpu_supports_intel_pclmul) {
2256     if ((0xfffe0000 & h->prim_poly) == 0){
2257       SET_FUNCTION(gf,multiply,w32,gf_w32_clm_multiply_2)
2258     } else if ((0xffc00000 & h->prim_poly) == 0){
2259       SET_FUNCTION(gf,multiply,w32,gf_w32_clm_multiply_3)
2260     } else if ((0xfe000000 & h->prim_poly) == 0){
2261      SET_FUNCTION(gf,multiply,w32,gf_w32_clm_multiply_4)
2262     }
2263 #endif
2264   } else {
2265     SET_FUNCTION(gf,multiply,w32,gf_w32_bytwo_p_multiply)
2266   }
2267
2268   /* Easy cases: 16/32 and 2/32 */
2269
2270   if ((h->arg1 == 16 && h->arg2 == 32) || (h->arg1 == 32 && h->arg2 == 16)) {
2271     d16 = (struct gf_split_16_32_lazy_data *) h->private;
2272     d16->last_value = 0;
2273     SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_16_32_lazy_multiply_region)
2274     return 1;
2275   }
2276
2277   if ((h->arg1 == 2 && h->arg2 == 32) || (h->arg1 == 32 && h->arg2 == 2)) {
2278     ld2 = (struct gf_split_2_32_lazy_data *) h->private;
2279     ld2->last_value = 0;
2280     #ifdef INTEL_SSSE3
2281       if (gf_cpu_supports_intel_ssse3 && !(h->region_type & GF_REGION_NOSIMD)) {
2282         SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_2_32_lazy_sse_multiply_region)
2283       } else {
2284     #endif
2285         SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_2_32_lazy_multiply_region)
2286         if(h->region_type & GF_REGION_SIMD) return 0;
2287     #ifdef INTEL_SSSE3
2288       }
2289     #endif
2290     return 1;
2291   } 
2292
2293   /* 4/32 or Default + SSE - There is no ALTMAP/NOSSE. */
2294
2295
2296   if ((h->arg1 == 4 && h->arg2 == 32) || (h->arg1 == 32 && h->arg2 == 4) ||
2297       ((gf_cpu_supports_intel_ssse3 || gf_cpu_supports_arm_neon) && h->mult_type == GF_REGION_DEFAULT)) {
2298     ld4 = (struct gf_split_4_32_lazy_data *) h->private;
2299     ld4->last_value = 0;
2300     if ((h->region_type & GF_REGION_NOSIMD) || !(gf_cpu_supports_intel_ssse3 || gf_cpu_supports_arm_neon)) {
2301       SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_4_32_lazy_multiply_region)
2302     } else if (gf_cpu_supports_arm_neon) {
2303 #ifdef ARM_NEON
2304       gf_w32_neon_split_init(gf);
2305 #endif
2306     } else if (h->region_type & GF_REGION_ALTMAP) {
2307 #ifdef INTEL_SSSE3
2308       SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_4_32_lazy_sse_altmap_multiply_region)
2309 #endif
2310     } else {
2311 #ifdef INTEL_SSSE3
2312       SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_4_32_lazy_sse_multiply_region)
2313 #endif
2314     }
2315     return 1;
2316   } 
2317
2318   /* 8/32 or Default + no SSE */
2319
2320   if ((h->arg1 == 8 && h->arg2 == 32) || (h->arg1 == 32 && h->arg2 == 8) || 
2321        h->mult_type == GF_MULT_DEFAULT) {
2322     d32 = (struct gf_split_8_32_lazy_data *) h->private;
2323     d32->last_value = 0;
2324     SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_8_32_lazy_multiply_region)
2325     return 1;
2326   }
2327
2328   /* Finally, if args == 8, then we have to set up the tables here. */
2329
2330   if (h->arg1 == 8 && h->arg2 == 8) {
2331     d8 = (struct gf_w32_split_8_8_data *) h->private;
2332     d8->last_value = 0;
2333     SET_FUNCTION(gf,multiply,w32,gf_w32_split_8_8_multiply)
2334     SET_FUNCTION(gf,multiply_region,w32,gf_w32_split_8_32_lazy_multiply_region)
2335     basep = 1;
2336     for (exp = 0; exp < 7; exp++) {
2337       for (j = 0; j < 256; j++) d8->tables[exp][0][j] = 0;
2338       for (i = 0; i < 256; i++) d8->tables[exp][i][0] = 0;
2339       d8->tables[exp][1][1] = basep;
2340       for (i = 2; i < 256; i++) {
2341         if (i&1) {
2342           p = d8->tables[exp][i^1][1];
2343           d8->tables[exp][i][1] = p ^ basep;
2344         } else {
2345           p = d8->tables[exp][i>>1][1];
2346           d8->tables[exp][i][1] = GF_MULTBY_TWO(p);
2347         }
2348       }
2349       for (i = 1; i < 256; i++) {
2350         p = d8->tables[exp][i][1];
2351         for (j = 1; j < 256; j++) {
2352           if (j&1) {
2353             d8->tables[exp][i][j] = d8->tables[exp][i][j^1] ^ p;
2354           } else {
2355             d8->tables[exp][i][j] = GF_MULTBY_TWO(d8->tables[exp][i][j>>1]);
2356           }
2357         }
2358       }
2359       for (i = 0; i < 8; i++) basep = GF_MULTBY_TWO(basep);
2360     }
2361     return 1;
2362   }
2363
2364   /* If we get here, then the arguments were bad. */
2365
2366   return 0;
2367 }
2368
2369 static
2370 int gf_w32_group_init(gf_t *gf)
2371 {
2372   uint32_t i, j, p, index;
2373   struct gf_w32_group_data *gd;
2374   gf_internal_t *h = (gf_internal_t *) gf->scratch;
2375   uint32_t g_r, g_s;
2376
2377   g_s = h->arg1;
2378   g_r = h->arg2;
2379
2380   gd = (struct gf_w32_group_data *) h->private;
2381   gd->shift = (uint32_t *) (&(gd->memory));
2382   gd->reduce = gd->shift + (1 << g_s);
2383
2384   gd->rmask = (1 << g_r) - 1;
2385   gd->rmask <<= 32;
2386
2387   gd->tshift = 32 % g_s;
2388   if (gd->tshift == 0) gd->tshift = g_s;
2389   gd->tshift = (32 - gd->tshift);
2390   gd->tshift = ((gd->tshift-1)/g_r) * g_r;
2391
2392   gd->reduce[0] = 0;
2393   for (i = 0; i < ((uint32_t)1 << g_r); i++) {
2394     p = 0;
2395     index = 0;
2396     for (j = 0; j < g_r; j++) {
2397       if (i & (1 << j)) {
2398         p ^= (h->prim_poly << j);
2399         index ^= (1 << j);
2400         index ^= (h->prim_poly >> (32-j));
2401       }
2402     }
2403     gd->reduce[index] = p;
2404   }
2405
2406   if (g_s == g_r) {
2407     SET_FUNCTION(gf,multiply,w32,gf_w32_group_s_equals_r_multiply)
2408     SET_FUNCTION(gf,multiply_region,w32,gf_w32_group_s_equals_r_multiply_region) 
2409   } else {
2410     SET_FUNCTION(gf,multiply,w32,gf_w32_group_multiply)
2411     SET_FUNCTION(gf,multiply_region,w32,gf_w32_group_multiply_region)
2412   }
2413   SET_FUNCTION(gf,divide,w32,NULL)
2414   SET_FUNCTION(gf,inverse,w32,gf_w32_euclid)
2415
2416   return 1;
2417 }
2418
2419
2420 static
2421 uint32_t
2422 gf_w32_composite_multiply_recursive(gf_t *gf, uint32_t a, uint32_t b)
2423 {
2424   gf_internal_t *h = (gf_internal_t *) gf->scratch;
2425   gf_t *base_gf = h->base_gf;
2426   uint32_t b0 = b & 0x0000ffff;
2427   uint32_t b1 = (b & 0xffff0000) >> 16;
2428   uint32_t a0 = a & 0x0000ffff;
2429   uint32_t a1 = (a & 0xffff0000) >> 16;
2430   uint32_t a1b1;
2431   uint32_t rv;
2432   a1b1 = base_gf->multiply.w32(base_gf, a1, b1);
2433
2434   rv = ((base_gf->multiply.w32(base_gf, a1, b0) ^ base_gf->multiply.w32(base_gf, a0, b1) ^ base_gf->multiply.w32(base_gf, a1b1, h->prim_poly)) << 16) | (base_gf->multiply.w32(base_gf, a0, b0) ^ a1b1);
2435   return rv;
2436 }
2437
2438 /* JSP: This could be made faster. Someday, when I'm bored. */
2439
2440 static
2441 uint32_t
2442 gf_w32_composite_multiply_inline(gf_t *gf, uint32_t a, uint32_t b)
2443 {
2444   gf_internal_t *h = (gf_internal_t *) gf->scratch;
2445   uint32_t b0 = b & 0x0000ffff;
2446   uint32_t b1 = b >> 16;
2447   uint32_t a0 = a & 0x0000ffff;
2448   uint32_t a1 = a >> 16;
2449   uint32_t a1b1, prod;
2450   uint16_t *log, *alog;
2451   struct gf_w32_composite_data *cd;
2452
2453   cd = (struct gf_w32_composite_data *) h->private;
2454   log = cd->log;
2455   alog = cd->alog;
2456
2457   a1b1 = GF_W16_INLINE_MULT(log, alog, a1, b1);
2458   prod = GF_W16_INLINE_MULT(log, alog, a1, b0);
2459   prod ^= GF_W16_INLINE_MULT(log, alog, a0, b1);
2460   prod ^= GF_W16_INLINE_MULT(log, alog, a1b1, h->prim_poly);
2461   prod <<= 16;
2462   prod ^= GF_W16_INLINE_MULT(log, alog, a0, b0);
2463   prod ^= a1b1;
2464   return prod;
2465 }
2466
2467 /*
2468  * Composite field division trick (explained in 2007 tech report)
2469  *
2470  * Compute a / b = a*b^-1, where p(x) = x^2 + sx + 1
2471  *
2472  * let c = b^-1
2473  *
2474  * c*b = (s*b1c1+b1c0+b0c1)x+(b1c1+b0c0)
2475  *
2476  * want (s*b1c1+b1c0+b0c1) = 0 and (b1c1+b0c0) = 1
2477  *
2478  * let d = b1c1 and d+1 = b0c0
2479  *
2480  * solve s*b1c1+b1c0+b0c1 = 0
2481  *
2482  * solution: d = (b1b0^-1)(b1b0^-1+b0b1^-1+s)^-1
2483  *
2484  * c0 = (d+1)b0^-1
2485  * c1 = d*b1^-1
2486  *
2487  * a / b = a * c
2488  */
2489
2490 static
2491 uint32_t
2492 gf_w32_composite_inverse(gf_t *gf, uint32_t a)
2493 {
2494   gf_internal_t *h = (gf_internal_t *) gf->scratch;
2495   gf_t *base_gf = h->base_gf;
2496   uint16_t a0 = a & 0x0000ffff;
2497   uint16_t a1 = (a & 0xffff0000) >> 16;
2498   uint16_t c0, c1, d, tmp;
2499   uint32_t c;
2500   uint16_t a0inv, a1inv;
2501
2502   if (a0 == 0) {
2503     a1inv = base_gf->inverse.w32(base_gf, a1);
2504     c0 = base_gf->multiply.w32(base_gf, a1inv, h->prim_poly);
2505     c1 = a1inv;
2506   } else if (a1 == 0) {
2507     c0 = base_gf->inverse.w32(base_gf, a0);
2508     c1 = 0;
2509   } else {
2510     a1inv = base_gf->inverse.w32(base_gf, a1);
2511     a0inv = base_gf->inverse.w32(base_gf, a0);
2512
2513     d = base_gf->multiply.w32(base_gf, a1, a0inv);
2514
2515     tmp = (base_gf->multiply.w32(base_gf, a1, a0inv) ^ base_gf->multiply.w32(base_gf, a0, a1inv) ^ h->prim_poly);
2516     tmp = base_gf->inverse.w32(base_gf, tmp);
2517
2518     d = base_gf->multiply.w32(base_gf, d, tmp);
2519
2520     c0 = base_gf->multiply.w32(base_gf, (d^1), a0inv);
2521     c1 = base_gf->multiply.w32(base_gf, d, a1inv);
2522   }
2523
2524   c = c0 | (c1 << 16);
2525
2526   return c;
2527 }
2528
2529 static
2530 void
2531 gf_w32_composite_multiply_region(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
2532 {
2533   gf_internal_t *h = (gf_internal_t *) gf->scratch;
2534   gf_t *base_gf = h->base_gf;
2535   uint32_t b0 = val & 0x0000ffff;
2536   uint32_t b1 = (val & 0xffff0000) >> 16;
2537   uint32_t *s32, *d32, *top;
2538   uint16_t a0, a1, a1b1, *log, *alog;
2539   uint32_t prod;
2540   gf_region_data rd;
2541   struct gf_w32_composite_data *cd;
2542
2543   cd = (struct gf_w32_composite_data *) h->private;
2544   log = cd->log;
2545   alog = cd->alog;
2546
2547   if (val == 0) { gf_multby_zero(dest, bytes, xor); return; }
2548   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 4);
2549   
2550   s32 = rd.s_start;
2551   d32 = rd.d_start;
2552   top = rd.d_top;
2553
2554   if (log == NULL) {
2555     if (xor) {
2556       while (d32 < top) {
2557         a0 = *s32 & 0x0000ffff;
2558         a1 = (*s32 & 0xffff0000) >> 16;
2559         a1b1 = base_gf->multiply.w32(base_gf, a1, b1);
2560   
2561         *d32 ^= ((base_gf->multiply.w32(base_gf, a0, b0) ^ a1b1) |
2562                   ((base_gf->multiply.w32(base_gf, a1, b0) ^ base_gf->multiply.w32(base_gf, a0, b1) ^ base_gf->multiply.w32(base_gf, a1b1, h->prim_poly)) << 16)); 
2563         s32++;
2564         d32++;
2565       }
2566     } else {
2567       while (d32 < top) {
2568         a0 = *s32 & 0x0000ffff;
2569         a1 = (*s32 & 0xffff0000) >> 16;
2570         a1b1 = base_gf->multiply.w32(base_gf, a1, b1);
2571   
2572         *d32 = ((base_gf->multiply.w32(base_gf, a0, b0) ^ a1b1) |
2573                   ((base_gf->multiply.w32(base_gf, a1, b0) ^ base_gf->multiply.w32(base_gf, a0, b1) ^ base_gf->multiply.w32(base_gf, a1b1, h->prim_poly)) << 16)); 
2574         s32++;
2575         d32++;
2576       }
2577     }
2578   } else {
2579     if (xor) {
2580       while (d32 < top) {
2581         a0 = *s32 & 0x0000ffff;
2582         a1 = (*s32 & 0xffff0000) >> 16;
2583         a1b1 = GF_W16_INLINE_MULT(log, alog, a1, b1);
2584
2585         prod = GF_W16_INLINE_MULT(log, alog, a1, b0);
2586         prod ^= GF_W16_INLINE_MULT(log, alog, a0, b1);
2587         prod ^= GF_W16_INLINE_MULT(log, alog, a1b1, h->prim_poly);
2588         prod <<= 16;
2589         prod ^= GF_W16_INLINE_MULT(log, alog, a0, b0);
2590         prod ^= a1b1;
2591         *d32 ^= prod;
2592         s32++;
2593         d32++;
2594       }
2595     } else {
2596       while (d32 < top) {
2597         a0 = *s32 & 0x0000ffff;
2598         a1 = (*s32 & 0xffff0000) >> 16;
2599         a1b1 = GF_W16_INLINE_MULT(log, alog, a1, b1);
2600   
2601         prod = GF_W16_INLINE_MULT(log, alog, a1, b0);
2602         prod ^= GF_W16_INLINE_MULT(log, alog, a0, b1);
2603         prod ^= GF_W16_INLINE_MULT(log, alog, a1b1, h->prim_poly);
2604         prod <<= 16;
2605         prod ^= GF_W16_INLINE_MULT(log, alog, a0, b0);
2606         prod ^= a1b1;
2607         
2608         *d32 = prod;
2609         s32++;
2610         d32++;
2611       }
2612     }
2613   }
2614 }
2615
2616 static
2617 void
2618 gf_w32_composite_multiply_region_alt(gf_t *gf, void *src, void *dest, uint32_t val, int bytes, int xor)
2619 {
2620   gf_internal_t *h = (gf_internal_t *) gf->scratch;
2621   gf_t *base_gf = h->base_gf;
2622   uint16_t    val0 = val & 0x0000ffff;
2623   uint16_t    val1 = (val & 0xffff0000) >> 16;
2624   gf_region_data rd;
2625   int sub_reg_size;
2626   uint8_t *slow, *shigh;
2627   uint8_t *dlow, *dhigh, *top;
2628
2629   /* JSP: I want the two pointers aligned wrt each other on 16 byte
2630      boundaries.  So I'm going to make sure that the area on
2631      which the two operate is a multiple of 32. Of course, that
2632      junks up the mapping, but so be it -- that's why we have extract_word.... */
2633
2634   gf_set_region_data(&rd, gf, src, dest, bytes, val, xor, 32);
2635   gf_do_initial_region_alignment(&rd);
2636
2637   slow = (uint8_t *) rd.s_start;
2638   dlow = (uint8_t *) rd.d_start;
2639   top = (uint8_t *)  rd.d_top;
2640   sub_reg_size = (top - dlow)/2;
2641   shigh = slow + sub_reg_size;
2642   dhigh = dlow + sub_reg_size;
2643   
2644   base_gf->multiply_region.w32(base_gf, slow, dlow, val0, sub_reg_size, xor);
2645   base_gf->multiply_region.w32(base_gf, shigh, dlow, val1, sub_reg_size, 1);
2646   base_gf->multiply_region.w32(base_gf, slow, dhigh, val1, sub_reg_size, xor);
2647   base_gf->multiply_region.w32(base_gf, shigh, dhigh, val0, sub_reg_size, 1);
2648   base_gf->multiply_region.w32(base_gf, shigh, dhigh, base_gf->multiply.w32(base_gf, h->prim_poly, val1), sub_reg_size, 1);
2649
2650   gf_do_final_region_alignment(&rd);
2651 }
2652
2653 static
2654 int gf_w32_composite_init(gf_t *gf)
2655 {
2656   gf_internal_t *h = (gf_internal_t *) gf->scratch;
2657   struct gf_w32_composite_data *cd;
2658
2659   if (h->base_gf == NULL) return 0;
2660
2661   cd = (struct gf_w32_composite_data *) h->private;
2662   cd->log = gf_w16_get_log_table(h->base_gf);
2663   cd->alog = gf_w16_get_mult_alog_table(h->base_gf);
2664
2665   if (h->region_type & GF_REGION_ALTMAP) {
2666     SET_FUNCTION(gf,multiply_region,w32,gf_w32_composite_multiply_region_alt)
2667   } else {
2668     SET_FUNCTION(gf,multiply_region,w32,gf_w32_composite_multiply_region)
2669   }
2670
2671   if (cd->log == NULL) {
2672     SET_FUNCTION(gf,multiply,w32,gf_w32_composite_multiply_recursive)
2673   } else {
2674     SET_FUNCTION(gf,multiply,w32,gf_w32_composite_multiply_inline) 
2675   }
2676   SET_FUNCTION(gf,divide,w32,NULL)
2677   SET_FUNCTION(gf,inverse,w32,gf_w32_composite_inverse)
2678
2679   return 1;
2680 }
2681
2682
2683
2684 int gf_w32_scratch_size(int mult_type, int region_type, int divide_type, int arg1, int arg2)
2685 {
2686   switch(mult_type)
2687   {
2688     case GF_MULT_BYTWO_p:
2689     case GF_MULT_BYTWO_b:
2690       return sizeof(gf_internal_t) + sizeof(struct gf_w32_bytwo_data) + 64;
2691       break;
2692     case GF_MULT_GROUP: 
2693       return sizeof(gf_internal_t) + sizeof(struct gf_w32_group_data) +
2694                sizeof(uint32_t) * (1 << arg1) +
2695                sizeof(uint32_t) * (1 << arg2) + 64;
2696       break;
2697     case GF_MULT_DEFAULT:
2698
2699     case GF_MULT_SPLIT_TABLE: 
2700         if (arg1 == 8 && arg2 == 8){
2701           return sizeof(gf_internal_t) + sizeof(struct gf_w32_split_8_8_data) + 64;
2702         }
2703         if ((arg1 == 16 && arg2 == 32) || (arg2 == 16 && arg1 == 32)) {
2704           return sizeof(gf_internal_t) + sizeof(struct gf_split_16_32_lazy_data) + 64;
2705         }
2706         if ((arg1 == 2 && arg2 == 32) || (arg2 == 2 && arg1 == 32)) {
2707           return sizeof(gf_internal_t) + sizeof(struct gf_split_2_32_lazy_data) + 64;
2708         }
2709         if ((arg1 == 8 && arg2 == 32) || (arg2 == 8 && arg1 == 32) || 
2710              (mult_type == GF_MULT_DEFAULT && !(gf_cpu_supports_intel_ssse3 || gf_cpu_supports_arm_neon))) {
2711           return sizeof(gf_internal_t) + sizeof(struct gf_split_8_32_lazy_data) + 64;
2712         }
2713         if ((arg1 == 4 && arg2 == 32) || 
2714             (arg2 == 4 && arg1 == 32) ||
2715             mult_type == GF_MULT_DEFAULT) {
2716           return sizeof(gf_internal_t) + sizeof(struct gf_split_4_32_lazy_data) + 64;
2717         }
2718         return 0;
2719     case GF_MULT_CARRY_FREE:
2720       return sizeof(gf_internal_t);
2721       break;
2722     case GF_MULT_CARRY_FREE_GK:
2723       return sizeof(gf_internal_t) + sizeof(uint64_t)*2;
2724       break;
2725     case GF_MULT_SHIFT:
2726       return sizeof(gf_internal_t);
2727       break;
2728     case GF_MULT_COMPOSITE:
2729       return sizeof(gf_internal_t) + sizeof(struct gf_w32_composite_data) + 64;
2730       break;
2731
2732     default:
2733       return 0;
2734    }
2735    return 0;
2736 }
2737
2738 int gf_w32_init(gf_t *gf)
2739 {
2740   gf_internal_t *h;
2741
2742   h = (gf_internal_t *) gf->scratch;
2743   
2744   /* Allen: set default primitive polynomial / irreducible polynomial if needed */
2745
2746   if (h->prim_poly == 0) {
2747     if (h->mult_type == GF_MULT_COMPOSITE) { 
2748       h->prim_poly = gf_composite_get_default_poly(h->base_gf);
2749       if (h->prim_poly == 0) return 0; /* This shouldn't happen */
2750     } else { 
2751
2752       /* Allen: use the following primitive polynomial to make carryless multiply work more efficiently for GF(2^32).*/
2753
2754       /* h->prim_poly = 0xc5; */
2755
2756       /* Allen: The following is the traditional primitive polynomial for GF(2^32) */
2757
2758       h->prim_poly = 0x400007;
2759     } 
2760   }
2761
2762   /* No leading one */
2763
2764   if(h->mult_type != GF_MULT_COMPOSITE) h->prim_poly &= 0xffffffff;
2765     
2766   SET_FUNCTION(gf,multiply,w32,NULL)
2767   SET_FUNCTION(gf,divide,w32,NULL)
2768   SET_FUNCTION(gf,inverse,w32,NULL)
2769   SET_FUNCTION(gf,multiply_region,w32,NULL)
2770
2771   switch(h->mult_type) {
2772     case GF_MULT_CARRY_FREE:    if (gf_w32_cfm_init(gf) == 0) return 0; break;
2773     case GF_MULT_CARRY_FREE_GK: if (gf_w32_cfmgk_init(gf) == 0) return 0; break;
2774     case GF_MULT_SHIFT:         if (gf_w32_shift_init(gf) == 0) return 0; break;
2775     case GF_MULT_COMPOSITE:     if (gf_w32_composite_init(gf) == 0) return 0; break;
2776     case GF_MULT_DEFAULT: 
2777     case GF_MULT_SPLIT_TABLE:   if (gf_w32_split_init(gf) == 0) return 0; break;
2778     case GF_MULT_GROUP:         if (gf_w32_group_init(gf) == 0) return 0; break;
2779     case GF_MULT_BYTWO_p:   
2780     case GF_MULT_BYTWO_b:       if (gf_w32_bytwo_init(gf) == 0) return 0; break;
2781     default: return 0;
2782   }
2783   if (h->divide_type == GF_DIVIDE_EUCLID) {
2784     SET_FUNCTION(gf,divide,w32,gf_w32_divide_from_inverse)
2785     SET_FUNCTION(gf,inverse,w32,gf_w32_euclid)
2786   } else if (h->divide_type == GF_DIVIDE_MATRIX) {
2787     SET_FUNCTION(gf,divide,w32,gf_w32_divide_from_inverse)
2788     SET_FUNCTION(gf,inverse,w32,gf_w32_matrix)
2789   }
2790
2791   if (gf->inverse.w32 != NULL && gf->divide.w32 == NULL) {
2792     SET_FUNCTION(gf,divide,w32,gf_w32_divide_from_inverse)
2793   }
2794   if (gf->inverse.w32 == NULL && gf->divide.w32 != NULL) {
2795     SET_FUNCTION(gf,inverse,w32,gf_w32_inverse_from_divide)
2796   }
2797   if (h->region_type == GF_REGION_CAUCHY) {
2798     SET_FUNCTION(gf,extract_word,w32,gf_wgen_extract_word)
2799     SET_FUNCTION(gf,multiply_region,w32,gf_wgen_cauchy_region)
2800   } else if (h->region_type & GF_REGION_ALTMAP) {
2801     if (h->mult_type == GF_MULT_COMPOSITE) {
2802       SET_FUNCTION(gf,extract_word,w32,gf_w32_composite_extract_word)
2803     } else {
2804       SET_FUNCTION(gf,extract_word,w32,gf_w32_split_extract_word)
2805     }
2806   } else {
2807     SET_FUNCTION(gf,extract_word,w32,gf_w32_extract_word)
2808   }
2809   return 1;
2810 }