config/rs6000/si2vmx.h

 1.1  mrg /* Cell BEA specific SPU intrinsics to PPU/VMX intrinsics
1.12  mrg    Copyright (C) 2007-2022 Free Software Foundation, Inc.
 1.1  mrg
 1.1  mrg    This file is free software; you can redistribute it and/or modify it under
 1.1  mrg    the terms of the GNU General Public License as published by the Free
 1.1  mrg    Software Foundation; either version 3 of the License, or (at your option)
 1.1  mrg    any later version.
 1.1  mrg
 1.1  mrg    This file is distributed in the hope that it will be useful, but WITHOUT
 1.1  mrg    ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 1.1  mrg    FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
 1.1  mrg    for more details.
 1.1  mrg
 1.1  mrg    Under Section 7 of GPL version 3, you are granted additional
 1.1  mrg    permissions described in the GCC Runtime Library Exception, version
 1.1  mrg    3.1, as published by the Free Software Foundation.
 1.1  mrg
 1.1  mrg    You should have received a copy of the GNU General Public License and
 1.1  mrg    a copy of the GCC Runtime Library Exception along with this program;
 1.1  mrg    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
 1.1  mrg    <http://www.gnu.org/licenses/>.  */
 1.1  mrg
 1.1  mrg #ifndef _SI2VMX_H_
 1.1  mrg #define _SI2VMX_H_	1
 1.1  mrg
 1.1  mrg #ifndef __SPU__
 1.1  mrg
 1.1  mrg #include <stdlib.h>
 1.1  mrg #include <vec_types.h>
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Specify a default halt action for spu_hcmpeq and spu_hcmpgt intrinsics.
 1.1  mrg  * Users can override the action by defining it prior to including this
 1.1  mrg  * header file.
 1.1  mrg  */
 1.1  mrg #ifndef SPU_HALT_ACTION
 1.1  mrg #define SPU_HALT_ACTION		abort()
 1.1  mrg #endif
 1.1  mrg
 1.1  mrg /* Specify a default stop action for the spu_stop intrinsic.
 1.1  mrg  * Users can override the action by defining it prior to including this
 1.1  mrg  * header file.
 1.1  mrg  */
 1.1  mrg #ifndef SPU_STOP_ACTION
 1.1  mrg #define SPU_STOP_ACTION		abort()
 1.1  mrg #endif
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Specify a default action for unsupported intrinsic.
 1.1  mrg  * Users can override the action by defining it prior to including this
 1.1  mrg  * header file.
 1.1  mrg  */
 1.1  mrg #ifndef SPU_UNSUPPORTED_ACTION
 1.1  mrg #define SPU_UNSUPPORTED_ACTION	abort()
 1.1  mrg #endif
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Casting intrinsics - from scalar to quadword
 1.1  mrg  */
 1.1  mrg
 1.1  mrg static __inline qword si_from_uchar(unsigned char c) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned char c[16];
 1.1  mrg   } x;
 1.1  mrg   x.c[3] = c;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_char(signed char c) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     signed char c[16];
 1.1  mrg   } x;
 1.1  mrg   x.c[3] = c;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_ushort(unsigned short s) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned short s[8];
 1.1  mrg   } x;
 1.1  mrg   x.s[1] = s;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_short(short s) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     short s[8];
 1.1  mrg   } x;
 1.1  mrg   x.s[1] = s;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_from_uint(unsigned int i) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } x;
 1.1  mrg   x.i[0] = i;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_int(int i) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg   x.i[0] = i;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_ullong(unsigned long long l) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned long long l[2];
 1.1  mrg   } x;
 1.1  mrg   x.l[0] = l;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_llong(long long l) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     long long l[2];
 1.1  mrg   } x;
 1.1  mrg   x.l[0] = l;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_float(float f) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     float f[4];
 1.1  mrg   } x;
 1.1  mrg   x.f[0] = f;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_double(double d) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     double d[2];
 1.1  mrg   } x;
 1.1  mrg   x.d[0] = d;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_from_ptr(void *ptr) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     void *p;
 1.1  mrg   } x;
 1.1  mrg   x.p = ptr;
 1.1  mrg   return (x.q);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Casting intrinsics - from quadword to scalar
 1.1  mrg  */
 1.1  mrg static __inline unsigned char si_to_uchar(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned char c[16];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.c[3]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline signed char si_to_char(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     signed char c[16];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.c[3]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline unsigned short si_to_ushort(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned short s[8];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.s[1]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline short si_to_short(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     short s[8];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.s[1]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline unsigned int si_to_uint(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.i[0]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline int si_to_int(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.i[0]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline unsigned long long si_to_ullong(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     unsigned long long l[2];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.l[0]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline long long si_to_llong(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     long long l[2];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.l[0]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline float si_to_float(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     float f[4];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.f[0]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline double si_to_double(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     double d[2];
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.d[0]);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void * si_to_ptr(qword q) {
 1.1  mrg   union {
 1.1  mrg     qword q;
 1.1  mrg     void *p;
 1.1  mrg   } x;
 1.1  mrg   x.q = q;
 1.1  mrg   return (x.p);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Absolute difference
 1.1  mrg  */
 1.1  mrg static __inline qword si_absdb(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 ac, bc, dc;
 1.1  mrg
 1.1  mrg   ac = (vec_uchar16)(a);
 1.1  mrg   bc = (vec_uchar16)(b);
 1.1  mrg   dc = vec_sel(vec_sub(bc, ac), vec_sub(ac, bc), vec_cmpgt(ac, bc));
 1.1  mrg
 1.1  mrg   return ((qword)(dc));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Add intrinsics
 1.1  mrg  */
 1.1  mrg #define si_a(_a, _b)		((qword)(vec_add((vec_uint4)(_a), (vec_uint4)(_b))))
 1.1  mrg
 1.1  mrg #define si_ah(_a, _b)		((qword)(vec_add((vec_ushort8)(_a), (vec_ushort8)(_b))))
 1.1  mrg
 1.1  mrg static __inline qword si_ai(qword a, int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_add((vec_int4)(a),
 1.1  mrg 			  vec_splat((vec_int4)(si_from_int(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_ahi(qword a, short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_add((vec_short8)(a),
 1.1  mrg 			  vec_splat((vec_short8)(si_from_short(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg #define si_fa(_a, _b)	((qword)(vec_add((vec_float4)(_a), (vec_float4)(_b))))
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_dfa(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } ad, bd, dd;
 1.1  mrg
 1.1  mrg   ad.v = (vec_double2)(a);
 1.1  mrg   bd.v = (vec_double2)(b);
 1.1  mrg   dd.d[0] = ad.d[0] + bd.d[0];
 1.1  mrg   dd.d[1] = ad.d[1] + bd.d[1];
 1.1  mrg
 1.1  mrg   return ((qword)(dd.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Add word extended
 1.1  mrg  */
 1.1  mrg #define si_addx(_a, _b, _c)	((qword)(vec_add(vec_add((vec_uint4)(_a), (vec_uint4)(_b)), 	\
 1.1  mrg 						 vec_and((vec_uint4)(_c), vec_splat_u32(1)))))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Bit-wise AND
 1.1  mrg  */
 1.1  mrg #define si_and(_a, _b)		((qword)(vec_and((vec_uint4)(_a), (vec_uint4)(_b))))
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_andbi(qword a, signed char b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_and((vec_char16)(a),
 1.1  mrg 			  vec_splat((vec_char16)(si_from_char(b)), 3))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_andhi(qword a, signed short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_and((vec_short8)(a),
 1.1  mrg 			  vec_splat((vec_short8)(si_from_short(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_andi(qword a, signed int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_and((vec_int4)(a),
 1.1  mrg 			  vec_splat((vec_int4)(si_from_int(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Bit-wise AND with complement
 1.1  mrg  */
 1.1  mrg #define si_andc(_a, _b)		((qword)(vec_andc((vec_uchar16)(_a), (vec_uchar16)(_b))))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Average byte vectors
 1.1  mrg  */
 1.1  mrg #define si_avgb(_a, _b)		((qword)(vec_avg((vec_uchar16)(_a), (vec_uchar16)(_b))))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Branch indirect and set link on external data
 1.1  mrg  */
 1.1  mrg #define si_bisled(_func)	/* not mappable */
 1.1  mrg #define si_bisledd(_func)	/* not mappable */
 1.1  mrg #define si_bislede(_func)	/* not mappable */
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Borrow generate
 1.1  mrg  */
 1.1  mrg #define si_bg(_a, _b)		((qword)(vec_subc((vec_uint4)(_b), (vec_uint4)(_a))))
 1.1  mrg
 1.1  mrg #define si_bgx(_a, _b, _c)	((qword)(vec_and(vec_or(vec_cmpgt((vec_uint4)(_b), (vec_uint4)(_a)),		\
 1.1  mrg 							vec_and(vec_cmpeq((vec_uint4)(_b), (vec_uint4)(_a)), 	\
 1.1  mrg 								(vec_uint4)(_c))), vec_splat_u32(1))))
 1.1  mrg
 1.1  mrg /* Compare absolute equal
 1.1  mrg  */
 1.1  mrg static __inline qword si_fcmeq(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_float4 msb = (vec_float4)((vec_uint4){0x80000000, 0x80000000, 0x80000000, 0x80000000});
 1.1  mrg
 1.1  mrg   return ((qword)(vec_cmpeq(vec_andc((vec_float4)(a), msb),
 1.1  mrg 				  vec_andc((vec_float4)(b), msb))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfcmeq(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uint4 sign_mask= (vec_uint4) { 0x7FFFFFFF, 0xFFFFFFFF, 0x7FFFFFFF, 0xFFFFFFFF };
 1.1  mrg   vec_uint4 nan_mask = (vec_uint4) { 0x7FF00000, 0x00000000, 0x7FF00000, 0x00000000 };
 1.1  mrg   vec_uchar16 hihi_promote = (vec_uchar16) { 0,1,2,3,  16,17,18,19,  8,9,10,11, 24,25,26,27};
 1.1  mrg
 1.1  mrg   vec_uint4 biteq;
 1.1  mrg   vec_uint4 aabs;
 1.1  mrg   vec_uint4 babs;
 1.1  mrg   vec_uint4 a_gt;
 1.1  mrg   vec_uint4 ahi_inf;
 1.1  mrg   vec_uint4 anan;
 1.1  mrg   vec_uint4 result;
 1.1  mrg
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg
 1.1  mrg   /* Shift 4 bytes  */
 1.1  mrg   x.i[3] = 4 << 3;
 1.1  mrg
 1.1  mrg   /*  Mask out sign bits */
 1.1  mrg   aabs = vec_and((vec_uint4)a,sign_mask);
 1.1  mrg   babs = vec_and((vec_uint4)b,sign_mask);
 1.1  mrg
 1.1  mrg   /*  A)  Check for bit equality, store in high word */
 1.1  mrg   biteq = (vec_uint4) vec_cmpeq((vec_uint4)aabs,(vec_uint4)babs);
 1.1  mrg   biteq = vec_and(biteq,(vec_uint4)vec_slo((vec_uchar16)biteq,x.v));
 1.1  mrg
 1.1  mrg   /*
 1.1  mrg       B)  Check if a is NaN, store in high word
 1.1  mrg
 1.1  mrg       B1) If the high word is greater than max_exp (indicates a NaN)
 1.1  mrg       B2) If the low word is greater than 0
 1.1  mrg   */
 1.1  mrg   a_gt = (vec_uint4)vec_cmpgt(aabs,nan_mask);
 1.1  mrg
 1.1  mrg   /*  B3) Check if the high word is equal to the inf exponent */
 1.1  mrg   ahi_inf = (vec_uint4)vec_cmpeq(aabs,nan_mask);
 1.1  mrg
 1.1  mrg   /*  anan = B1[hi] or (B2[lo] and B3[hi]) */
 1.1  mrg   anan = (vec_uint4)vec_or(a_gt,vec_and((vec_uint4)vec_slo((vec_uchar16)a_gt,x.v),ahi_inf));
 1.1  mrg
 1.1  mrg   /*  result = A and not B  */
 1.1  mrg   result = vec_andc(biteq, anan);
 1.1  mrg
 1.1  mrg   /*  Promote high words to 64 bits and return  */
 1.1  mrg   return ((qword)(vec_perm((vec_uchar16)result, (vec_uchar16)result, hihi_promote)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Compare absolute greater than
 1.1  mrg  */
 1.1  mrg static __inline qword si_fcmgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_float4 msb = (vec_float4)((vec_uint4){0x80000000, 0x80000000, 0x80000000, 0x80000000});
 1.1  mrg
 1.1  mrg   return ((qword)(vec_cmpgt(vec_andc((vec_float4)(a), msb),
 1.1  mrg 				  vec_andc((vec_float4)(b), msb))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfcmgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 splat_hi = (vec_uchar16) { 0,1,2,3, 0,1,2,3, 8,9,10,11, 8,9,10,11 };
 1.1  mrg   vec_uint4 nan_mask = (vec_uint4) { 0x7FF00000, 0x0, 0x7FF00000, 0x0 };
 1.1  mrg   vec_uint4 sign_mask = (vec_uint4) { 0x7FFFFFFF, 0xFFFFFFFF, 0x7FFFFFFF, 0xFFFFFFFF };
 1.1  mrg
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg
 1.1  mrg   /* Shift 4 bytes  */
 1.1  mrg   x.i[3] = 4 << 3;
 1.1  mrg
 1.1  mrg   // absolute value of a,b
 1.1  mrg   vec_uint4 aabs = vec_and((vec_uint4)a, sign_mask);
 1.1  mrg   vec_uint4 babs = vec_and((vec_uint4)b, sign_mask);
 1.1  mrg
 1.1  mrg   // check if a is nan
 1.1  mrg   vec_uint4 a_inf = (vec_uint4)vec_cmpeq(aabs, nan_mask);
 1.1  mrg   vec_uint4 a_nan = (vec_uint4)vec_cmpgt(aabs, nan_mask);
 1.1  mrg   a_nan = vec_or(a_nan, vec_and((vec_uint4)vec_slo((vec_uchar16)a_nan,x.v),a_inf));
 1.1  mrg   a_nan = (vec_uint4)vec_perm((vec_uchar16)a_nan, (vec_uchar16)a_nan, splat_hi);
 1.1  mrg
 1.1  mrg   // check if b is nan
 1.1  mrg   vec_uint4 b_inf = (vec_uint4)vec_cmpeq(babs, nan_mask);
 1.1  mrg   vec_uint4 b_nan = (vec_uint4)vec_cmpgt(babs, nan_mask);
 1.1  mrg   b_nan = vec_or(b_nan, vec_and((vec_uint4)vec_slo((vec_uchar16)b_nan,x.v),b_inf));
 1.1  mrg   b_nan = (vec_uint4)vec_perm((vec_uchar16)b_nan, (vec_uchar16)b_nan, splat_hi);
 1.1  mrg
 1.1  mrg   // A) Check if the exponents are different
 1.1  mrg   vec_uint4 gt_hi = (vec_uint4)vec_cmpgt(aabs,babs);
 1.1  mrg
 1.1  mrg   // B) Check if high word equal, and low word greater
 1.1  mrg   vec_uint4 gt_lo = (vec_uint4)vec_cmpgt((vec_uint4)aabs, (vec_uint4)babs);
 1.1  mrg   vec_uint4 eq = (vec_uint4)vec_cmpeq(aabs, babs);
 1.1  mrg   vec_uint4 eqgt = vec_and(eq,vec_slo(gt_lo,x.v));
 1.1  mrg
 1.1  mrg   //  If either A or B is true, return true (unless NaNs detected)
 1.1  mrg   vec_uint4 r = vec_or(gt_hi, eqgt);
 1.1  mrg
 1.1  mrg   // splat the high words of the comparison step
 1.1  mrg   r = (vec_uint4)vec_perm((vec_uchar16)r,(vec_uchar16)r,splat_hi);
 1.1  mrg
 1.1  mrg   // correct for NaNs in input
 1.1  mrg   return ((qword)vec_andc(r,vec_or(a_nan,b_nan)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Compare equal
 1.1  mrg  */
 1.1  mrg static __inline qword si_ceqb(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpeq((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ceqh(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpeq((vec_ushort8)(a), (vec_ushort8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ceq(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpeq((vec_uint4)(a), (vec_uint4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_fceq(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpeq((vec_float4)(a), (vec_float4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ceqbi(qword a, signed char b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpeq((vec_char16)(a),
 1.1  mrg 			    vec_splat((vec_char16)(si_from_char(b)), 3))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ceqhi(qword a, signed short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpeq((vec_short8)(a),
 1.1  mrg 			  vec_splat((vec_short8)(si_from_short(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ceqi(qword a, signed int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpeq((vec_int4)(a),
 1.1  mrg 			  vec_splat((vec_int4)(si_from_int(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfceq(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uint4 sign_mask= (vec_uint4) { 0x7FFFFFFF, 0xFFFFFFFF, 0x7FFFFFFF, 0xFFFFFFFF };
 1.1  mrg   vec_uint4 nan_mask = (vec_uint4) { 0x7FF00000, 0x00000000, 0x7FF00000, 0x00000000 };
 1.1  mrg   vec_uchar16 hihi_promote = (vec_uchar16) { 0,1,2,3,  16,17,18,19,  8,9,10,11, 24,25,26,27};
 1.1  mrg
 1.1  mrg   vec_uint4 biteq;
 1.1  mrg   vec_uint4 aabs;
 1.1  mrg   vec_uint4 babs;
 1.1  mrg   vec_uint4 a_gt;
 1.1  mrg   vec_uint4 ahi_inf;
 1.1  mrg   vec_uint4 anan;
 1.1  mrg   vec_uint4 iszero;
 1.1  mrg   vec_uint4 result;
 1.1  mrg
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg
 1.1  mrg   /* Shift 4 bytes  */
 1.1  mrg   x.i[3] = 4 << 3;
 1.1  mrg
 1.1  mrg   /*  A)  Check for bit equality, store in high word */
 1.1  mrg   biteq = (vec_uint4) vec_cmpeq((vec_uint4)a,(vec_uint4)b);
 1.1  mrg   biteq = vec_and(biteq,(vec_uint4)vec_slo((vec_uchar16)biteq,x.v));
 1.1  mrg
 1.1  mrg   /*  Mask out sign bits */
 1.1  mrg   aabs = vec_and((vec_uint4)a,sign_mask);
 1.1  mrg   babs = vec_and((vec_uint4)b,sign_mask);
 1.1  mrg
 1.1  mrg   /*
 1.1  mrg       B)  Check if a is NaN, store in high word
 1.1  mrg
 1.1  mrg       B1) If the high word is greater than max_exp (indicates a NaN)
 1.1  mrg       B2) If the low word is greater than 0
 1.1  mrg   */
 1.1  mrg   a_gt = (vec_uint4)vec_cmpgt(aabs,nan_mask);
 1.1  mrg
 1.1  mrg   /*  B3) Check if the high word is equal to the inf exponent */
 1.1  mrg   ahi_inf = (vec_uint4)vec_cmpeq(aabs,nan_mask);
 1.1  mrg
 1.1  mrg   /*  anan = B1[hi] or (B2[lo] and B3[hi]) */
 1.1  mrg   anan = (vec_uint4)vec_or(a_gt,vec_and((vec_uint4)vec_slo((vec_uchar16)a_gt,x.v),ahi_inf));
 1.1  mrg
 1.1  mrg   /*  C)  Check for 0 = -0 special case */
 1.1  mrg   iszero =(vec_uint4)vec_cmpeq((vec_uint4)vec_or(aabs,babs),(vec_uint4)vec_splat_u32(0));
 1.1  mrg   iszero = vec_and(iszero,(vec_uint4)vec_slo((vec_uchar16)iszero,x.v));
 1.1  mrg
 1.1  mrg   /*  result = (A or C) and not B  */
 1.1  mrg   result = vec_or(biteq,iszero);
 1.1  mrg   result = vec_andc(result, anan);
 1.1  mrg
 1.1  mrg   /*  Promote high words to 64 bits and return  */
 1.1  mrg   return ((qword)(vec_perm((vec_uchar16)result, (vec_uchar16)result, hihi_promote)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Compare greater than
 1.1  mrg  */
 1.1  mrg static __inline qword si_cgtb(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_char16)(a), (vec_char16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cgth(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_short8)(a), (vec_short8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_int4)(a), (vec_int4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_clgtb(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_clgth(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_ushort8)(a), (vec_ushort8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_clgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_uint4)(a), (vec_uint4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_fcgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_float4)(a), (vec_float4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfcgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 splat_hi = (vec_uchar16) { 0,1,2,3, 0,1,2,3, 8,9,10,11, 8,9,10,11 };
 1.1  mrg   vec_uchar16 borrow_shuffle = (vec_uchar16) { 4,5,6,7, 192,192,192,192, 12,13,14,15, 192,192,192,192 };
 1.1  mrg   vec_uint4 nan_mask = (vec_uint4) { 0x7FF00000, 0x0, 0x7FF00000, 0x0 };
 1.1  mrg   vec_uint4 sign_mask = (vec_uint4) { 0x7FFFFFFF, 0xFFFFFFFF, 0x7FFFFFFF, 0xFFFFFFFF };
 1.1  mrg
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg
 1.1  mrg   /* Shift 4 bytes  */
 1.1  mrg   x.i[3] = 4 << 3;
 1.1  mrg
 1.1  mrg   // absolute value of a,b
 1.1  mrg   vec_uint4 aabs = vec_and((vec_uint4)a, sign_mask);
 1.1  mrg   vec_uint4 babs = vec_and((vec_uint4)b, sign_mask);
 1.1  mrg
 1.1  mrg   // check if a is nan
 1.1  mrg   vec_uint4 a_inf = (vec_uint4)vec_cmpeq(aabs, nan_mask);
 1.1  mrg   vec_uint4 a_nan = (vec_uint4)vec_cmpgt(aabs, nan_mask);
 1.1  mrg   a_nan = vec_or(a_nan, vec_and((vec_uint4)vec_slo((vec_uchar16)a_nan,x.v),a_inf));
 1.1  mrg   a_nan = (vec_uint4)vec_perm((vec_uchar16)a_nan, (vec_uchar16)a_nan, splat_hi);
 1.1  mrg
 1.1  mrg   // check if b is nan
 1.1  mrg   vec_uint4 b_inf = (vec_uint4)vec_cmpeq(babs, nan_mask);
 1.1  mrg   vec_uint4 b_nan = (vec_uint4)vec_cmpgt(babs, nan_mask);
 1.1  mrg   b_nan = vec_or(b_nan, vec_and((vec_uint4)vec_slo((vec_uchar16)b_nan,x.v),b_inf));
 1.1  mrg   b_nan = (vec_uint4)vec_perm((vec_uchar16)b_nan, (vec_uchar16)b_nan, splat_hi);
 1.1  mrg
 1.1  mrg   // sign of a
 1.1  mrg   vec_uint4 asel = (vec_uint4)vec_sra((vec_int4)(a), (vec_uint4)vec_splat(((vec_uint4)si_from_int(31)), 0));
 1.1  mrg   asel = (vec_uint4)vec_perm((vec_uchar16)asel,(vec_uchar16)asel,splat_hi);
 1.1  mrg
 1.1  mrg   // sign of b
 1.1  mrg   vec_uint4 bsel = (vec_uint4)vec_sra((vec_int4)(b), (vec_uint4)vec_splat(((vec_uint4)si_from_int(31)), 0));
 1.1  mrg   bsel = (vec_uint4)vec_perm((vec_uchar16)bsel,(vec_uchar16)bsel,splat_hi);
 1.1  mrg
 1.1  mrg   // negative a
 1.1  mrg   vec_uint4 abor = vec_subc((vec_uint4)vec_splat_u32(0), aabs);
 1.1  mrg   vec_uchar16 pat = vec_sel(((vec_uchar16){0, 1, 2, 3, 4, 5, 6, 7, 8, 9,10,11,12,13,14,15}), vec_sr(borrow_shuffle, vec_splat_u8(3)), vec_sra(borrow_shuffle, vec_splat_u8(7)));
 1.1  mrg   abor = (vec_uint4)(vec_perm(vec_perm((vec_uchar16)abor, (vec_uchar16)abor, borrow_shuffle),((vec_uchar16){0, 0, 0, 0, 0, 0, 0, 0, 0xFF, 0xFF, 0xFF, 0xFF, 0x80, 0x80, 0x80, 0x80}),pat));
 1.1  mrg   vec_uint4 aneg = vec_add(vec_add(vec_splat_u32(0), vec_nor(aabs, aabs)), vec_and(abor, vec_splat_u32(1)));
 1.1  mrg
 1.1  mrg   // pick the one we want
 1.1  mrg   vec_int4 aval = (vec_int4)vec_sel((vec_uchar16)aabs, (vec_uchar16)aneg, (vec_uchar16)asel);
 1.1  mrg
 1.1  mrg   // negative b
 1.1  mrg   vec_uint4 bbor = vec_subc((vec_uint4)vec_splat_u32(0), babs);
 1.1  mrg   bbor = (vec_uint4)(vec_perm(vec_perm((vec_uchar16)bbor, (vec_uchar16)bbor, borrow_shuffle),((vec_uchar16){0, 0, 0, 0, 0, 0, 0, 0, 0xFF, 0xFF, 0xFF, 0xFF, 0x80, 0x80, 0x80, 0x80}),pat));
 1.1  mrg   vec_uint4 bneg = vec_add(vec_nor(babs, babs), vec_and(bbor, vec_splat_u32(1)));
 1.1  mrg
 1.1  mrg   // pick the one we want
 1.1  mrg   vec_int4 bval=(vec_int4)vec_sel((vec_uchar16)babs, (vec_uchar16)bneg, (vec_uchar16)bsel);
 1.1  mrg
 1.1  mrg   // A) Check if the exponents are different
 1.1  mrg   vec_uint4 gt_hi = (vec_uint4)vec_cmpgt(aval,bval);
 1.1  mrg
 1.1  mrg   // B) Check if high word equal, and low word greater
 1.1  mrg   vec_uint4 gt_lo = (vec_uint4)vec_cmpgt((vec_uint4)aval, (vec_uint4)bval);
 1.1  mrg   vec_uint4 eq = (vec_uint4)vec_cmpeq(aval, bval);
 1.1  mrg   vec_uint4 eqgt = vec_and(eq,vec_slo(gt_lo,x.v));
 1.1  mrg
 1.1  mrg   //  If either A or B is true, return true (unless NaNs detected)
 1.1  mrg   vec_uint4 r = vec_or(gt_hi, eqgt);
 1.1  mrg
 1.1  mrg   // splat the high words of the comparison step
 1.1  mrg   r = (vec_uint4)vec_perm((vec_uchar16)r,(vec_uchar16)r,splat_hi);
 1.1  mrg
 1.1  mrg   // correct for NaNs in input
 1.1  mrg   return ((qword)vec_andc(r,vec_or(a_nan,b_nan)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cgtbi(qword a, signed char b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_char16)(a),
 1.1  mrg 			    vec_splat((vec_char16)(si_from_char(b)), 3))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cgthi(qword a, signed short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_short8)(a),
 1.1  mrg 			    vec_splat((vec_short8)(si_from_short(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cgti(qword a, signed int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_int4)(a),
 1.1  mrg 			    vec_splat((vec_int4)(si_from_int(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_clgtbi(qword a, unsigned char b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_uchar16)(a),
 1.1  mrg 			    vec_splat((vec_uchar16)(si_from_uchar(b)), 3))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_clgthi(qword a, unsigned short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_ushort8)(a),
 1.1  mrg 			    vec_splat((vec_ushort8)(si_from_ushort(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_clgti(qword a, unsigned int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_cmpgt((vec_uint4)(a),
 1.1  mrg 			    vec_splat((vec_uint4)(si_from_uint(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dftsv(qword a, char b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 splat_hi = (vec_uchar16) { 0,1,2,3, 0,1,2,3, 8,9,10,11, 8,9,10,11 };
 1.1  mrg   vec_uint4 sign_mask = (vec_uint4) { 0x7FFFFFFF, 0xFFFFFFFF, 0x7FFFFFFF, 0xFFFFFFFF };
 1.1  mrg   vec_uint4 result = (vec_uint4){0};
 1.1  mrg   vec_uint4 sign = (vec_uint4)vec_sra((vec_int4)(a), (vec_uint4)vec_splat(((vec_uint4)si_from_int(31)), 0));
 1.1  mrg   sign = (vec_uint4)vec_perm((vec_uchar16)sign,(vec_uchar16)sign,splat_hi);
 1.1  mrg   vec_uint4 aabs = vec_and((vec_uint4)a,sign_mask);
 1.1  mrg
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg
 1.1  mrg   /* Shift 4 bytes  */
 1.1  mrg   x.i[3] = 4 << 3;
 1.1  mrg
 1.1  mrg   /* Nan or +inf or -inf  */
 1.1  mrg   if (b & 0x70)
 1.1  mrg   {
 1.1  mrg     vec_uint4 nan_mask = (vec_uint4) { 0x7FF00000, 0x0, 0x7FF00000, 0x0 };
 1.1  mrg     vec_uint4 a_inf = (vec_uint4)vec_cmpeq(aabs, nan_mask);
 1.1  mrg      /* NaN  */
 1.1  mrg      if (b & 0x40)
 1.1  mrg      {
 1.1  mrg        vec_uint4 a_nan = (vec_uint4)vec_cmpgt(aabs, nan_mask);
 1.1  mrg        a_nan = vec_or(a_nan, vec_and((vec_uint4)vec_slo((vec_uchar16)a_nan,x.v),a_inf));
 1.1  mrg        a_nan = (vec_uint4)vec_perm((vec_uchar16)a_nan, (vec_uchar16)a_nan, splat_hi);
 1.1  mrg        result = vec_or(result, a_nan);
 1.1  mrg      }
 1.1  mrg      /* inf  */
 1.1  mrg      if (b & 0x30)
 1.1  mrg      {
 1.1  mrg        a_inf = vec_and((vec_uint4)vec_slo((vec_uchar16)a_inf,x.v), a_inf);
 1.1  mrg        a_inf = (vec_uint4)vec_perm((vec_uchar16)a_inf, (vec_uchar16)a_inf, splat_hi);
 1.1  mrg         /* +inf  */
 1.1  mrg         if (b & 0x20)
 1.1  mrg           result = vec_or(vec_andc(a_inf, sign), result);
 1.1  mrg         /* -inf  */
 1.1  mrg         if (b & 0x10)
 1.1  mrg           result = vec_or(vec_and(a_inf, sign), result);
 1.1  mrg      }
 1.1  mrg   }
 1.1  mrg   /* 0 or denorm  */
 1.1  mrg   if (b & 0xF)
 1.1  mrg   {
 1.1  mrg     vec_uint4 iszero =(vec_uint4)vec_cmpeq(aabs,(vec_uint4)vec_splat_u32(0));
 1.1  mrg     iszero = vec_and(iszero,(vec_uint4)vec_slo((vec_uchar16)iszero,x.v));
 1.1  mrg     /* denorm  */
 1.1  mrg     if (b & 0x3)
 1.1  mrg     {
 1.1  mrg       vec_uint4 denorm_mask = (vec_uint4){0xFFFFF, 0xFFFFF, 0xFFFFF, 0xFFFFF};
 1.1  mrg       vec_uint4 isdenorm = vec_nor((vec_uint4)vec_cmpgt(aabs, denorm_mask), iszero);
 1.1  mrg       isdenorm = (vec_uint4)vec_perm((vec_uchar16)isdenorm, (vec_uchar16)isdenorm, splat_hi);
 1.1  mrg       /* +denorm  */
 1.1  mrg      if (b & 0x2)
 1.1  mrg         result = vec_or(vec_andc(isdenorm, sign), result);
 1.1  mrg       /* -denorm  */
 1.1  mrg      if (b & 0x1)
 1.1  mrg         result = vec_or(vec_and(isdenorm, sign), result);
 1.1  mrg     }
 1.1  mrg     /* 0  */
 1.1  mrg     if (b & 0xC)
 1.1  mrg     {
 1.1  mrg       iszero = (vec_uint4)vec_perm((vec_uchar16)iszero, (vec_uchar16)iszero, splat_hi);
 1.1  mrg       /* +0  */
 1.1  mrg      if (b & 0x8)
 1.1  mrg         result = vec_or(vec_andc(iszero, sign), result);
 1.1  mrg       /* -0  */
 1.1  mrg      if (b & 0x4)
 1.1  mrg         result = vec_or(vec_and(iszero, sign), result);
 1.1  mrg     }
 1.1  mrg   }
 1.1  mrg   return ((qword)result);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Carry generate
 1.1  mrg  */
 1.1  mrg #define si_cg(_a, _b)		((qword)(vec_addc((vec_uint4)(_a), (vec_uint4)(_b))))
 1.1  mrg
 1.1  mrg #define si_cgx(_a, _b, _c)	((qword)(vec_or(vec_addc((vec_uint4)(_a), (vec_uint4)(_b)), 		\
 1.1  mrg 						vec_addc(vec_add((vec_uint4)(_a), (vec_uint4)(_b)),	\
 1.1  mrg 							 vec_and((vec_uint4)(_c), vec_splat_u32(1))))))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Count ones for bytes
 1.1  mrg  */
 1.1  mrg static __inline qword si_cntb(qword a)
 1.1  mrg {
 1.1  mrg   vec_uchar16 nib_cnt = (vec_uchar16){0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4};
 1.1  mrg   vec_uchar16 four = { 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4 };
 1.1  mrg   vec_uchar16 av;
 1.1  mrg
 1.1  mrg   av = (vec_uchar16)(a);
 1.1  mrg
 1.1  mrg   return ((qword)(vec_add(vec_perm(nib_cnt, nib_cnt, av),
 1.1  mrg 			  vec_perm(nib_cnt, nib_cnt, vec_sr (av, four)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Count ones for bytes
 1.1  mrg  */
 1.1  mrg static __inline qword si_clz(qword a)
 1.1  mrg {
 1.1  mrg   vec_uchar16 av;
 1.1  mrg   vec_uchar16 cnt_hi, cnt_lo, cnt, tmp1, tmp2, tmp3;
 1.1  mrg   vec_uchar16 four    = vec_splat_u8(4);
 1.1  mrg   vec_uchar16 nib_cnt = (vec_uchar16){4, 3, 2, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0};
 1.1  mrg   vec_uchar16 eight   = vec_splat_u8(8);
 1.1  mrg   vec_uchar16 sixteen = (vec_uchar16){16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16};
 1.1  mrg   vec_uchar16 twentyfour = (vec_uchar16){24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24};
 1.1  mrg
 1.1  mrg   av = (vec_uchar16)(a);
 1.1  mrg
 1.1  mrg   cnt_hi = vec_perm(nib_cnt, nib_cnt, vec_sr(av, four));
 1.1  mrg   cnt_lo = vec_perm(nib_cnt, nib_cnt, av);
 1.1  mrg
 1.1  mrg   cnt = vec_add(cnt_hi, vec_and(cnt_lo, vec_cmpeq(cnt_hi, four)));
 1.1  mrg
 1.1  mrg   tmp1 = (vec_uchar16)vec_sl((vec_uint4)(cnt), (vec_uint4)(eight));
 1.1  mrg   tmp2 = (vec_uchar16)vec_sl((vec_uint4)(cnt), (vec_uint4)(sixteen));
 1.1  mrg   tmp3 = (vec_uchar16)vec_sl((vec_uint4)(cnt), (vec_uint4)(twentyfour));
 1.1  mrg
 1.1  mrg   cnt = vec_add(cnt, vec_and(tmp1, vec_cmpeq(cnt, eight)));
 1.1  mrg   cnt = vec_add(cnt, vec_and(tmp2, vec_cmpeq(cnt, sixteen)));
 1.1  mrg   cnt = vec_add(cnt, vec_and(tmp3, vec_cmpeq(cnt, twentyfour)));
 1.1  mrg
 1.1  mrg   return (qword)((vec_sr((vec_uint4)(cnt), (vec_uint4)(twentyfour))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Convert to float
 1.1  mrg  */
 1.1  mrg #define si_cuflt(_a, _b)	((qword)(vec_ctf((vec_uint4)(_a), _b)))
 1.1  mrg #define si_csflt(_a, _b)	((qword)(vec_ctf((vec_int4)(_a), _b)))
 1.1  mrg
 1.1  mrg /* Convert to signed int
 1.1  mrg  */
 1.1  mrg #define si_cflts(_a, _b)	((qword)(vec_cts((vec_float4)(_a), _b)))
 1.1  mrg
 1.1  mrg /* Convert to unsigned int
 1.1  mrg  */
 1.1  mrg #define si_cfltu(_a, _b)	((qword)(vec_ctu((vec_float4)(_a), _b)))
 1.1  mrg
 1.1  mrg /* Synchronize
 1.1  mrg  */
 1.1  mrg #define si_dsync()		/* do nothing */
 1.1  mrg #define si_sync()		/* do nothing */
 1.1  mrg #define si_syncc()		/* do nothing */
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Equivalence
 1.1  mrg  */
 1.1  mrg static __inline qword si_eqv(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 d;
 1.1  mrg
 1.1  mrg   d = vec_xor((vec_uchar16)(a), (vec_uchar16)(b));
 1.1  mrg   return ((qword)(vec_nor(d, d)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Extend
 1.1  mrg  */
 1.1  mrg static __inline qword si_xsbh(qword a)
 1.1  mrg {
 1.1  mrg   vec_char16 av;
 1.1  mrg
 1.1  mrg   av = (vec_char16)(a);
 1.1  mrg   return ((qword)(vec_unpackh(vec_perm(av, av, ((vec_uchar16){1, 3, 5, 7, 9,11,13,15,
 1.1  mrg 						              0, 0, 0, 0, 0, 0, 0, 0})))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_xshw(qword a)
 1.1  mrg {
 1.1  mrg   vec_short8 av;
 1.1  mrg
 1.1  mrg   av = (vec_short8)(a);
 1.1  mrg   return ((qword)(vec_unpackh(vec_perm(av, av, ((vec_uchar16){2, 3, 6, 7,
 1.1  mrg 					                      10,11,14,15,
 1.1  mrg 							      0, 0, 0, 0,
 1.1  mrg 						              0, 0, 0, 0})))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_xswd(qword a)
 1.1  mrg {
 1.1  mrg   vec_int4 av;
 1.1  mrg
 1.1  mrg   av = (vec_int4)(a);
 1.1  mrg   return ((qword)(vec_perm(av, vec_sra(av, ((vec_uint4){31,31,31,31})),
 1.1  mrg 			   ((vec_uchar16){20, 21, 22, 23,
 1.1  mrg 					   4,  5,  6,  7,
 1.1  mrg 				          28, 29, 30, 31,
 1.1  mrg 				          12, 13, 14, 15}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_fesd(qword a)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     double d[2];
 1.1  mrg     vec_double2	vd;
 1.1  mrg   } out;
 1.1  mrg   union {
 1.1  mrg     float f[4];
 1.1  mrg     vec_float4 vf;
 1.1  mrg   } in;
 1.1  mrg
 1.1  mrg   in.vf = (vec_float4)(a);
 1.1  mrg   out.d[0] = (double)(in.f[0]);
 1.1  mrg   out.d[1] = (double)(in.f[2]);
 1.1  mrg   return ((qword)(out.vd));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Gather
 1.1  mrg  */
 1.1  mrg static __inline qword si_gbb(qword a)
 1.1  mrg {
 1.1  mrg   vec_uchar16 bits;
 1.1  mrg   vec_uint4   bytes;
 1.1  mrg
 1.1  mrg   bits  = vec_sl(vec_and((vec_uchar16)(a), vec_splat_u8(1)), ((vec_uchar16){7, 6, 5, 4, 3, 2, 1, 0,
 1.1  mrg 								            7, 6, 5, 4, 3, 2, 1, 0}));
 1.1  mrg   bytes = (vec_uint4)vec_sum2s((vec_int4)(vec_sum4s(bits, ((vec_uint4){0}))), ((vec_int4){0}));
 1.1  mrg
 1.1  mrg   return ((qword)(vec_perm(bytes, bytes, ((vec_uchar16){0, 0, 7,15, 0, 0, 0, 0,
 1.1  mrg 					                0, 0, 0, 0, 0, 0, 0, 0}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_gbh(qword a)
 1.1  mrg {
 1.1  mrg   vec_ushort8 bits;
 1.1  mrg   vec_uint4   bytes;
 1.1  mrg
 1.1  mrg   bits  = vec_sl(vec_and((vec_ushort8)(a), vec_splat_u16(1)), ((vec_ushort8){7, 6, 5, 4, 3, 2, 1, 0}));
 1.1  mrg
 1.1  mrg   bytes = (vec_uint4)vec_sums((vec_int4)(vec_sum4s((vec_short8)(bits), (vec_int4){0})), (vec_int4){0});
 1.1  mrg
 1.1  mrg   return ((qword)(vec_sld(bytes, bytes, 12)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_gb(qword a)
 1.1  mrg {
 1.1  mrg   vec_uint4 bits;
 1.1  mrg   vec_uint4 bytes;
 1.1  mrg
 1.1  mrg   bits  = vec_sl(vec_and((vec_uint4)(a), vec_splat_u32(1)), ((vec_uint4){3, 2, 1, 0}));
 1.1  mrg   bytes = (vec_uint4)vec_sums((vec_int4)(bits), ((vec_int4){0}));
 1.1  mrg   return ((qword)(vec_sld(bytes, bytes, 12)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Compare and halt
 1.1  mrg  */
 1.1  mrg static __inline void si_heq(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vector unsigned int v;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } aa, bb;
 1.1  mrg
 1.1  mrg   aa.v = (vector unsigned int)(a);
 1.1  mrg   bb.v = (vector unsigned int)(b);
 1.1  mrg
 1.1  mrg   if (aa.i[0] == bb.i[0]) { SPU_HALT_ACTION; };
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_heqi(qword a, unsigned int b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vector unsigned int v;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } aa;
 1.1  mrg
 1.1  mrg   aa.v = (vector unsigned int)(a);
 1.1  mrg
 1.1  mrg   if (aa.i[0] == b) { SPU_HALT_ACTION; };
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_hgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vector signed int v;
 1.1  mrg     signed int i[4];
 1.1  mrg   } aa, bb;
 1.1  mrg
 1.1  mrg   aa.v = (vector signed int)(a);
 1.1  mrg   bb.v = (vector signed int)(b);
 1.1  mrg
 1.1  mrg   if (aa.i[0] > bb.i[0]) { SPU_HALT_ACTION; };
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_hgti(qword a, signed int b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vector signed int v;
 1.1  mrg     signed int i[4];
 1.1  mrg   } aa;
 1.1  mrg
 1.1  mrg   aa.v = (vector signed int)(a);
 1.1  mrg
 1.1  mrg   if (aa.i[0] > b) { SPU_HALT_ACTION; };
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_hlgt(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vector unsigned int v;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } aa, bb;
 1.1  mrg
 1.1  mrg   aa.v = (vector unsigned int)(a);
 1.1  mrg   bb.v = (vector unsigned int)(b);
 1.1  mrg
 1.1  mrg   if (aa.i[0] > bb.i[0]) { SPU_HALT_ACTION; };
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_hlgti(qword a, unsigned int b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vector unsigned int v;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } aa;
 1.1  mrg
 1.1  mrg   aa.v = (vector unsigned int)(a);
 1.1  mrg
 1.1  mrg   if (aa.i[0] > b) { SPU_HALT_ACTION; };
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Multiply and Add
 1.1  mrg  */
 1.1  mrg static __inline qword si_mpya(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_msum(vec_and((vec_short8)(a),
 1.1  mrg 				   ((vec_short8){0, -1, 0, -1, 0, -1, 0, -1})),
 1.1  mrg 			   (vec_short8)(b), (vec_int4)(c))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_fma(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_madd((vec_float4)(a), (vec_float4)(b), (vec_float4)(c))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfma(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } aa, bb, cc, dd;
 1.1  mrg
 1.1  mrg   aa.v = (vec_double2)(a);
 1.1  mrg   bb.v = (vec_double2)(b);
 1.1  mrg   cc.v = (vec_double2)(c);
 1.1  mrg   dd.d[0] = aa.d[0] * bb.d[0] + cc.d[0];
 1.1  mrg   dd.d[1] = aa.d[1] * bb.d[1] + cc.d[1];
 1.1  mrg   return ((qword)(dd.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Form Mask
 1.1  mrg  */
 1.1  mrg #define si_fsmbi(_a)	si_fsmb(si_from_int(_a))
 1.1  mrg
 1.1  mrg static __inline qword si_fsmb(qword a)
 1.1  mrg {
 1.1  mrg   vec_char16 mask;
 1.1  mrg   vec_ushort8 in;
 1.1  mrg
 1.1  mrg   in = (vec_ushort8)(a);
 1.1  mrg   mask = (vec_char16)(vec_perm(in, in, ((vec_uchar16){2, 2, 2, 2, 2, 2, 2, 2,
 1.1  mrg 					              3, 3, 3, 3, 3, 3, 3, 3})));
 1.1  mrg   return ((qword)(vec_sra(vec_sl(mask, ((vec_uchar16){0, 1, 2, 3, 4, 5, 6, 7,
 1.1  mrg 				                      0, 1, 2, 3, 4, 5, 6, 7})),
 1.1  mrg 			  vec_splat_u8(7))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_fsmh(qword a)
 1.1  mrg {
 1.1  mrg   vec_uchar16 in;
 1.1  mrg   vec_short8 mask;
 1.1  mrg
 1.1  mrg   in = (vec_uchar16)(a);
 1.1  mrg   mask = (vec_short8)(vec_splat(in, 3));
 1.1  mrg   return ((qword)(vec_sra(vec_sl(mask, ((vec_ushort8){0, 1, 2, 3, 4, 5, 6, 7})),
 1.1  mrg 			  vec_splat_u16(15))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_fsm(qword a)
 1.1  mrg {
 1.1  mrg   vec_uchar16 in;
 1.1  mrg   vec_int4 mask;
 1.1  mrg
 1.1  mrg   in = (vec_uchar16)(a);
 1.1  mrg   mask = (vec_int4)(vec_splat(in, 3));
 1.1  mrg   return ((qword)(vec_sra(vec_sl(mask, ((vec_uint4){28, 29, 30, 31})),
 1.1  mrg 			  ((vec_uint4){31,31,31,31}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Move from/to registers
 1.1  mrg  */
 1.1  mrg #define si_fscrrd()		((qword)((vec_uint4){0}))
 1.1  mrg #define si_fscrwr(_a)
 1.1  mrg
 1.1  mrg #define si_mfspr(_reg)		((qword)((vec_uint4){0}))
 1.1  mrg #define si_mtspr(_reg, _a)
 1.1  mrg
 1.1  mrg /* Multiply High High Add
 1.1  mrg  */
 1.1  mrg static __inline qword si_mpyhha(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_add(vec_mule((vec_short8)(a), (vec_short8)(b)), (vec_int4)(c))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_mpyhhau(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_add(vec_mule((vec_ushort8)(a), (vec_ushort8)(b)), (vec_uint4)(c))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Multiply Subtract
 1.1  mrg  */
 1.1  mrg static __inline qword si_fms(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_madd((vec_float4)(a), (vec_float4)(b),
 1.1  mrg 			   vec_sub(((vec_float4){0.0f}), (vec_float4)(c)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfms(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } aa, bb, cc, dd;
 1.1  mrg
 1.1  mrg   aa.v = (vec_double2)(a);
 1.1  mrg   bb.v = (vec_double2)(b);
 1.1  mrg   cc.v = (vec_double2)(c);
 1.1  mrg   dd.d[0] = aa.d[0] * bb.d[0] - cc.d[0];
 1.1  mrg   dd.d[1] = aa.d[1] * bb.d[1] - cc.d[1];
 1.1  mrg   return ((qword)(dd.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Multiply
 1.1  mrg  */
 1.1  mrg static __inline qword si_fm(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_madd((vec_float4)(a), (vec_float4)(b), ((vec_float4){0.0f}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfm(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } aa, bb, dd;
 1.1  mrg
 1.1  mrg   aa.v = (vec_double2)(a);
 1.1  mrg   bb.v = (vec_double2)(b);
 1.1  mrg   dd.d[0] = aa.d[0] * bb.d[0];
 1.1  mrg   dd.d[1] = aa.d[1] * bb.d[1];
 1.1  mrg   return ((qword)(dd.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Multiply High
 1.1  mrg  */
 1.1  mrg static __inline qword si_mpyh(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uint4 sixteen = (vec_uint4){16, 16, 16, 16};
 1.1  mrg
 1.1  mrg   return ((qword)(vec_sl(vec_mule((vec_short8)(a), (vec_short8)(vec_sl((vec_uint4)(b), sixteen))), sixteen)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Multiply High High
 1.1  mrg  */
 1.1  mrg static __inline qword si_mpyhh(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_mule((vec_short8)(a), (vec_short8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_mpyhhu(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_mule((vec_ushort8)(a), (vec_ushort8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Multiply Odd
 1.1  mrg  */
 1.1  mrg static __inline qword si_mpy(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_mulo((vec_short8)(a), (vec_short8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_mpyu(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_mulo((vec_ushort8)(a), (vec_ushort8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_mpyi(qword a, short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_mulo((vec_short8)(a),
 1.1  mrg 			   vec_splat((vec_short8)(si_from_short(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_mpyui(qword a, unsigned short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_mulo((vec_ushort8)(a),
 1.1  mrg 			   vec_splat((vec_ushort8)(si_from_ushort(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Multiply and Shift Right
 1.1  mrg  */
 1.1  mrg static __inline qword si_mpys(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_sra(vec_mulo((vec_short8)(a), (vec_short8)(b)), ((vec_uint4){16,16,16,16}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Nand
 1.1  mrg  */
 1.1  mrg static __inline qword si_nand(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 d;
 1.1  mrg
 1.1  mrg   d = vec_and((vec_uchar16)(a), (vec_uchar16)(b));
 1.1  mrg   return ((qword)(vec_nor(d, d)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Negative Multiply Add
 1.1  mrg  */
 1.1  mrg static __inline qword si_dfnma(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } aa, bb, cc, dd;
 1.1  mrg
 1.1  mrg   aa.v = (vec_double2)(a);
 1.1  mrg   bb.v = (vec_double2)(b);
 1.1  mrg   cc.v = (vec_double2)(c);
 1.1  mrg   dd.d[0] = -cc.d[0] - aa.d[0] * bb.d[0];
 1.1  mrg   dd.d[1] = -cc.d[1] - aa.d[1] * bb.d[1];
 1.1  mrg   return ((qword)(dd.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Negative Multiply and Subtract
 1.1  mrg  */
 1.1  mrg static __inline qword si_fnms(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_nmsub((vec_float4)(a), (vec_float4)(b), (vec_float4)(c))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfnms(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } aa, bb, cc, dd;
 1.1  mrg
 1.1  mrg   aa.v = (vec_double2)(a);
 1.1  mrg   bb.v = (vec_double2)(b);
 1.1  mrg   cc.v = (vec_double2)(c);
 1.1  mrg   dd.d[0] = cc.d[0] - aa.d[0] * bb.d[0];
 1.1  mrg   dd.d[1] = cc.d[1] - aa.d[1] * bb.d[1];
 1.1  mrg   return ((qword)(dd.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Nor
 1.1  mrg  */
 1.1  mrg static __inline qword si_nor(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_nor((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Or
 1.1  mrg  */
 1.1  mrg static __inline qword si_or(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_or((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_orbi(qword a, unsigned char b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_or((vec_uchar16)(a),
 1.1  mrg 			 vec_splat((vec_uchar16)(si_from_uchar(b)), 3))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_orhi(qword a, unsigned short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_or((vec_ushort8)(a),
 1.1  mrg 			  vec_splat((vec_ushort8)(si_from_ushort(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ori(qword a, unsigned int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_or((vec_uint4)(a),
 1.1  mrg 			  vec_splat((vec_uint4)(si_from_uint(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Or Complement
 1.1  mrg  */
 1.1  mrg static __inline qword si_orc(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_or((vec_uchar16)(a), vec_nor((vec_uchar16)(b), (vec_uchar16)(b)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Or Across
 1.1  mrg  */
 1.1  mrg static __inline qword si_orx(qword a)
 1.1  mrg {
 1.1  mrg   vec_uchar16 tmp;
 1.1  mrg   tmp = (vec_uchar16)(a);
 1.1  mrg   tmp = vec_or(tmp, vec_sld(tmp, tmp, 8));
 1.1  mrg   tmp = vec_or(tmp, vec_sld(tmp, tmp, 4));
 1.1  mrg   return ((qword)(vec_and(tmp, ((vec_uchar16){0xFF,0xFF,0xFF,0xFF, 0x00,0x00,0x00,0x00,
 1.1  mrg 				              0x00,0x00,0x00,0x00, 0x00,0x00,0x00,0x00}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Estimates
 1.1  mrg  */
 1.1  mrg static __inline qword si_frest(qword a)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_re((vec_float4)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_frsqest(qword a)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_rsqrte((vec_float4)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg #define si_fi(_a, _d)		(_d)
 1.1  mrg
 1.1  mrg /* Channel Read and Write
 1.1  mrg  */
 1.1  mrg #define si_rdch(_channel)		((qword)(vec_splat_u8(0)))	/* not mappable */
 1.1  mrg #define si_rchcnt(_channel)		((qword)(vec_splat_u8(0)))	/* not mappable */
 1.1  mrg #define si_wrch(_channel, _a)		/* not mappable */
 1.1  mrg
 1.1  mrg /* Rotate Left
 1.1  mrg  */
 1.1  mrg static __inline qword si_roth(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_rl((vec_ushort8)(a), (vec_ushort8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rot(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_rl((vec_uint4)(a), (vec_uint4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rothi(qword a, int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_rl((vec_ushort8)(a),
 1.1  mrg 			 vec_splat((vec_ushort8)(si_from_int(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_roti(qword a, int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_rl((vec_uint4)(a),
 1.1  mrg 			 vec_splat((vec_uint4)(si_from_int(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Rotate Left with Mask
 1.1  mrg  */
 1.1  mrg static __inline qword si_rothm(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 neg_b;
 1.1  mrg   vec_ushort8 mask;
 1.1  mrg
 1.1  mrg   neg_b = (vec_ushort8)vec_sub(vec_splat_s16(0), (vec_short8)(b));
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, vec_splat_u16(11)), vec_splat_u16(15));
 1.1  mrg   return ((qword)(vec_andc(vec_sr((vec_ushort8)(a), neg_b), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rotm(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uint4 neg_b;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   neg_b = (vec_uint4)vec_sub(vec_splat_s32(0), (vec_int4)(b));
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, ((vec_uint4){26,26,26,26})), ((vec_uint4){31,31,31,31}));
 1.1  mrg   return ((qword)(vec_andc(vec_sr((vec_uint4)(a), neg_b), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rothmi(qword a, int b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 neg_b;
 1.1  mrg   vec_ushort8 mask;
 1.1  mrg
 1.1  mrg   neg_b = vec_splat((vec_ushort8)(si_from_int(-b)), 1);
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, vec_splat_u16(11)), vec_splat_u16(15));
 1.1  mrg   return ((qword)(vec_andc(vec_sr((vec_ushort8)(a), neg_b), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rotmi(qword a, int b)
 1.1  mrg {
 1.1  mrg   vec_uint4 neg_b;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   neg_b = vec_splat((vec_uint4)(si_from_int(-b)), 0);
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, ((vec_uint4){26,26,26,26})), ((vec_uint4){31,31,31,31}));
 1.1  mrg   return ((qword)(vec_andc(vec_sr((vec_uint4)(a), neg_b), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Rotate Left Algebraic with Mask
 1.1  mrg  */
 1.1  mrg static __inline qword si_rotmah(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 neg_b;
 1.1  mrg   vec_ushort8 mask;
 1.1  mrg
 1.1  mrg   neg_b = (vec_ushort8)vec_sub(vec_splat_s16(0), (vec_short8)(b));
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, vec_splat_u16(11)), vec_splat_u16(15));
 1.1  mrg   return ((qword)(vec_sra((vec_short8)(a), (vec_ushort8)vec_or(neg_b, mask))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rotma(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uint4 neg_b;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   neg_b = (vec_uint4)vec_sub(vec_splat_s32(0), (vec_int4)(b));
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, ((vec_uint4){26,26,26,26})), ((vec_uint4){31,31,31,31}));
 1.1  mrg   return ((qword)(vec_sra((vec_int4)(a), (vec_uint4)vec_or(neg_b, mask))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_rotmahi(qword a, int b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 neg_b;
 1.1  mrg   vec_ushort8 mask;
 1.1  mrg
 1.1  mrg   neg_b = vec_splat((vec_ushort8)(si_from_int(-b)), 1);
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, vec_splat_u16(11)), vec_splat_u16(15));
 1.1  mrg   return ((qword)(vec_sra((vec_short8)(a), (vec_ushort8)vec_or(neg_b, mask))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rotmai(qword a, int b)
 1.1  mrg {
 1.1  mrg   vec_uint4 neg_b;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   neg_b = vec_splat((vec_uint4)(si_from_int(-b)), 0);
 1.1  mrg   mask = vec_sra(vec_sl(neg_b, ((vec_uint4){26,26,26,26})), ((vec_uint4){31,31,31,31}));
 1.1  mrg   return ((qword)(vec_sra((vec_int4)(a), (vec_uint4)vec_or(neg_b, mask))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Rotate Left Quadword by Bytes with Mask
 1.1  mrg  */
 1.1  mrg static __inline qword si_rotqmbyi(qword a, int count)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg   vec_uchar16 mask;
 1.1  mrg
 1.1  mrg   count = 0 - count;
 1.1  mrg   x.i[3] = count << 3;
 1.1  mrg   mask = (count & 0x10) ? vec_splat_u8(0) : vec_splat_u8(-1);
 1.1  mrg
 1.1  mrg   return ((qword)(vec_and(vec_sro((vec_uchar16)(a), x.v), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_rotqmby(qword a, qword count)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg   int cnt;
 1.1  mrg   vec_uchar16 mask;
 1.1  mrg
 1.1  mrg   x.v = (vec_uchar16)(count);
 1.1  mrg   x.i[0] = cnt = (0 - x.i[0]) << 3;
 1.1  mrg
 1.1  mrg   x.v = vec_splat(x.v, 3);
 1.1  mrg   mask = (cnt & 0x80) ? vec_splat_u8(0) : vec_splat_u8(-1);
 1.1  mrg
 1.1  mrg   return ((qword)(vec_and(vec_sro((vec_uchar16)(a), x.v), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Rotate Left Quadword by Bytes
 1.1  mrg  */
 1.1  mrg static __inline qword si_rotqbyi(qword a, int count)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } left, right;
 1.1  mrg
 1.1  mrg   count <<= 3;
 1.1  mrg   left.i[3] = count;
 1.1  mrg   right.i[3] = 0 - count;
 1.1  mrg   return ((qword)(vec_or(vec_slo((vec_uchar16)(a), left.v), vec_sro((vec_uchar16)(a), right.v))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rotqby(qword a, qword count)
 1.1  mrg {
 1.1  mrg   vec_uchar16 left, right;
 1.1  mrg
 1.1  mrg   left = vec_sl(vec_splat((vec_uchar16)(count), 3), vec_splat_u8(3));
 1.1  mrg   right = vec_sub(vec_splat_u8(0), left);
 1.1  mrg   return ((qword)(vec_or(vec_slo((vec_uchar16)(a), left), vec_sro((vec_uchar16)(a), right))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Rotate Left Quadword by Bytes Bit Count
 1.1  mrg  */
 1.1  mrg static __inline qword si_rotqbybi(qword a, qword count)
 1.1  mrg {
 1.1  mrg   vec_uchar16 left, right;
 1.1  mrg
 1.1  mrg   left = vec_splat((vec_uchar16)(count), 3);
 1.1  mrg   right = vec_sub(vec_splat_u8(7), left);
 1.1  mrg   return ((qword)(vec_or(vec_slo((vec_uchar16)(a), left), vec_sro((vec_uchar16)(a), right))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Rotate Left Quadword by Bytes Bit Count
 1.1  mrg  */
 1.1  mrg static __inline qword si_rotqbii(qword a, int count)
 1.1  mrg {
 1.1  mrg   vec_uchar16 x, y;
 1.1  mrg   vec_uchar16 result;
 1.1  mrg
 1.1  mrg   x = vec_splat((vec_uchar16)(si_from_int(count & 7)), 3);
 1.1  mrg   y = (vec_uchar16)(vec_sr((vec_uint4)vec_sro((vec_uchar16)(a), ((vec_uchar16)((vec_uint4){0,0,0,120}))),
 1.1  mrg 			   (vec_uint4)vec_sub(vec_splat_u8(8), x)));
 1.1  mrg   result = vec_or(vec_sll((qword)(a), x), y);
 1.1  mrg   return ((qword)(result));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rotqbi(qword a, qword count)
 1.1  mrg {
 1.1  mrg   vec_uchar16 x, y;
 1.1  mrg   vec_uchar16 result;
 1.1  mrg
 1.1  mrg   x = vec_and(vec_splat((vec_uchar16)(count), 3), vec_splat_u8(7));
 1.1  mrg   y = (vec_uchar16)(vec_sr((vec_uint4)vec_sro((vec_uchar16)(a), ((vec_uchar16)((vec_uint4){0,0,0,120}))),
 1.1  mrg 			   (vec_uint4)vec_sub(vec_splat_u8(8), x)));
 1.1  mrg
 1.1  mrg   result = vec_or(vec_sll((qword)(a), x), y);
 1.1  mrg   return ((qword)(result));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Rotate Left Quadword and Mask by Bits
 1.1  mrg  */
 1.1  mrg static __inline qword si_rotqmbii(qword a, int count)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_srl((vec_uchar16)(a), vec_splat((vec_uchar16)(si_from_int(0 - count)), 3))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_rotqmbi(qword a, qword count)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_srl((vec_uchar16)(a), vec_sub(vec_splat_u8(0), vec_splat((vec_uchar16)(count), 3)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Rotate Left Quadword and Mask by Bytes with Bit Count
 1.1  mrg  */
 1.1  mrg static __inline qword si_rotqmbybi(qword a, qword count)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg   int cnt;
 1.1  mrg   vec_uchar16 mask;
 1.1  mrg
 1.1  mrg   x.v = (vec_uchar16)(count);
 1.1  mrg   x.i[0] = cnt = 0 - (x.i[0] & ~7);
 1.1  mrg   x.v = vec_splat(x.v, 3);
 1.1  mrg   mask = (cnt & 0x80) ? vec_splat_u8(0) : vec_splat_u8(-1);
 1.1  mrg
 1.1  mrg   return ((qword)(vec_and(vec_sro((vec_uchar16)(a), x.v), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Round Double to Float
 1.1  mrg  */
 1.1  mrg static __inline qword si_frds(qword a)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_float4 v;
 1.1  mrg     float f[4];
 1.1  mrg   } d;
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } in;
 1.1  mrg
 1.1  mrg   in.v = (vec_double2)(a);
 1.1  mrg   d.v = (vec_float4){0.0f};
 1.1  mrg   d.f[0] = (float)in.d[0];
 1.1  mrg   d.f[2] = (float)in.d[1];
 1.1  mrg
 1.1  mrg   return ((qword)(d.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Select Bits
 1.1  mrg  */
 1.1  mrg static __inline qword si_selb(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_sel((vec_uchar16)(a), (vec_uchar16)(b), (vec_uchar16)(c))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Shuffle Bytes
 1.1  mrg  */
 1.1  mrg static __inline qword si_shufb(qword a, qword b, qword pattern)
 1.1  mrg {
 1.1  mrg   vec_uchar16 pat;
 1.1  mrg
 1.1  mrg   pat = vec_sel(((vec_uchar16){0, 1, 2, 3, 4, 5, 6, 7, 8, 9,10,11,12,13,14,15}),
 1.1  mrg 		vec_sr((vec_uchar16)(pattern), vec_splat_u8(3)),
 1.1  mrg 		vec_sra((vec_uchar16)(pattern), vec_splat_u8(7)));
 1.1  mrg   return ((qword)(vec_perm(vec_perm(a, b, pattern),
 1.1  mrg 			   ((vec_uchar16){0, 0, 0, 0, 0, 0, 0, 0,
 1.1  mrg 				          0xFF, 0xFF, 0xFF, 0xFF, 0x80, 0x80, 0x80, 0x80}),
 1.1  mrg 			   pat)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Shift Left
 1.1  mrg  */
 1.1  mrg static __inline qword si_shlh(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 mask;
 1.1  mrg
 1.1  mrg   mask = (vec_ushort8)vec_sra(vec_sl((vec_ushort8)(b), vec_splat_u16(11)), vec_splat_u16(15));
 1.1  mrg   return ((qword)(vec_andc(vec_sl((vec_ushort8)(a), (vec_ushort8)(b)), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_shl(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   mask = (vec_uint4)vec_sra(vec_sl((vec_uint4)(b), ((vec_uint4){26,26,26,26})), ((vec_uint4){31,31,31,31}));
 1.1  mrg   return ((qword)(vec_andc(vec_sl((vec_uint4)(a), (vec_uint4)(b)), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_shlhi(qword a, unsigned int b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 mask;
 1.1  mrg   vec_ushort8 bv;
 1.1  mrg
 1.1  mrg   bv = vec_splat((vec_ushort8)(si_from_int(b)), 1);
 1.1  mrg   mask = (vec_ushort8)vec_sra(vec_sl(bv, vec_splat_u16(11)), vec_splat_u16(15));
 1.1  mrg   return ((qword)(vec_andc(vec_sl((vec_ushort8)(a), bv), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_shli(qword a, unsigned int b)
 1.1  mrg {
 1.1  mrg   vec_uint4 bv;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   bv = vec_splat((vec_uint4)(si_from_uint(b)), 0);
 1.1  mrg   mask = (vec_uint4)vec_sra(vec_sl(bv, ((vec_uint4){26,26,26,26})), ((vec_uint4){31,31,31,31}));
 1.1  mrg   return ((qword)(vec_andc(vec_sl((vec_uint4)(a), bv), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Shift Left Quadword
 1.1  mrg  */
 1.1  mrg static __inline qword si_shlqbii(qword a, unsigned int count)
 1.1  mrg {
 1.1  mrg   vec_uchar16 x;
 1.1  mrg
 1.1  mrg   x = vec_splat((vec_uchar16)(si_from_uint(count)), 3);
 1.1  mrg   return ((qword)(vec_sll((vec_uchar16)(a), x)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_shlqbi(qword a, qword count)
 1.1  mrg {
 1.1  mrg   vec_uchar16 x;
 1.1  mrg
 1.1  mrg   x = vec_splat((vec_uchar16)(count), 3);
 1.1  mrg   return ((qword)(vec_sll((vec_uchar16)(a), x)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Shift Left Quadword by Bytes
 1.1  mrg  */
 1.1  mrg static __inline qword si_shlqbyi(qword a, unsigned int count)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg   vec_uchar16 mask;
 1.1  mrg
 1.1  mrg   x.i[3] = count << 3;
 1.1  mrg   mask = (count & 0x10) ? vec_splat_u8(0) : vec_splat_u8(-1);
 1.1  mrg   return ((qword)(vec_and(vec_slo((vec_uchar16)(a), x.v), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_shlqby(qword a, qword count)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } x;
 1.1  mrg   unsigned int cnt;
 1.1  mrg   vec_uchar16 mask;
 1.1  mrg
 1.1  mrg   x.v = vec_sl(vec_splat((vec_uchar16)(count), 3), vec_splat_u8(3));
 1.1  mrg   cnt = x.i[0];
 1.1  mrg   mask = (cnt & 0x80) ? vec_splat_u8(0) : vec_splat_u8(-1);
 1.1  mrg   return ((qword)(vec_and(vec_slo((vec_uchar16)(a), x.v), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Shift Left Quadword by Bytes with Bit Count
 1.1  mrg  */
 1.1  mrg static __inline qword si_shlqbybi(qword a, qword count)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uchar16 v;
 1.1  mrg     int i[4];
 1.1  mrg   } x;
 1.1  mrg   unsigned int cnt;
 1.1  mrg   vec_uchar16 mask;
 1.1  mrg
 1.1  mrg   x.v = vec_splat((vec_uchar16)(count), 3);
 1.1  mrg   cnt = x.i[0];
 1.1  mrg   mask = (cnt & 0x80) ? vec_splat_u8(0) : vec_splat_u8(-1);
 1.1  mrg   return ((qword)(vec_and(vec_slo((vec_uchar16)(a), x.v), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Stop and Signal
 1.1  mrg  */
 1.1  mrg #define si_stop(_type)		SPU_STOP_ACTION
 1.1  mrg #define si_stopd(a, b, c)	SPU_STOP_ACTION
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Subtract
 1.1  mrg  */
 1.1  mrg static __inline qword si_sfh(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_sub((vec_ushort8)(b), (vec_ushort8)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_sf(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_sub((vec_uint4)(b), (vec_uint4)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_fs(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_sub((vec_float4)(a), (vec_float4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_dfs(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_double2 v;
 1.1  mrg     double d[2];
 1.1  mrg   } aa, bb, dd;
 1.1  mrg
 1.1  mrg   aa.v = (vec_double2)(a);
 1.1  mrg   bb.v = (vec_double2)(b);
 1.1  mrg   dd.d[0] = aa.d[0] - bb.d[0];
 1.1  mrg   dd.d[1] = aa.d[1] - bb.d[1];
 1.1  mrg   return ((qword)(dd.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_sfhi(qword a, short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_sub(vec_splat((vec_short8)(si_from_short(b)), 1),
 1.1  mrg 			  (vec_short8)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_sfi(qword a, int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_sub(vec_splat((vec_int4)(si_from_int(b)), 0),
 1.1  mrg 			  (vec_int4)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Subtract word extended
 1.1  mrg  */
 1.1  mrg #define si_sfx(_a, _b, _c)	((qword)(vec_add(vec_add((vec_uint4)(_b), 				\
 1.1  mrg 							 vec_nor((vec_uint4)(_a), (vec_uint4)(_a))), 	\
 1.1  mrg 						 vec_and((vec_uint4)(_c), vec_splat_u32(1)))))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Sum Bytes into Shorts
 1.1  mrg  */
 1.1  mrg static __inline qword si_sumb(qword a, qword b)
 1.1  mrg {
 1.1  mrg   vec_uint4 zero = (vec_uint4){0};
 1.1  mrg   vec_ushort8 sum_a, sum_b;
 1.1  mrg
 1.1  mrg   sum_a = (vec_ushort8)vec_sum4s((vec_uchar16)(a), zero);
 1.1  mrg   sum_b = (vec_ushort8)vec_sum4s((vec_uchar16)(b), zero);
 1.1  mrg
 1.1  mrg   return ((qword)(vec_perm(sum_a, sum_b, ((vec_uchar16){18, 19,  2,  3, 22, 23,  6,  7,
 1.1  mrg 					                26, 27, 10, 11, 30, 31, 14, 15}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* Exclusive OR
 1.1  mrg  */
 1.1  mrg static __inline qword si_xor(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_xor((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_xorbi(qword a, unsigned char b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_xor((vec_uchar16)(a),
 1.1  mrg 			  vec_splat((vec_uchar16)(si_from_uchar(b)), 3))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_xorhi(qword a, unsigned short b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_xor((vec_ushort8)(a),
 1.1  mrg 			  vec_splat((vec_ushort8)(si_from_ushort(b)), 1))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_xori(qword a, unsigned int b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_xor((vec_uint4)(a),
 1.1  mrg 			  vec_splat((vec_uint4)(si_from_uint(b)), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Generate Controls for Sub-Quadword Insertion
 1.1  mrg  */
 1.1  mrg static __inline qword si_cbd(qword a, int imm)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned char c[16];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.c[(si_to_uint(a) + (unsigned int)(imm)) & 0xF] = 0x03;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cdd(qword a, int imm)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned long long ll[2];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.ll[((si_to_uint(a) + (unsigned int)(imm)) >> 3) & 0x1] = 0x0001020304050607ULL;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_chd(qword a, int imm)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned short s[8];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.s[((si_to_uint(a) + (unsigned int)(imm)) >> 1) & 0x7] = 0x0203;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cwd(qword a, int imm)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.i[((si_to_uint(a) + (unsigned int)(imm)) >> 2) & 0x3] = 0x00010203;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cbx(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned char c[16];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.c[si_to_uint((qword)(vec_add((vec_uint4)(a), (vec_uint4)(b)))) & 0xF] = 0x03;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_cdx(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned long long ll[2];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.ll[(si_to_uint((qword)(vec_add((vec_uint4)(a), (vec_uint4)(b)))) >> 3) & 0x1] = 0x0001020304050607ULL;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_chx(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned short s[8];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.s[(si_to_uint((qword)(vec_add((vec_uint4)(a), (vec_uint4)(b)))) >> 1) & 0x7] = 0x0203;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_cwx(qword a, qword b)
 1.1  mrg {
 1.1  mrg   union {
 1.1  mrg     vec_uint4 v;
 1.1  mrg     unsigned int i[4];
 1.1  mrg   } shmask;
 1.1  mrg
 1.1  mrg   shmask.v = ((vec_uint4){0x10111213, 0x14151617, 0x18191A1B, 0x1C1D1E1F});
 1.1  mrg   shmask.i[(si_to_uint((qword)(vec_add((vec_uint4)(a), (vec_uint4)(b)))) >> 2) & 0x3] = 0x00010203;
 1.1  mrg   return ((qword)(shmask.v));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Constant Formation
 1.1  mrg  */
 1.1  mrg static __inline qword si_il(signed short imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_splat((vec_int4)(si_from_int((signed int)(imm))), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static __inline qword si_ila(unsigned int imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_splat((vec_uint4)(si_from_uint(imm)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ilh(signed short imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_splat((vec_short8)(si_from_short(imm)), 1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_ilhu(signed short imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_splat((vec_uint4)(si_from_uint((unsigned int)(imm) << 16)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_iohl(qword a, unsigned short imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_or((vec_uint4)(a), vec_splat((vec_uint4)(si_from_uint((unsigned int)(imm))), 0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* No Operation
 1.1  mrg  */
 1.1  mrg #define si_lnop()		/* do nothing */
 1.1  mrg #define si_nop()		/* do nothing */
 1.1  mrg
 1.1  mrg
 1.1  mrg /* Memory Load and Store
 1.1  mrg  */
 1.1  mrg static __inline qword si_lqa(unsigned int imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_ld(0, (vector unsigned char *)(imm))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_lqd(qword a, unsigned int imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_ld(si_to_uint(a) & ~0xF, (vector unsigned char *)(imm))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_lqr(unsigned int imm)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_ld(0, (vector unsigned char *)(imm))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline qword si_lqx(qword a, qword b)
 1.1  mrg {
 1.1  mrg   return ((qword)(vec_ld(si_to_uint((qword)(vec_add((vec_uint4)(a), (vec_uint4)(b)))), (vector unsigned char *)(0))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_stqa(qword a, unsigned int imm)
 1.1  mrg {
 1.1  mrg   vec_st((vec_uchar16)(a), 0, (vector unsigned char *)(imm));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_stqd(qword a, qword b, unsigned int imm)
 1.1  mrg {
 1.1  mrg   vec_st((vec_uchar16)(a), si_to_uint(b) & ~0xF, (vector unsigned char *)(imm));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_stqr(qword a, unsigned int imm)
 1.1  mrg {
 1.1  mrg   vec_st((vec_uchar16)(a), 0, (vector unsigned char *)(imm));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static __inline void si_stqx(qword a, qword b, qword c)
 1.1  mrg {
 1.1  mrg   vec_st((vec_uchar16)(a),
 1.1  mrg 	 si_to_uint((qword)(vec_add((vec_uint4)(b), (vec_uint4)(c)))),
 1.1  mrg 	 (vector unsigned char *)(0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg #endif /* !__SPU__ */
 1.1  mrg #endif /* !_SI2VMX_H_ */
 1.1  mrg