config/spu/vmx2spu.h

1.10  mrg /* Copyright (C) 2006-2019 Free Software Foundation, Inc.
 1.1  mrg
 1.1  mrg    This file is free software; you can redistribute it and/or modify it under
 1.1  mrg    the terms of the GNU General Public License as published by the Free
 1.1  mrg    Software Foundation; either version 3 of the License, or (at your option)
 1.1  mrg    any later version.
 1.1  mrg
 1.1  mrg    This file is distributed in the hope that it will be useful, but WITHOUT
 1.1  mrg    ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 1.1  mrg    FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
 1.1  mrg    for more details.
 1.1  mrg
 1.1  mrg    Under Section 7 of GPL version 3, you are granted additional
 1.1  mrg    permissions described in the GCC Runtime Library Exception, version
 1.1  mrg    3.1, as published by the Free Software Foundation.
 1.1  mrg
 1.1  mrg    You should have received a copy of the GNU General Public License and
 1.1  mrg    a copy of the GCC Runtime Library Exception along with this program;
 1.1  mrg    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
 1.1  mrg    <http://www.gnu.org/licenses/>.  */
 1.1  mrg
 1.1  mrg #ifndef _VMX2SPU_H_
 1.1  mrg #define _VMX2SPU_H_	1
 1.1  mrg
 1.1  mrg #ifdef __cplusplus
 1.1  mrg
 1.1  mrg #ifdef __SPU__
 1.1  mrg
 1.1  mrg #include <spu_intrinsics.h>
 1.1  mrg #include <vec_types.h>
 1.1  mrg
 1.1  mrg /* This file maps generic VMX intrinsics and predicates to the SPU using
 1.1  mrg  * overloaded C++ functions.
 1.1  mrg  */
 1.1  mrg
 1.1  mrg /************************************************************************
 1.1  mrg  *                        INTRINSICS
 1.1  mrg  ************************************************************************/
 1.1  mrg
 1.1  mrg /* vec_abs (vector absolute value)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_char16 vec_abs(vec_char16 a)
 1.1  mrg {
 1.1  mrg   vec_char16 minus_a;
 1.1  mrg
 1.1  mrg   minus_a = (vec_char16)(spu_add((vec_ushort8)(spu_and(spu_xor(a, 0xFF), 0x7F)), 0x101));
 1.1  mrg   return (spu_sel(minus_a, a, spu_cmpgt(a, -1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_abs(vec_short8 a)
 1.1  mrg {
 1.1  mrg   return (spu_sel(spu_sub(0, a), a, spu_cmpgt(a, -1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_abs(vec_int4 a)
 1.1  mrg {
 1.1  mrg   return (spu_sel(spu_sub(0, a), a, spu_cmpgt(a, -1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_abs(vec_float4 a)
 1.1  mrg {
 1.1  mrg   return ((vec_float4)(spu_rlmask(spu_sl((vec_uint4)(a), 1), -1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_abss (vector absolute value saturate)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_char16 vec_abss(vec_char16 a)
 1.1  mrg {
 1.1  mrg   vec_char16 minus_a;
 1.1  mrg
 1.1  mrg   minus_a = (vec_char16)spu_add((vec_short8)(spu_xor(a, -1)),
 1.1  mrg 				(vec_short8)(spu_and(spu_cmpgt((vec_uchar16)(a), 0x80), 1)));
 1.1  mrg   return (spu_sel(minus_a, a, spu_cmpgt(a, -1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_abss(vec_short8 a)
 1.1  mrg {
 1.1  mrg   vec_short8 minus_a;
 1.1  mrg
 1.1  mrg   minus_a = spu_add(spu_sub(0, a), (vec_short8)(spu_cmpeq(a, ((vec_short8){0x8000,0x8000,0x8000,0x8000,0x8000,0x8000,0x8000,0x8000}))));
 1.1  mrg   return (spu_sel(minus_a, a, spu_cmpgt(a, -1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_abss(vec_int4 a)
 1.1  mrg {
 1.1  mrg   vec_int4 minus_a;
 1.1  mrg
 1.1  mrg   minus_a = spu_add(spu_sub(0, a), (vec_int4)(spu_cmpeq(a, ((vec_int4){0x80000000,0x80000000,0x80000000,0x80000000}))));
 1.1  mrg   return (spu_sel(minus_a, a, spu_cmpgt(a, -1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_add (vector add)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_add(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_uchar16)(spu_sel(spu_add((vec_ushort8)(a), (vec_ushort8)(b)),
 1.1  mrg 				spu_add(spu_and((vec_ushort8)(a), 0xFF00), spu_and((vec_ushort8)(b), 0xFF00)),
 1.1  mrg 				spu_splats((unsigned short)(0xFF00)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_add(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)vec_add((vec_uchar16)(a), (vec_uchar16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_add(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)vec_add((vec_uchar16)(a), (vec_uchar16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_add(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)vec_add((vec_uchar16)(a), (vec_uchar16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_add(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_add(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_add(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_add((vec_short8)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_add(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_add(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_add(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_add(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_add((vec_int4)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_add(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_add(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_addc (vector add carryout unsigned word)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg #define vec_addc(_a, _b)	spu_genc(_a, _b)
 1.1  mrg
 1.1  mrg /* vec_adds (vector add saturated)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_adds(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 s1, s2, s, d;
 1.1  mrg
 1.1  mrg   s1 = (vec_uchar16)(spu_add(spu_rlmask((vec_ushort8)(a), -8), spu_rlmask((vec_ushort8)(b), -8)));
 1.1  mrg   s2 = (vec_uchar16)(spu_add(spu_and((vec_ushort8)(a), 0xFF), spu_and((vec_ushort8)(b), 0xFF)));
 1.1  mrg   s  = spu_shuffle(s1, s2, ((vec_uchar16){0, 16,  2, 18,  4, 20,  6, 22,
 1.1  mrg 				          8, 24, 10, 26, 12, 28, 14, 30}));
 1.1  mrg   d  = spu_shuffle(s1, s2, ((vec_uchar16){1, 17,  3, 19,  5, 21,  7, 23,
 1.1  mrg 				          9, 25, 11, 27, 13, 29, 15, 31}));
 1.1  mrg   return (spu_or(d, spu_cmpeq(s, 1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_adds(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 s1, s2, s, d;
 1.1  mrg
 1.1  mrg   s1 = (vec_uchar16)(spu_add(spu_rlmask((vec_ushort8)(a), -8), spu_rlmask((vec_ushort8)(b), -8)));
 1.1  mrg   s2 = (vec_uchar16)(spu_add(spu_and((vec_ushort8)(a), 0xFF), spu_and((vec_ushort8)(b), 0xFF)));
 1.1  mrg   s  = spu_shuffle(s1, s2, ((vec_uchar16){1, 17,  3, 19,  5, 21,  7, 23,
 1.1  mrg 				          9, 25, 11, 27, 13, 29, 15, 31}));
 1.1  mrg   d = spu_sel(s, spu_splats((unsigned char)0x7F), spu_cmpgt(spu_and(s, (vec_uchar16)(spu_nor(a, b))), 0x7F));
 1.1  mrg   d = spu_sel(d, spu_splats((unsigned char)0x80), spu_cmpgt(spu_nor(s, (vec_uchar16)(spu_nand(a, b))), 0x7F));
 1.1  mrg   return ((vec_char16)(d));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_adds(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (vec_adds((vec_char16)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_adds(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (vec_adds(a, (vec_char16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_adds(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 s, d;
 1.1  mrg
 1.1  mrg   s = spu_add(a, b);
 1.1  mrg   d = spu_or(s, spu_rlmaska(spu_sel(spu_xor(s, -1), a, spu_eqv(a, b)), -15));
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_adds(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   vec_short8 s, d;
 1.1  mrg
 1.1  mrg   s = spu_add(a, b);
 1.1  mrg   d = spu_sel(s, spu_splats((signed short)0x7FFF), (vec_ushort8)(spu_rlmaska(spu_and(s, spu_nor(a, b)), -15)));
 1.1  mrg   d = spu_sel(d, spu_splats((signed short)0x8000), (vec_ushort8)(spu_rlmaska(spu_nor(s, spu_nand(a, b)), -15)));
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_adds(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (vec_adds((vec_short8)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_adds(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (vec_adds(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_adds(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(spu_add(a, b), spu_rlmaska(spu_sl(spu_genc(a, b), 31), -31)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_adds(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 s, d;
 1.1  mrg
 1.1  mrg   s = spu_add(a, b);
 1.1  mrg   d = spu_sel(s, spu_splats((signed int)0x7FFFFFFF), (vec_uint4)spu_rlmaska(spu_and(s, spu_nor(a, b)), -31));
 1.1  mrg   d = spu_sel(d, spu_splats((signed int)0x80000000), (vec_uint4)spu_rlmaska(spu_nor(s, spu_nand(a, b)), -31));
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_adds(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (vec_adds((vec_int4)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_adds(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (vec_adds(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_and (vector logical and)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_and(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_and(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_and(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_and((vec_char16)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_and(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, (vec_char16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_and(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_and(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_and(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_and((vec_short8)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_and(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_and(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_and(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_and(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_and((vec_int4)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_and(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_and(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_and(vec_bint4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_and((vec_float4)(a),b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_and(vec_float4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_and(a, (vec_float4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_andc (vector logical and with complement)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_andc(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_andc(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_andc(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc((vec_char16)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_andc(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, (vec_char16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_andc(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_andc(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_andc(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc((vec_short8)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_andc(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_andc(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_andc(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_andc(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc((vec_int4)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_andc(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_andc(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a,b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_andc(vec_bint4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc((vec_float4)(a),b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_andc(vec_float4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(a, (vec_float4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_avg (vector average)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_avg(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_avg(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_avg(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(spu_xor(spu_avg((vec_uchar16)(a), (vec_uchar16)(b)),
 1.1  mrg 			       (vec_uchar16)(spu_and(spu_xor(a,b), 0x80)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_avg(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(spu_add(spu_rlmask(a, -1), spu_rlmask(b, -1)),
 1.1  mrg 		  spu_and(spu_or(a, b), 1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_avg(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(spu_add(spu_rlmaska(a, -1), spu_rlmaska(b, -1)),
 1.1  mrg 		  spu_and(spu_or(a, b), 1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_avg(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(spu_add(spu_rlmask(a, -1), spu_rlmask(b, -1)),
 1.1  mrg 		  spu_and(spu_or(a, b), 1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_avg(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_add(spu_add(spu_rlmaska(a, -1), spu_rlmaska(b, -1)),
 1.1  mrg 		  spu_and(spu_or(a, b), 1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_ceil (vector ceiling)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_float4 vec_ceil(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_int4  exp;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   a = spu_add(a, (vec_float4)(spu_and(spu_xor(spu_rlmaska((vec_int4)a, -31), -1), spu_splats((signed int)0x3F7FFFFF))));
 1.1  mrg   exp = spu_sub(127, (vec_int4)(spu_and(spu_rlmask((vec_uint4)(a), -23), 0xFF)));
 1.1  mrg   mask = spu_rlmask(spu_splats((unsigned int)0x7FFFFF), exp);
 1.1  mrg   mask = spu_sel(spu_splats((unsigned int)0), mask, spu_cmpgt(exp, -31));
 1.1  mrg   mask = spu_or(mask, spu_xor((vec_uint4)(spu_rlmaska(spu_add(exp, -1), -31)), -1));
 1.1  mrg
 1.1  mrg   return ((vec_float4)(spu_andc((vec_uint4)(a), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_cmpb (vector compare bounds floating-point)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_int4 vec_cmpb(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 b0 = (vec_int4)spu_splats(0x80000000);
 1.1  mrg   vec_int4 b1 = (vec_int4)spu_splats(0x40000000);
 1.1  mrg
 1.1  mrg   return (spu_or(spu_and((vec_int4)spu_cmpgt(a, b), b0),
 1.1  mrg 		 spu_and((vec_int4)spu_cmpgt(spu_xor(b, (vec_float4)(b0)), a), b1)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_cmpeq (vector compare equal)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_cmpeq(_a, _b)	spu_cmpeq(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_cmpge (vector compare greater than or equal)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_bint4 vec_cmpge(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(spu_cmpgt(b, a), -1));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_cmpgt (vector compare greater than)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_cmpgt(_a, _b)	spu_cmpgt(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_cmple (vector compare less than or equal)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_bint4 vec_cmple(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(spu_cmpgt(a, b), -1));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_cmplt (vector compare less than)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_cmplt(_a, _b)	spu_cmpgt(_b, _a)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_ctf (vector convert from fixed-point word)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_ctf(_a, _b)		spu_convtf(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_cts (vector convert to signed fixed-point word saturate)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_cts(_a, _b)		spu_convts(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_ctu (vector convert to unsigned fixed-point word saturate)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_ctu(_a, _b)		spu_convtu(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_dss (vector data stream stop)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_dss(_a)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_dssall (vector data stream stop all)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_dssall()
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_dst (vector data stream touch)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_dst(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_dstst (vector data stream touch for store)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_dstst(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_dststt (vector data stream touch for store transient)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_dststt(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_dstt (vector data stream touch transient)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg #define vec_dstt(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_expte (vector is 2 raised tp the exponent estimate floating-point)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_float4 vec_expte(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_float4 bias, frac, exp;
 1.1  mrg   vec_int4 ia;
 1.1  mrg
 1.1  mrg   bias = (vec_float4)(spu_andc(spu_splats((signed int)0x3F7FFFFF), spu_rlmaska((vec_int4)(a), -31)));
 1.1  mrg   ia   = spu_convts(spu_add(a, bias), 0);
 1.1  mrg   frac = spu_sub(spu_convtf(ia, 0), a);
 1.1  mrg   exp  = (vec_float4)(spu_sl(spu_add(ia, 127), 23));
 1.1  mrg
 1.1  mrg   return (spu_mul(spu_madd(spu_madd(spu_splats(0.17157287f), frac, spu_splats(-0.67157287f)),
 1.1  mrg 			   frac, spu_splats(1.0f)), exp));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_floor (vector floor)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_float4 vec_floor(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_int4  exp;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   a = spu_sub(a, (vec_float4)(spu_and(spu_rlmaska((vec_int4)a, -31), spu_splats((signed int)0x3F7FFFFF))));
 1.1  mrg   exp = spu_sub(127, (vec_int4)(spu_and(spu_rlmask((vec_uint4)(a), -23), 0xFF)));
 1.1  mrg   mask = spu_rlmask(spu_splats((unsigned int)0x7FFFFF), exp);
 1.1  mrg   mask = spu_sel(spu_splats((unsigned int)0), mask, spu_cmpgt(exp, -31));
 1.1  mrg   mask = spu_or(mask, spu_xor((vec_uint4)(spu_rlmaska(spu_add(exp, -1), -31)), -1));
 1.1  mrg
 1.1  mrg   return ((vec_float4)(spu_andc((vec_uint4)(a), mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_ld (vector load indexed)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_ld(int a, unsigned char *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_uchar16 *)(b+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_ld(int a, vec_uchar16 *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_uchar16 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_ld(int a, signed char *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_char16 *)(b+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_ld(int a, vec_char16 *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_char16 *)((signed char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_ld(int a, unsigned short *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_ushort8 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_ld(int a, vec_ushort8 *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_ushort8 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_ld(int a, signed short *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_short8 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_ld(int a, vec_short8 *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_short8 *)((signed char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_ld(int a, unsigned int *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_uint4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_ld(int a, vec_uint4 *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_uint4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_ld(int a, signed int *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_int4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_ld(int a, vec_int4 *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_int4 *)((signed char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_ld(int a, float *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_float4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_ld(int a, vec_float4 *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_float4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_lde (vector load element indexed)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_lde(int a, unsigned char *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_uchar16 *)(b+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_lde(int a, signed char *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_char16 *)(b+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_lde(int a, unsigned short *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_ushort8 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_lde(int a, signed short *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_short8 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_lde(int a, unsigned int *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_uint4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_lde(int a, signed int *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_int4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_lde(int a, float *b)
 1.1  mrg {
 1.1  mrg   return (*((vec_float4 *)((unsigned char *)(b)+a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_ldl (vector load indexed LRU)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_ldl(_a, _b)		vec_ld(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_loge (vector log2 estimate floating-point)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_float4 vec_loge(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_int4 exp;
 1.1  mrg   vec_float4 frac;
 1.1  mrg
 1.1  mrg   exp  = spu_add((vec_int4)(spu_and(spu_rlmask((vec_uint4)(a), -23), 0xFF)), -127);
 1.1  mrg   frac = (vec_float4)(spu_sub((vec_int4)(a), spu_sl(exp, 23)));
 1.1  mrg
 1.1  mrg   return (spu_madd(spu_madd(spu_splats(-0.33985f), frac, spu_splats(2.01955f)),
 1.1  mrg 		   frac, spu_sub(spu_convtf(exp, 0), spu_splats(1.6797f))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_lvsl (vector load for shift left)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_lvsl(int a, unsigned char *b)
 1.1  mrg {
 1.1  mrg   return ((vec_uchar16)spu_add((vec_ushort8)(spu_splats((unsigned char)((a + (int)(b)) & 0xF))),
 1.1  mrg 			       ((vec_ushort8){0x0001, 0x0203, 0x0405, 0x0607,
 1.1  mrg 				              0x0809, 0x0A0B, 0x0C0D, 0x0E0F})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsl(int a, signed char *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsl(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsl(int a, unsigned short *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsl(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsl(int a, short *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsl(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsl(int a, unsigned int *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsl(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsl(int a, int *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsl(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsl(int a, float *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsl(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_lvsr (vector load for shift right)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static  inline vec_uchar16 vec_lvsr(int a, unsigned char *b)
 1.1  mrg {
 1.1  mrg   return ((vec_uchar16)(spu_sub(((vec_ushort8){0x1011, 0x1213, 0x1415, 0x1617,
 1.1  mrg 				               0x1819, 0x1A1B, 0x1C1D, 0x1E1F}),
 1.1  mrg 				(vec_ushort8)(spu_splats((unsigned char)((a + (int)(b)) & 0xF))))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsr(int a, signed char *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsr(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsr(int a, unsigned short *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsr(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsr(int a, short *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsr(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsr(int a, unsigned int *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsr(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsr(int a, int *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsr(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvsr(int a, float *b)
 1.1  mrg {
 1.1  mrg   return (vec_lvsr(a, (unsigned char *)b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_madd (vector multiply add)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg #define vec_madd(_a, _b, _c)	spu_madd(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_madds (vector multiply add saturate)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_short8 vec_madds(vec_short8 a, vec_short8 b, vec_short8 c)
 1.1  mrg {
 1.1  mrg   return (vec_adds(c, spu_sel((vec_short8)(spu_sl(spu_mule(a, b), 1)),
 1.1  mrg 			      (vec_short8)(spu_rlmask(spu_mulo(a, b), -15)),
 1.1  mrg 			      ((vec_ushort8){0, 0xFFFF, 0, 0xFFFF, 0, 0xFFFF, 0, 0xFFFF}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_max (vector maximum)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_max(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, a, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_max(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, a, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_max(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, (vec_char16)(a), spu_cmpgt((vec_char16)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_max(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel((vec_char16)(b), a, spu_cmpgt(a, (vec_char16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_max(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, a, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_max(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, a, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_max(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, (vec_short8)(a), spu_cmpgt((vec_short8)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_max(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel((vec_short8)(b), a, spu_cmpgt(a, (vec_short8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_max(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, a, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_max(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, a, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_max(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, (vec_int4)(a), spu_cmpgt((vec_int4)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_max(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel((vec_int4)(b), a, spu_cmpgt(a, (vec_int4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_max(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(b, a, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_mergeh (vector merge high)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_mergeh(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){0, 16, 1, 17, 2, 18, 3, 19,
 1.1  mrg 				           4, 20, 5, 21, 6, 22, 7, 23})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_mergeh(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){0, 16, 1, 17, 2, 18, 3, 19,
 1.1  mrg 				           4, 20, 5, 21, 6, 22, 7, 23})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_mergeh(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){0, 1, 16, 17, 2, 3, 18, 19,
 1.1  mrg 				           4, 5, 20, 21, 6, 7, 22, 23})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_mergeh(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){0, 1, 16, 17, 2, 3, 18, 19,
 1.1  mrg 				           4, 5, 20, 21, 6, 7, 22, 23})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_mergeh(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){0, 1, 2, 3, 16, 17, 18, 19,
 1.1  mrg 				           4, 5, 6, 7, 20, 21, 22, 23})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_mergeh(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){0, 1, 2, 3, 16, 17, 18, 19,
 1.1  mrg 				           4, 5, 6, 7, 20, 21, 22, 23})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_mergeh(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){0, 1, 2, 3, 16, 17, 18, 19,
 1.1  mrg 				           4, 5, 6, 7, 20, 21, 22, 23})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_mergel (vector merge low)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_mergel(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){ 8, 24,  9, 25, 10, 26, 11, 27,
 1.1  mrg 				           12, 28, 13, 29, 14, 30, 15, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_mergel(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){ 8, 24,  9, 25, 10, 26, 11, 27,
 1.1  mrg 				           12, 28, 13, 29, 14, 30, 15, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_mergel(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){ 8,  9, 24, 25, 10, 11, 26, 27,
 1.1  mrg 				           12, 13, 28, 29, 14, 15, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_mergel(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){ 8,  9, 24, 25, 10, 11, 26, 27,
 1.1  mrg 				           12, 13, 28, 29, 14, 15, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_mergel(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){ 8,  9, 10, 11, 24, 25, 26, 27,
 1.1  mrg 				           12, 13, 14, 15, 28, 29, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_mergel(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){ 8,  9, 10, 11, 24, 25, 26, 27,
 1.1  mrg 				           12, 13, 14, 15, 28, 29, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_mergel(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, ((vec_uchar16){ 8,  9, 10, 11, 24, 25, 26, 27,
 1.1  mrg 				           12, 13, 14, 15, 28, 29, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_mfvscr (vector move from vector status and control register)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline vec_ushort8 vec_mfvscr()
 1.1  mrg {
 1.1  mrg   return ((vec_ushort8)spu_splats(0)); 		/* not supported */
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_min (vector minimum)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_min(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, b, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_min(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, b, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_min(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel((vec_char16)(a), b, spu_cmpgt((vec_char16)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_min(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, (vec_char16)(b), spu_cmpgt(a, (vec_char16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_min(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, b, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_min(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, b, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_min(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel((vec_short8)(a), b, spu_cmpgt((vec_short8)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_min(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, (vec_short8)(b), spu_cmpgt(a, (vec_short8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_min(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, b, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_min(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, b, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_min(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel((vec_int4)(a), b, spu_cmpgt((vec_int4)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_min(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, (vec_int4)(b), spu_cmpgt(a, (vec_int4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_min(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sel(a, b, spu_cmpgt(a, b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_mladd (vector multiply low and add unsigned half word)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_short8 vec_mladd(vec_short8 a, vec_short8 b, vec_short8 c)
 1.1  mrg {
 1.1  mrg   return ((vec_short8)(spu_shuffle(spu_madd((vec_short8)(spu_rl((vec_uint4)(a), -16)),
 1.1  mrg 					    (vec_short8)(spu_rl((vec_uint4)(b), -16)),
 1.1  mrg 					    (vec_int4)(spu_rl((vec_uint4)(c), -16))),
 1.1  mrg 				   spu_madd(a, b, spu_extend(c)),
 1.1  mrg 				   ((vec_uchar16){ 2,  3, 18, 19,  6,  7, 22, 23,
 1.1  mrg 					          10, 11, 26, 27, 14, 15, 30, 31}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_mladd(vec_ushort8 a, vec_ushort8 b, vec_ushort8 c)
 1.1  mrg {
 1.1  mrg   return ((vec_ushort8)(vec_mladd((vec_short8)(a), (vec_short8)(b), (vec_short8)(c))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_mladd(vec_ushort8 a, vec_short8 b, vec_short8 c)
 1.1  mrg {
 1.1  mrg   return (vec_mladd((vec_short8)(a), b, c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_mladd(vec_short8 a, vec_ushort8 b, vec_ushort8 c)
 1.1  mrg {
 1.1  mrg   return (vec_mladd(a, (vec_short8)(b), (vec_short8)(c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_mradds (vector multiply round and add saturate)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline vec_short8 vec_mradds(vec_short8 a, vec_short8 b, vec_short8 c)
 1.1  mrg {
 1.1  mrg   vec_int4 round = (vec_int4)spu_splats(0x4000);
 1.1  mrg   vec_short8 hi, lo;
 1.1  mrg
 1.1  mrg   hi = (vec_short8)(spu_sl(spu_add(spu_mule(a, b), round), 1));
 1.1  mrg   lo = (vec_short8)(spu_rlmask(spu_add(spu_mulo(a, b), round), -15));
 1.1  mrg
 1.1  mrg   return (vec_adds(spu_sel(hi, lo, ((vec_ushort8){0, 0xFFFF, 0, 0xFFFF, 0, 0xFFFF, 0, 0xFFFF})), c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_msum (vector multiply sum)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uint4 vec_msum(vec_uchar16 a, vec_uchar16 b, vec_uint4 c)
 1.1  mrg {
 1.1  mrg   vec_ushort8 a1, a2, b1, b2;
 1.1  mrg   vec_uint4 p1, p2;
 1.1  mrg
 1.1  mrg   a1 = spu_and((vec_ushort8)(a), 0xFF);
 1.1  mrg   a2 = spu_rlmask((vec_ushort8)(a), -8);
 1.1  mrg   b1 = spu_and((vec_ushort8)(b), 0xFF);
 1.1  mrg   b2 = spu_rlmask((vec_ushort8)(b), -8);
 1.1  mrg
 1.1  mrg   p1 = spu_add(spu_mulo(a1, b1), spu_mulo(spu_rlqwbyte(a1, -2), spu_rlqwbyte(b1, -2)));
 1.1  mrg   p2 = spu_add(spu_mulo(a2, b2), spu_mulo(spu_rlqwbyte(a2, -2), spu_rlqwbyte(b2, -2)));
 1.1  mrg   return (spu_add(p2, spu_add(p1, c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_msum(vec_char16 a, vec_uchar16 b, vec_int4 c)
 1.1  mrg {
 1.1  mrg   vec_short8 a1, a2, b1, b2;
 1.1  mrg   vec_int4 p1, p2;
 1.1  mrg
 1.1  mrg   a1 = (vec_short8)(spu_extend(a));
 1.1  mrg   a2 = spu_rlmaska((vec_short8)(a), -8);
 1.1  mrg   b1 = (vec_short8)(spu_and((vec_ushort8)(b), 0xFF));
 1.1  mrg   b2 = (vec_short8)spu_rlmask((vec_ushort8)(b), -8);
 1.1  mrg
 1.1  mrg   p1 = spu_add(spu_mulo(a1, b1), spu_mulo(spu_rlqwbyte(a1, -2), spu_rlqwbyte(b1, -2)));
 1.1  mrg   p2 = spu_add(spu_mulo(a2, b2), spu_mulo(spu_rlqwbyte(a2, -2), spu_rlqwbyte(b2, -2)));
 1.1  mrg   return (spu_add(p2, spu_add(p1, c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_msum(vec_ushort8 a, vec_ushort8 b, vec_uint4 c)
 1.1  mrg {
 1.1  mrg   return (spu_add(spu_add(spu_mulo(a, b), spu_mulo(spu_rlqwbyte(a, -2), spu_rlqwbyte(b, -2))), c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_msum(vec_short8 a, vec_short8 b, vec_int4 c)
 1.1  mrg {
 1.1  mrg   return (spu_add(spu_add(spu_mulo(a, b), spu_mulo(spu_rlqwbyte(a, -2), spu_rlqwbyte(b, -2))), c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_msums (vector multiply sum saturate)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uint4 vec_msums(vec_ushort8 a, vec_ushort8 b, vec_uint4 c)
 1.1  mrg {
 1.1  mrg   vec_uint4 p1, p2;
 1.1  mrg
 1.1  mrg   p1 = spu_mulo(a, b);
 1.1  mrg   p2 = spu_mulo(spu_rlqwbyte(a, -2), spu_rlqwbyte(b, -2));
 1.1  mrg
 1.1  mrg   return (vec_adds(p2, vec_adds(p1, c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_msums(vec_short8 a, vec_short8 b, vec_int4 c)
 1.1  mrg {
 1.1  mrg   return (vec_adds(spu_add(spu_mulo(a, b), spu_mulo(spu_rlqwbyte(a, -2), spu_rlqwbyte(b, -2))), c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_mtvscr (vector move to vector status and control register)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_mtvscr(_a)		/* not supported */
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_mule (vector multiply even)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_ushort8 vec_mule(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 hi, lo;
 1.1  mrg
 1.1  mrg   hi = (vec_ushort8)spu_mulo((vec_ushort8)(spu_rlmask((vec_uint4)(a), -24)),
 1.1  mrg 			     (vec_ushort8)(spu_rlmask((vec_uint4)(b), -24)));
 1.1  mrg   lo = (vec_ushort8)spu_mulo((vec_ushort8)(spu_rlmask((vec_short8)(a), -8)),
 1.1  mrg 			     (vec_ushort8)(spu_rlmask((vec_short8)(b), -8)));
 1.1  mrg
 1.1  mrg   return (spu_shuffle(hi, lo, ((vec_uchar16){ 2,  3, 18, 19,  6,  7, 22, 23,
 1.1  mrg 				             10, 11, 26, 27, 14, 15, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_mule(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   vec_short8 hi, lo;
 1.1  mrg
 1.1  mrg   hi = (vec_short8)spu_mulo((vec_short8)(spu_rlmaska((vec_uint4)(a), -24)),
 1.1  mrg 			    (vec_short8)(spu_rlmaska((vec_uint4)(b), -24)));
 1.1  mrg   lo = (vec_short8)spu_mulo((vec_short8)(spu_rlmaska((vec_short8)(a), -8)),
 1.1  mrg 			    (vec_short8)(spu_rlmaska((vec_short8)(b), -8)));
 1.1  mrg
 1.1  mrg   return (spu_shuffle(hi, lo, ((vec_uchar16){ 2,  3, 18, 19,  6,  7, 22, 23,
 1.1  mrg 				             10, 11, 26, 27, 14, 15, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_mule(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg  return (spu_mulo((vec_ushort8)spu_rlmask((vec_uint4)(a), -16),
 1.1  mrg 		  (vec_ushort8)spu_rlmask((vec_uint4)(b), -16)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_mule(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg  return (spu_mulo((vec_short8)spu_rlmaska((vec_int4)(a), -16),
 1.1  mrg 		  (vec_short8)spu_rlmaska((vec_int4)(b), -16)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_mulo (vector multiply odd)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_ushort8 vec_mulo(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 hi, lo;
 1.1  mrg
 1.1  mrg   hi = (vec_ushort8)spu_mulo((vec_ushort8)(spu_and(spu_rlmask((vec_uint4)(a), -16), 0xFF)),
 1.1  mrg 			     (vec_ushort8)(spu_and(spu_rlmask((vec_uint4)(b), -16), 0xFF)));
 1.1  mrg   lo = (vec_ushort8)spu_mulo(spu_and((vec_ushort8)(a), 0xFF), spu_and((vec_ushort8)(b), 0xFF));
 1.1  mrg
 1.1  mrg   return (spu_shuffle(hi, lo, ((vec_uchar16){ 2,  3, 18, 19,  6,  7, 22, 23,
 1.1  mrg 				             10, 11, 26, 27, 14, 15, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_mulo(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   vec_short8 aa, bb, hi, lo;
 1.1  mrg
 1.1  mrg   aa = spu_extend(a);
 1.1  mrg   bb = spu_extend(b);
 1.1  mrg
 1.1  mrg   hi = (vec_short8)spu_mulo((vec_short8)(spu_rlmaska((vec_uint4)(aa), -16)),
 1.1  mrg 		(vec_short8)(spu_rlmaska((vec_uint4)(bb), -16)));
 1.1  mrg   lo = (vec_short8)spu_mulo(aa, bb);
 1.1  mrg   return (spu_shuffle(hi, lo, ((vec_uchar16){ 2,  3, 18, 19,  6,  7, 22, 23,
 1.1  mrg 				             10, 11, 26, 27, 14, 15, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_mulo(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_mulo(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_mulo(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_mulo(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_nmsub (vector negative multiply subtract)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_nmsub(_a, _b, _c)	spu_nmsub(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_nor (vector logical nor)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_nor(_a, _b)		spu_nor(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_or (vector logical or)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_or(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_or(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_or(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_or((vec_char16)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_or(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, (vec_char16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_or(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_or(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_or(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_or((vec_short8)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_or(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_or(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_or(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_or(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or((vec_int4)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_or(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_or(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_or(vec_bint4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or((vec_float4)(a),b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_or(vec_float4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_or(a, (vec_float4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_pack (vector pack)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_pack(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((vec_uchar16)spu_shuffle(a, b, ((vec_uchar16){ 1,  3,  5,  7,  9, 11, 13, 15,
 1.1  mrg 					                17, 19, 21, 23, 25, 27, 29, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_pack(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)spu_shuffle(a, b, ((vec_uchar16){ 1,  3,  5,  7,  9, 11, 13, 15,
 1.1  mrg 					               17, 19, 21, 23, 25, 27, 29, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_pack(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((vec_ushort8)spu_shuffle(a, b, ((vec_uchar16){ 2,  3,  6,  7, 10, 11, 14, 15,
 1.1  mrg 					                18, 19, 22, 23, 26, 27, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_pack(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((vec_short8)spu_shuffle(a, b, ((vec_uchar16){ 2,  3,  6,  7, 10, 11, 14, 15,
 1.1  mrg 					               18, 19, 22, 23, 26, 27, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_packpx (vector pack pixel)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline vec_pixel8 vec_packpx(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   vec_uint4 x03FF = (vec_uint4)(spu_splats((unsigned short)0x03FF));
 1.1  mrg   vec_uint4 x001F = (vec_uint4)(spu_splats((unsigned short)0x001F));
 1.1  mrg
 1.1  mrg   return ((vec_pixel8)(spu_shuffle(spu_sel(spu_sel(spu_sl(a, 7), spu_sl(a, 10), x03FF),
 1.1  mrg 					   spu_sl(a, 13), x001F),
 1.1  mrg 				   spu_sel(spu_sel(spu_sl(b, 7), spu_sl(b, 10), x03FF),
 1.1  mrg 					   spu_sl(b, 13), x001F),
 1.1  mrg 				   ((vec_uchar16){ 0,  1,  4,  5,   8,  9, 12, 13,
 1.1  mrg 					          16, 17, 20, 21, 24, 25, 28, 29}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_packs (vector pack saturate)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_packs(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 max = spu_splats((unsigned short)0x00FF);
 1.1  mrg
 1.1  mrg   return ((vec_uchar16)(spu_shuffle(spu_sel(a, max, spu_cmpgt(a, 255)),
 1.1  mrg 				    spu_sel(b, max, spu_cmpgt(b, 255)),
 1.1  mrg 				    ((vec_uchar16){ 1,  3,  5,  7,  9, 11, 13, 15,
 1.1  mrg 					           17, 19, 21, 23, 25, 27, 29, 31}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_packs(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   vec_short8 max = spu_splats((signed short)0x007F);
 1.1  mrg   vec_short8 min = spu_splats((signed short)0xFF80);
 1.1  mrg
 1.1  mrg   return ((vec_char16)(spu_shuffle(spu_sel(min, spu_sel(a, max, spu_cmpgt(a, 127)), spu_cmpgt(a, -128)),
 1.1  mrg 				    spu_sel(min, spu_sel(b, max, spu_cmpgt(b, 127)), spu_cmpgt(b, -128)),
 1.1  mrg 				   ((vec_uchar16){ 1,  3,  5,  7,  9, 11, 13, 15,
 1.1  mrg 					          17, 19, 21, 23, 25, 27, 29, 31}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_packs(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   vec_uint4 max = spu_splats((unsigned int)0x0000FFFF);
 1.1  mrg
 1.1  mrg   return ((vec_ushort8)(spu_shuffle(spu_sel(a, max, spu_cmpgt(a, max)),
 1.1  mrg 				    spu_sel(b, max, spu_cmpgt(b, max)),
 1.1  mrg 				    ((vec_uchar16){ 2,  3,  6,  7, 10, 11, 14, 15,
 1.1  mrg 					           18, 19, 22, 23, 26, 27, 30, 31}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_packs(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 max = spu_splats((signed int)0x00007FFF);
 1.1  mrg   vec_int4 min = spu_splats((signed int)0xFFFF8000);
 1.1  mrg
 1.1  mrg   return ((vec_short8)(spu_shuffle(spu_sel(min, spu_sel(a, max, spu_cmpgt(a, max)), spu_cmpgt(a, min)),
 1.1  mrg 				   spu_sel(min, spu_sel(b, max, spu_cmpgt(b, max)), spu_cmpgt(b, min)),
 1.1  mrg 				   ((vec_uchar16){ 2,  3,  6,  7, 10, 11, 14, 15,
 1.1  mrg 					          18, 19, 22, 23, 26, 27, 30, 31}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_packsu (vector pack saturate unsigned)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_packsu(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((vec_uchar16)spu_shuffle(spu_or(a, (vec_ushort8)(spu_cmpgt(a, 255))),
 1.1  mrg 				   spu_or(b, (vec_ushort8)(spu_cmpgt(b, 255))),
 1.1  mrg 				   ((vec_uchar16){ 1,  3,  5,  7,  9, 11, 13, 15,
 1.1  mrg 					          17, 19, 21, 23, 25, 27, 29, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_packsu(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   vec_short8 max = spu_splats((signed short)0x00FF);
 1.1  mrg   vec_short8 min = spu_splats((signed short)0x0000);
 1.1  mrg
 1.1  mrg   return ((vec_uchar16)(spu_shuffle(spu_sel(min, spu_sel(a, max, spu_cmpgt(a, 255)), spu_cmpgt(a, 0)),
 1.1  mrg 				    spu_sel(min, spu_sel(b, max, spu_cmpgt(b, 255)), spu_cmpgt(b, 0)),
 1.1  mrg 				    ((vec_uchar16){ 1,  3,  5,  7,  9, 11, 13, 15,
 1.1  mrg 					           17, 19, 21, 23, 25, 27, 29, 31}))));
 1.1  mrg
 1.1  mrg   return (vec_packsu((vec_ushort8)(a), (vec_ushort8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_packsu(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   vec_uint4 max = spu_splats((unsigned int)0xFFFF);
 1.1  mrg
 1.1  mrg   return ((vec_ushort8)spu_shuffle(spu_or(a, (vec_uint4)(spu_cmpgt(a, max))),
 1.1  mrg 				   spu_or(b, (vec_uint4)(spu_cmpgt(b, max))),
 1.1  mrg 				   ((vec_uchar16){ 2,  3,  6,  7, 10, 11, 14, 15,
 1.1  mrg 					          18, 19, 22, 23, 26, 27, 30, 31})));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_packsu(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 max = spu_splats((signed int)0x0000FFFF);
 1.1  mrg   vec_int4 min = spu_splats((signed int)0x00000000);
 1.1  mrg
 1.1  mrg   return ((vec_ushort8)(spu_shuffle(spu_sel(min, spu_sel(a, max, spu_cmpgt(a, max)), spu_cmpgt(a, min)),
 1.1  mrg 				    spu_sel(min, spu_sel(b, max, spu_cmpgt(b, max)), spu_cmpgt(b, min)),
 1.1  mrg 				    ((vec_uchar16){ 2,  3,  6,  7, 10, 11, 14, 15,
 1.1  mrg 					           18, 19, 22, 23, 26, 27, 30, 31}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_perm (vector permute)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_perm(vec_uchar16 a, vec_uchar16 b, vec_uchar16 c)
 1.1  mrg {
 1.1  mrg   return (spu_shuffle(a, b, spu_and(c, 0x1F)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_perm(vec_char16 a, vec_char16 b, vec_uchar16 c)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(vec_perm((vec_uchar16)(a), (vec_uchar16)(b), c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_perm(vec_ushort8 a, vec_ushort8 b, vec_uchar16 c)
 1.1  mrg {
 1.1  mrg   return ((vec_ushort8)(vec_perm((vec_uchar16)(a), (vec_uchar16)(b), c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_perm(vec_short8 a, vec_short8 b, vec_uchar16 c)
 1.1  mrg {
 1.1  mrg   return ((vec_short8)(vec_perm((vec_uchar16)(a), (vec_uchar16)(b), c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_perm(vec_uint4 a, vec_uint4 b, vec_uchar16 c)
 1.1  mrg {
 1.1  mrg   return ((vec_uint4)(vec_perm((vec_uchar16)(a), (vec_uchar16)(b), c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_perm(vec_int4 a, vec_int4 b, vec_uchar16 c)
 1.1  mrg {
 1.1  mrg   return ((vec_int4)(vec_perm((vec_uchar16)(a), (vec_uchar16)(b), c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_perm(vec_float4 a, vec_float4 b, vec_uchar16 c)
 1.1  mrg {
 1.1  mrg   return ((vec_float4)(vec_perm((vec_uchar16)(a), (vec_uchar16)(b), c)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_re (vector reciprocal estimate)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg #define vec_re(_a)	spu_re(_a)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_rl (vector rotate left)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_rl(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 r1, r2;
 1.1  mrg
 1.1  mrg   r1 = spu_rl(spu_and((vec_ushort8)(a), 0xFF), (vec_short8)spu_and((vec_ushort8)(b), 7));
 1.1  mrg   r2 = spu_rl(spu_and((vec_ushort8)(a), -256), (vec_short8)spu_and(spu_rlmask((vec_ushort8)(b), -8), 7));
 1.1  mrg   return ((vec_uchar16)(spu_sel(spu_or(r2, spu_sl(r2, 8)), spu_or(r1, spu_rlmask(r1, -8)), spu_splats((unsigned short)0xFF))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_rl(vec_char16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(vec_rl((vec_uchar16)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_rl(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_rl(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_rl(vec_short8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_rl(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_rl(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_rl(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_rl(vec_int4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_rl(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_round (vector round)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_float4 vec_round(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_float4 s_half, s_one, d;
 1.1  mrg   vec_uint4 odd;
 1.1  mrg   vec_uint4 msb = spu_splats((unsigned int)0x80000000);
 1.1  mrg   vec_float4 half = spu_splats(0.5f);
 1.1  mrg   vec_int4 exp;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   s_half = (vec_float4)(spu_sel((vec_uint4)(half), (vec_uint4)(a), msb));
 1.1  mrg   a = spu_add(a, s_half);
 1.1  mrg   s_one = spu_add(s_half, s_half);
 1.1  mrg   exp  = spu_sub(127, (vec_int4)(spu_and(spu_rlmask((vec_uint4)(a), -23), 0xFF)));
 1.1  mrg   mask = spu_rlmask(spu_splats((unsigned int)0x7FFFFF), exp);
 1.1  mrg   mask = spu_sel(spu_splats((unsigned int)0), mask, spu_cmpgt(exp, -31));
 1.1  mrg   mask = spu_or(mask, spu_xor((vec_uint4)(spu_rlmaska(spu_add(exp, -1), -31)), -1));
 1.1  mrg
 1.1  mrg   odd = spu_and((vec_uint4)(spu_convts(a, 0)), 1);
 1.1  mrg   s_one = spu_andc(s_one, (vec_float4)spu_cmpeq(mask, 0));
 1.1  mrg   s_one = spu_and(s_one, spu_and((vec_float4)spu_cmpeq(spu_and((vec_uint4)(a), mask), 0),
 1.1  mrg 				 (vec_float4)spu_cmpeq(odd, 1)));
 1.1  mrg   d = spu_andc(a, (vec_float4)(mask));
 1.1  mrg   d = spu_sub(d, s_one);
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_rsqrte (vector reciprocal square root estimate)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_rsqrte(_a)	spu_rsqrte(_a)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sel (vector select)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_sel(_a, _b, _c)	spu_sel(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sl (vector shift left)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_sl(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 hi, lo;
 1.1  mrg
 1.1  mrg   lo = spu_and(spu_sl((vec_ushort8)(a), spu_and((vec_ushort8)(b), 7)), 0xFF);
 1.1  mrg   hi = spu_sl(spu_and((vec_ushort8)(a), -256), spu_and(spu_rlmask((vec_ushort8)(b), -8), 7));
 1.1  mrg
 1.1  mrg   return ((vec_uchar16)(spu_or(hi, lo)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_sl(vec_char16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(vec_sl((vec_uchar16)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_sl(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sl(a, spu_and(b, 15)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_sl(vec_short8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sl(a, spu_and((vec_ushort8)(b), 15)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_sl(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sl(a, spu_and(b, 31)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sl(vec_int4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sl(a, spu_and(b, 31)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sld (vector shift left double)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_sld(_a, _b, _c)	spu_shuffle(_a, _b, ((vec_uchar16){ 0+(_c),  1+(_c),  2+(_c),  3+(_c),  \
 1.1  mrg 								    4+(_c),  5+(_c),  6+(_c),  7+(_c), 	\
 1.1  mrg 								    8+(_c),  9+(_c), 10+(_c), 11+(_c), 	\
 1.1  mrg 							           12+(_c), 13+(_c), 14+(_c), 15+(_c)}))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sll (vector shift left long)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_sll(_a, _b)		spu_slqw(_a, spu_extract((vec_uint4)(_b), 0))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_slo (vector shift left by octet)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_slo(_a, _b)		spu_slqwbytebc(_a, spu_extract((vec_uint4)(_b), 3) & 0x7F)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splat (vector splat)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_splat(_a, _b)	spu_splats(spu_extract(_a, _b))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splat_s8 (vector splat signed byte)
 1.1  mrg  * ============
 1.1  mrg  */
 1.1  mrg #define vec_splat_s8(_a)	spu_splats((signed char)(_a))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splat_s16 (vector splat signed half-word)
 1.1  mrg  * =============
 1.1  mrg  */
 1.1  mrg #define vec_splat_s16(_a)	spu_splats((signed short)(_a))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splat_s32 (vector splat signed word)
 1.1  mrg  * =============
 1.1  mrg  */
 1.1  mrg #define vec_splat_s32(_a)	spu_splats((signed int)(_a))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splat_u8 (vector splat unsigned byte)
 1.1  mrg  * ============
 1.1  mrg  */
 1.1  mrg #define vec_splat_u8(_a)	spu_splats((unsigned char)(_a))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splat_u16 (vector splat unsigned half-word)
 1.1  mrg  * =============
 1.1  mrg  */
 1.1  mrg #define vec_splat_u16(_a)	spu_splats((unsigned short)(_a))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splat_u32 (vector splat unsigned word)
 1.1  mrg  * =============
 1.1  mrg  */
 1.1  mrg #define vec_splat_u32(_a)	spu_splats((unsigned int)(_a))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sr (vector shift right)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_sr(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 hi, lo;
 1.1  mrg
 1.1  mrg   lo = spu_rlmask(spu_and((vec_ushort8)(a), 0xFF), spu_sub(0, (vec_short8)(spu_and((vec_ushort8)(b), 7))));
 1.1  mrg   hi = spu_and(spu_rlmask((vec_ushort8)(a), spu_sub(0, (vec_short8)(spu_and(spu_rlmask((vec_ushort8)(b), -8), 7)))), -256);
 1.1  mrg
 1.1  mrg   return ((vec_uchar16)(spu_or(hi, lo)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_sr(vec_char16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(vec_sr((vec_uchar16)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_sr(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_rlmask(a, spu_sub(0, (vec_short8)(spu_and(b, 15)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_sr(vec_short8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((vec_short8)(vec_sr((vec_ushort8)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_sr(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_rlmask(a, spu_sub(0, (vec_int4)(spu_and(b, 31)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sr(vec_int4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((vec_int4)(vec_sr((vec_uint4)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sra (vector shift right algebraic)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_char16 vec_sra(vec_char16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_short8 hi, lo;
 1.1  mrg
 1.1  mrg   lo = spu_and(spu_rlmaska(spu_extend(a), spu_sub(0, (vec_short8)(spu_and((vec_ushort8)(b), 7)))), 0xFF);
 1.1  mrg   hi = spu_and(spu_rlmaska((vec_short8)(a), spu_sub(0, (vec_short8)(spu_and(spu_rlmask((vec_ushort8)(b), -8), 7)))), -256);
 1.1  mrg
 1.1  mrg   return ((vec_char16)(spu_or(hi, lo)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_sra(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_uchar16)(vec_sra((vec_char16)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_sra(vec_short8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_rlmaska(a, spu_sub(0, (vec_short8)(spu_and(b, 15)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_sra(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((vec_ushort8)(vec_sra((vec_short8)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sra(vec_int4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_rlmaska(a, spu_sub(0, (vec_int4)(spu_and(b, 31)))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_sra(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((vec_uint4)(vec_sra((vec_int4)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_srl (vector shift right long)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_srl(_a, _b)		spu_rlmaskqw(_a, 0-spu_extract((vec_int4)(_b), 3))
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sro (vector shift right by octet)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_sro(_a, _b)		spu_rlmaskqwbyte(_a, 0 - ((spu_extract((vec_int4)(_b), 3) >> 3) & 0xF))
 1.1  mrg
 1.1  mrg /* vec_st (vector store indexed)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg static inline void vec_st(vec_uchar16 a, int b, unsigned char *c)
 1.1  mrg {
 1.1  mrg   *((vec_uchar16 *)(c+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_uchar16 a, int b, vec_uchar16 *c)
 1.1  mrg {
 1.1  mrg   *((vec_uchar16 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_char16 a, int b, signed char *c)
 1.1  mrg {
 1.1  mrg   *((vec_char16 *)(c+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_char16 a, int b, vec_char16 *c)
 1.1  mrg {
 1.1  mrg   *((vec_char16 *)((signed char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_bchar16 a, int b, signed char *c)
 1.1  mrg {
 1.1  mrg   *((vec_bchar16 *)((signed char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_ushort8 a, int b, unsigned short *c)
 1.1  mrg {
 1.1  mrg   *((vec_ushort8 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_ushort8 a, int b, vec_ushort8 *c)
 1.1  mrg {
 1.1  mrg   *((vec_ushort8 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_short8 a, int b, signed short *c)
 1.1  mrg {
 1.1  mrg   *((vec_short8 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_short8 a, int b, vec_short8 *c)
 1.1  mrg {
 1.1  mrg   *((vec_short8 *)((signed char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_bshort8 a, int b, signed short *c)
 1.1  mrg {
 1.1  mrg   *((vec_bshort8 *)((signed char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_uint4 a, int b, unsigned int *c)
 1.1  mrg {
 1.1  mrg   *((vec_uint4 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_uint4 a, int b, vec_uint4 *c)
 1.1  mrg {
 1.1  mrg   *((vec_uint4 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_int4 a, int b, signed int *c)
 1.1  mrg {
 1.1  mrg   *((vec_int4 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_int4 a, int b, vec_int4 *c)
 1.1  mrg {
 1.1  mrg   *((vec_int4 *)((signed char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_bint4 a, int b, signed int *c)
 1.1  mrg {
 1.1  mrg   *((vec_bint4 *)((signed char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_float4 a, int b, float *c)
 1.1  mrg {
 1.1  mrg   *((vec_float4 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_st(vec_float4 a, int b, vec_float4 *c)
 1.1  mrg {
 1.1  mrg   *((vec_float4 *)((unsigned char *)(c)+b)) = a;
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_ste (vector store element indexed)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline void vec_ste(vec_uchar16 a, int b, unsigned char *c)
 1.1  mrg {
 1.1  mrg   unsigned char *ptr;
 1.1  mrg
 1.1  mrg   ptr = c + b;
 1.1  mrg   *ptr = spu_extract(a, (int)(ptr) & 15);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_char16 a, int b, signed char *c)
 1.1  mrg {
 1.1  mrg   vec_ste((vec_uchar16)(a), b, (unsigned char *)(c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_bchar16 a, int b, signed char *c)
 1.1  mrg {
 1.1  mrg   vec_ste((vec_uchar16)(a), b, (unsigned char *)(c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_ushort8 a, int b, unsigned short *c)
 1.1  mrg {
 1.1  mrg   unsigned short *ptr;
 1.1  mrg
 1.1  mrg   ptr = (unsigned short *)(((unsigned int)(c) + b) & ~1);
 1.1  mrg   *ptr = spu_extract(a, ((int)(ptr) >> 1) & 7);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_short8 a, int b, signed short *c)
 1.1  mrg {
 1.1  mrg   vec_ste((vec_ushort8)(a), b, (unsigned short *)(c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_bshort8 a, int b, signed short *c)
 1.1  mrg {
 1.1  mrg   vec_ste((vec_ushort8)(a), b, (unsigned short *)(c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_uint4 a, int b, unsigned int *c)
 1.1  mrg {
 1.1  mrg   unsigned int *ptr;
 1.1  mrg
 1.1  mrg   ptr = (unsigned int *)(((unsigned int)(c) + b) & ~3);
 1.1  mrg   *ptr = spu_extract(a, ((int)(ptr) >> 2) & 3);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_int4 a, int b, signed int *c)
 1.1  mrg {
 1.1  mrg   vec_ste((vec_uint4)(a), b, (unsigned int *)(c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_bint4 a, int b, signed int *c)
 1.1  mrg {
 1.1  mrg   vec_ste((vec_uint4)(a), b, (unsigned int *)(c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_ste(vec_float4 a, int b, float *c)
 1.1  mrg {
 1.1  mrg   vec_ste((vec_uint4)(a), b, (unsigned int *)(c));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_stl (vector store indexed LRU)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg #define vec_stl(_a, _b, _c)		vec_st(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sub (vector subtract)
 1.1  mrg  * =======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_sub(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_uchar16)(spu_sel(spu_sub((vec_ushort8)(a), (vec_ushort8)(b)),
 1.1  mrg 				spu_sub(spu_and((vec_ushort8)(a), -256), spu_and((vec_ushort8)(b), -256)),
 1.1  mrg 				spu_splats((unsigned short)0xFF00))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_sub(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(vec_sub((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_sub(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(vec_sub((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_sub(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((vec_char16)(vec_sub((vec_uchar16)(a), (vec_uchar16)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_sub(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_sub(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_sub(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub((vec_short8)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_sub(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_sub(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sub(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sub(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub((vec_int4)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sub(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_sub(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_sub(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_subc (vector subtract carryout)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg #define vec_subc(_a, _b)	spu_genb(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_subs (vector subtract saturate)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_subs(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 s1, s2;
 1.1  mrg   vec_uchar16 s, d;
 1.1  mrg
 1.1  mrg   s1 = spu_sub(spu_rlmask((vec_ushort8)(a), -8), spu_rlmask((vec_ushort8)(b), -8));
 1.1  mrg   s2 = spu_sub(spu_and((vec_ushort8)(a), 0xFF), spu_and((vec_ushort8)(b), 0xFF));
 1.1  mrg   s  = (vec_uchar16)(spu_shuffle(s1, s2, ((vec_uchar16){0, 16,  2, 18,  4, 20,  6, 22,
 1.1  mrg 					                8, 24, 10, 26, 12, 28, 14, 30})));
 1.1  mrg   d  = (vec_uchar16)(spu_shuffle(s1, s2, ((vec_uchar16){1, 17,  3, 19,  5, 21,  7, 23,
 1.1  mrg 					                9, 25, 11, 27, 13, 29, 15, 31})));
 1.1  mrg   return (spu_andc(d, s));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_subs(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 s1, s2;
 1.1  mrg   vec_uchar16 s, d;
 1.1  mrg
 1.1  mrg   s1 = spu_sub(spu_rlmask((vec_ushort8)(a), -8), spu_rlmask((vec_ushort8)(b), -8));
 1.1  mrg   s2 = spu_sub(spu_and((vec_ushort8)(a), 0xFF), spu_and((vec_ushort8)(b), 0xFF));
 1.1  mrg   s  = (vec_uchar16)(spu_shuffle(s1, s2, ((vec_uchar16){1, 17,  3, 19,  5, 21,  7, 23,
 1.1  mrg 					                9, 25, 11, 27, 13, 29, 15, 31})));
 1.1  mrg   d  = spu_sel(s, spu_splats((unsigned char)0x7F), spu_cmpgt(spu_nor((vec_uchar16)(a), spu_nand(s, (vec_uchar16)(b))), 0x7F));
 1.1  mrg   d  = spu_sel(d, spu_splats((unsigned char)0x80), spu_cmpgt(spu_and((vec_uchar16)(a), spu_nor(s, (vec_uchar16)(b))), 0x7F));
 1.1  mrg
 1.1  mrg   return ((vec_char16)(d));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_subs(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (vec_subs((vec_char16)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_subs(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (vec_subs(a, (vec_char16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_subs(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(spu_sub(a, b), spu_cmpgt(b, a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_subs(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   vec_short8 s;
 1.1  mrg   vec_short8 d;
 1.1  mrg
 1.1  mrg   s = spu_sub(a, b);
 1.1  mrg   d = spu_sel(s, spu_splats((signed short)0x7FFF), (vec_ushort8)(spu_rlmaska(spu_nor(a, spu_nand(s, b)), -15)));
 1.1  mrg   d = spu_sel(d, spu_splats((signed short)0x8000), (vec_ushort8)(spu_rlmaska(spu_and(a, spu_nor(s, b)), -15)));
 1.1  mrg
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_subs(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((vec_short8)(vec_subs((vec_short8)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_subs(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((vec_short8)(vec_subs(a, (vec_short8)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_subs(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_andc(spu_sub(a, b), spu_cmpgt(b, a)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_subs(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 s;
 1.1  mrg   vec_int4 d;
 1.1  mrg
 1.1  mrg   s = spu_sub(a, b);
 1.1  mrg   d = spu_sel(s, spu_splats((signed int)0x7FFFFFFF), (vec_uint4)(spu_rlmaska(spu_nor(a, spu_nand(s, b)), -31)));
 1.1  mrg   d = spu_sel(d, spu_splats((signed int)0x80000000), (vec_uint4)(spu_rlmaska(spu_and(a, spu_nor(s, b)), -31)));
 1.1  mrg
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_subs(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((vec_int4)(vec_subs((vec_int4)(a), b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_subs(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((vec_int4)(vec_subs(a, (vec_int4)(b))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sum4s (vector sum across partial (1/4) saturated)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_uint4 vec_sum4s(vec_uchar16 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   vec_uint4 a01_23, a0123;
 1.1  mrg
 1.1  mrg   a01_23 = (vec_uint4)(spu_add(spu_rlmask((vec_ushort8)(a), -8),
 1.1  mrg 			       spu_and((vec_ushort8)(a), 0xFF)));
 1.1  mrg   a0123 = spu_add(spu_rlmask(a01_23, -16), spu_and(a01_23, 0x1FF));
 1.1  mrg   return (vec_adds(a0123, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sum4s(vec_char16 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 a01_23, a0123;
 1.1  mrg
 1.1  mrg   a01_23 = (vec_int4)(spu_add(spu_rlmaska((vec_short8)(a), -8),
 1.1  mrg 			      spu_extend(a)));
 1.1  mrg   a0123 = spu_add(spu_rlmaska(a01_23, -16), spu_extend((vec_short8)(a01_23)));
 1.1  mrg   return (vec_adds(a0123, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_sum4s(vec_short8 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 a0123;
 1.1  mrg
 1.1  mrg   a0123 = spu_add(spu_rlmaska((vec_int4)(a), -16), spu_extend(a));
 1.1  mrg   return (vec_adds(a0123, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sum2s (vector sum across partial (1/2) saturated)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_int4 vec_sum2s(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 c, d;
 1.1  mrg   vec_int4 sign1, sign2, sign3;
 1.1  mrg   vec_int4 carry, sum_l, sum_h, sat, sat_val;
 1.1  mrg
 1.1  mrg   sign1 = spu_rlmaska(a, -31);
 1.1  mrg   sign2 = spu_rlmaska(b, -31);
 1.1  mrg
 1.1  mrg   c = spu_rlqwbyte(a, -4);
 1.1  mrg   sign3 = spu_rlqwbyte(sign1, -4);
 1.1  mrg
 1.1  mrg   carry = spu_genc(a, b);
 1.1  mrg   sum_l = spu_add(a, b);
 1.1  mrg   sum_h = spu_addx(sign1, sign2, carry);
 1.1  mrg
 1.1  mrg   carry = spu_genc(sum_l, c);
 1.1  mrg   sum_l = spu_add(sum_l, c);
 1.1  mrg   sum_h = spu_addx(sum_h, sign3, carry);
 1.1  mrg
 1.1  mrg   sign1 = spu_rlmaska(sum_l, -31);
 1.1  mrg   sign2 = spu_rlmaska(sum_h, -31);
 1.1  mrg
 1.1  mrg   sat_val = spu_xor(sign2, spu_splats((signed int)0x7FFFFFFF));
 1.1  mrg
 1.1  mrg   sat = spu_orc(spu_xor(sign1, sign2), (vec_int4)spu_cmpeq(sum_h, sign2));
 1.1  mrg
 1.1  mrg   d = spu_and(spu_sel(sum_l, sat_val, (vec_uint4)(sat)), (vec_int4){0, -1, 0, -1});
 1.1  mrg
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_sums (vector sum saturated)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_int4 vec_sums(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   vec_int4 a0, a1, a2, c0, c1, c2, d;
 1.1  mrg   vec_int4 sign_a, sign_b, sign_l, sign_h;
 1.1  mrg   vec_int4 sum_l, sum_h, sat, sat_val;
 1.1  mrg
 1.1  mrg   sign_a = spu_rlmaska(a, -31);
 1.1  mrg   sign_b = spu_rlmaska(b, -31);
 1.1  mrg
 1.1  mrg   a0 = spu_rlqwbyte(a, -12);
 1.1  mrg   a1 = spu_rlqwbyte(a, -8);
 1.1  mrg   a2 = spu_rlqwbyte(a, -4);
 1.1  mrg
 1.1  mrg   sum_l = spu_add(a, b);
 1.1  mrg   sum_h = spu_addx(sign_a, sign_b, spu_genc(a, b));
 1.1  mrg
 1.1  mrg   c2 = spu_genc(sum_l, a2);
 1.1  mrg   sum_l = spu_add(sum_l, a2);
 1.1  mrg   sum_h = spu_addx(sum_h, spu_rlqwbyte(sign_a, -4), c2);
 1.1  mrg
 1.1  mrg   c1 = spu_genc(sum_l, a1);
 1.1  mrg   sum_l = spu_add(sum_l, a1);
 1.1  mrg   sum_h = spu_addx(sum_h, spu_rlqwbyte(sign_a, -8), c1);
 1.1  mrg
 1.1  mrg   c0 = spu_genc(sum_l, a0);
 1.1  mrg   sum_l = spu_add(sum_l, a0);
 1.1  mrg   sum_h = spu_addx(sum_h, spu_rlqwbyte(sign_a, -12), c0);
 1.1  mrg
 1.1  mrg   sign_l = spu_rlmaska(sum_l, -31);
 1.1  mrg   sign_h = spu_rlmaska(sum_h, -31);
 1.1  mrg
 1.1  mrg   sat_val = spu_xor(sign_h, spu_splats((signed int)0x7FFFFFFF));
 1.1  mrg
 1.1  mrg   sat = spu_orc(spu_xor(sign_l, sign_h), (vec_int4)spu_cmpeq(sum_h, sign_h));
 1.1  mrg
 1.1  mrg   d = spu_and(spu_sel(sum_l, sat_val, (vec_uint4)(sat)), ((vec_int4){0, 0, 0, -1}));
 1.1  mrg
 1.1  mrg   return (d);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_trunc (vector truncate)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline vec_float4 vec_trunc(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_int4 exp;
 1.1  mrg   vec_uint4 mask;
 1.1  mrg
 1.1  mrg   exp  = spu_sub(127, (vec_int4)(spu_and(spu_rlmask((vec_uint4)(a), -23), 0xFF)));
 1.1  mrg   mask = spu_rlmask(spu_splats((unsigned int)0x7FFFFF), exp);
 1.1  mrg   mask = spu_sel(spu_splats((unsigned int)0), mask, spu_cmpgt(exp, -31));
 1.1  mrg   mask = spu_or(mask, spu_xor((vec_uint4)(spu_rlmaska(spu_add(exp, -1), -31)), -1));
 1.1  mrg   return (spu_andc(a, (vec_float4)(mask)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_unpackh (vector unpack high element)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline vec_short8 vec_unpackh(vec_char16 a)
 1.1  mrg {
 1.1  mrg   return (spu_extend(spu_shuffle(a, a, ((vec_uchar16){0, 0, 1, 1, 2, 2, 3, 3,
 1.1  mrg 					              4, 4, 5, 5, 6, 6, 7, 7}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_bshort8 vec_unpackh(vec_bchar16 a)
 1.1  mrg {
 1.1  mrg   return ((vec_bshort8)(vec_unpackh((vec_char16)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_unpackh(vec_short8 a)
 1.1  mrg {
 1.1  mrg   return (spu_extend(spu_shuffle(a, a, ((vec_uchar16){0, 0, 0, 1, 0, 0, 2, 3,
 1.1  mrg 					              0, 0, 4, 5, 0, 0, 6, 7}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg #ifdef SUPPORT_UNPACK_PIXEL
 1.1  mrg /* Due to type conflicts, unpacking of pixel types and boolean shorts
1.10  mrg  * cannot simultaneously be supported. By default, the boolean short is
 1.1  mrg  * supported.
 1.1  mrg  */
 1.1  mrg static inline vec_uint4 vec_unpackh(vec_pixel8 a)
 1.1  mrg {
 1.1  mrg   vec_ushort8 p1, p2;
 1.1  mrg
 1.1  mrg   p1 = spu_shuffle((vec_ushort8)(spu_rlmaska((vec_short8)(a.p), -7)),
 1.1  mrg 		   spu_and((vec_ushort8)(a.p), 0x1F),
 1.1  mrg 		   ((vec_uchar16){ 0, 128, 128, 17,  2, 128, 128, 19,
 1.1  mrg 			           4, 128, 128, 21,  6, 128, 128, 23}));
 1.1  mrg   p2 = spu_shuffle(spu_and(spu_rlmask((vec_ushort8)(a.p), -5), 0x1F),
 1.1  mrg 		   spu_and(spu_rlmask((vec_ushort8)(a.p), -10), 0x1F),
 1.1  mrg 		   ((vec_uchar16){ 128,  17, 1, 128, 128,  19, 3, 128,
 1.1  mrg 			           128,  21, 5, 128, 128,  23, 7, 128}));
 1.1  mrg   return ((vec_uint4)(spu_or(p1, p2)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg #else
 1.1  mrg
 1.1  mrg static inline vec_bint4 vec_unpackh(vec_bshort8 a)
 1.1  mrg {
 1.1  mrg   return ((vec_bint4)(vec_unpackh((vec_short8)(a))));
 1.1  mrg }
 1.1  mrg #endif
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_unpackl (vector unpack low element)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline vec_short8 vec_unpackl(vec_char16 a)
 1.1  mrg {
 1.1  mrg   return (spu_extend(spu_shuffle(a, a, ((vec_uchar16){8, 8, 9, 9, 10, 10, 11, 11,
 1.1  mrg 					              12, 12, 13, 13, 14, 14, 15, 15}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_bshort8 vec_unpackl(vec_bchar16 a)
 1.1  mrg {
 1.1  mrg   return ((vec_bshort8)(vec_unpackl((vec_char16)(a))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_unpackl(vec_short8 a)
 1.1  mrg {
 1.1  mrg   return (spu_extend(spu_shuffle(a, a, ((vec_uchar16){0, 0, 8, 9, 0, 0, 10, 11,
 1.1  mrg 					              0, 0,12,13, 0, 0, 14, 15}))));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg #ifdef SUPPORT_UNPACK_PIXEL
 1.1  mrg /* Due to type conflicts, unpacking of pixel types and boolean shorts
1.10  mrg  * cannot simultaneously be supported. By default, the boolean short is
 1.1  mrg  * supported.
 1.1  mrg  */
 1.1  mrg static inline vec_uint4 vec_unpackl(vec_pixel8 a)
 1.1  mrg {
 1.1  mrg   vec_ushort8 p1, p2;
 1.1  mrg
 1.1  mrg   p1 = spu_shuffle((vec_ushort8)(spu_rlmaska((vec_short8)(a), -7)),
 1.1  mrg 		   spu_and((vec_ushort8)(a), 0x1F),
 1.1  mrg 		   ((vec_uchar16){ 8, 128, 128, 25,  10, 128, 128, 27,
 1.1  mrg 			          12, 128, 128, 29,  14, 128, 128, 31}));
 1.1  mrg   p2 = spu_shuffle(spu_and(spu_rlmask((vec_ushort8)(a), -5), 0x1F),
 1.1  mrg 		   spu_and(spu_rlmask((vec_ushort8)(a), -10), 0x1F),
 1.1  mrg 		   ((vec_uchar16){ 128, 25,  9, 128, 128, 27, 11, 128,
 1.1  mrg 			           128, 29, 13, 128, 128, 31, 15, 128}));
 1.1  mrg   return ((vec_uint4)(spu_or(p1, p2)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg #else
 1.1  mrg
 1.1  mrg static inline vec_bint4 vec_unpackl(vec_bshort8 a)
 1.1  mrg {
 1.1  mrg   return ((vec_bint4)(vec_unpackl((vec_short8)(a))));
 1.1  mrg
 1.1  mrg }
 1.1  mrg #endif
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_xor (vector logical xor)
 1.1  mrg  * ======
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_xor(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_xor(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_xor(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor((vec_char16)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_xor(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, (vec_char16)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_xor(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_xor(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_xor(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor((vec_short8)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_xor(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, (vec_short8)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_xor(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_xor(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_xor(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor((vec_int4)(a), b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_xor(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, (vec_int4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_xor(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_xor(vec_bint4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor((vec_float4)(a),b));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_xor(vec_float4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return (spu_xor(a, (vec_float4)(b)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /************************************************************************
 1.1  mrg  *                        PREDICATES
 1.1  mrg  ************************************************************************/
 1.1  mrg
 1.1  mrg /* vec_all_eq (all elements equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_eq(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_char16)(a), b)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_char16)(b))), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_short8)(a), b)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_short8)(b))), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_int4)(a), b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_int4)(b))), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_eq(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_ge (all elements greater than or equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_ge(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline  int vec_all_ge(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_char16)(a))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(b), a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_short8)(a))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(b), a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_int4)(a))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_int4)(b), a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ge(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_gt (all elements greater than)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_gt(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(a), b)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_char16)(b))), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(a), b)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_short8)(b))), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_int4)(a), b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_int4)(b))), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_gt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_in (all elements in bounds)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_in(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_extract(spu_gather(spu_nor(spu_cmpabsgt(a, b), (vec_uint4)(spu_rlmaska((vec_int4)(b), -31)))), 0) == 0xF);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_le (all elements less than or equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_le(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(a), b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_char16)(b))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(a), b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_short8)(b))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_int4)(a), b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_int4)(b))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_le(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_lt (all elements less than)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_lt(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_char16)(a))), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(b), a)), 0) == 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_short8)(a))), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(b), a)), 0) == 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_int4)(a))), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_int4)(b), a)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_lt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_nan (all elements not a number)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_nan(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_uint4 exp, man;
 1.1  mrg   vec_uint4 exp_mask = spu_splats((unsigned int)0x7F800000);
 1.1  mrg
 1.1  mrg   exp = spu_and((vec_uint4)(a), exp_mask);
 1.1  mrg   man = spu_and((vec_uint4)(a), spu_splats((unsigned int)0x007FFFFF));
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_andc(spu_cmpeq(exp, exp_mask),
 1.1  mrg 						spu_cmpeq(man, 0))), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg #define vec_all_nan(_a)		(0)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_ne (all elements not equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_ne(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_char16)(a), b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_char16)(b))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_short8)(a), b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_short8)(b))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_int4)(a), b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_int4)(b))), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_all_ne(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_nge (all elements not greater than or equal)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_nge(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_ngt (all elements not greater than)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_ngt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_nle (all elements not less than or equal)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_nle(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) == 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_nlt (all elements not less than)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_nlt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_all_numeric (all elements numeric)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_all_numeric(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_uint4 exp;
 1.1  mrg
 1.1  mrg   exp = spu_and(spu_rlmask((vec_uint4)(a), -23), 0xFF);
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(exp, 255)), 0) == 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_eq (any elements equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_eq(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_char16)(a), b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_char16)(b))), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_short8)(a), b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_short8)(b))), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpeq(a, b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpeq(a, b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpeq((vec_int4)(a), b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpeq(a, (vec_int4)(b)), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_eq(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpeq(a, b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_any_ge (any elements greater than or equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_ge(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_char16)(a))), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(b), a)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_short8)(a))), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(b), a)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_int4)(a))), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_int4)(b), a)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ge(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_gt (any elements greater than)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_gt(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(a), b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_char16)(b))), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(a), b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_short8)(b))), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(a, b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(a, b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt((vec_int4)(a), b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(a, (vec_int4)(b)), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_gt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(a, b), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_any_le (any elements less than or equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_le(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(a), b)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_char16)(b))), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(a), b)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_short8)(b))), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_int4)(a), b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, (vec_int4)(b))), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_le(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_lt (any elements less than)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_lt(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_char16)(a))), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_char16)(b), a)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, (vec_short8)(a))), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt((vec_short8)(b), a)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(b, a), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(b, a), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(b, (vec_int4)(a)), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt((vec_int4)(b), a), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_lt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(b, a), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_any_nan (any elements not a number)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_nan(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_uint4 exp, man;
 1.1  mrg   vec_uint4 exp_mask = spu_splats((unsigned int)0x7F800000);
 1.1  mrg
 1.1  mrg   exp = spu_and((vec_uint4)(a), exp_mask);
 1.1  mrg   man = spu_and((vec_uint4)(a), spu_splats((unsigned int)0x007FFFFF));
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_andc(spu_cmpeq(exp, exp_mask),
 1.1  mrg 						spu_cmpeq(man, 0))), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_ne (any elements not equal)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_ne(vec_uchar16 a, vec_uchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_char16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_bchar16 a, vec_char16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_char16)(a), b)), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_char16 a, vec_bchar16 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_char16)(b))), 0) != 0xFFFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_ushort8 a, vec_ushort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_short8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_bshort8 a, vec_short8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_short8)(a), b)), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_short8 a, vec_bshort8 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_short8)(b))), 0) != 0xFF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_uint4 a, vec_uint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_int4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_bint4 a, vec_int4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq((vec_int4)(a), b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_int4 a, vec_bint4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, (vec_int4)(b))), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline int vec_any_ne(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(a, b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_nge (any elements not greater than or equal)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_nge(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_orx(spu_rlmask(spu_cmpgt(b, a), -31)), 0)));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_any_ngt (any elements not greater than)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_ngt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_nle (any elements not less than or equal)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_nle(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(a, b)), 0) != 0));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_nlt (any elements not less than)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_nlt(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpgt(b, a)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_numeric (any elements numeric)
 1.1  mrg  * ===============
 1.1  mrg  */
 1.1  mrg static inline int vec_any_numeric(vec_float4 a)
 1.1  mrg {
 1.1  mrg   vec_uint4 exp;
 1.1  mrg
 1.1  mrg   exp = spu_and(spu_rlmask((vec_uint4)(a), -23), 0xFF);
 1.1  mrg   return ((int)(spu_extract(spu_gather(spu_cmpeq(exp, 255)), 0) != 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_any_out (any elements out of bounds)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg static inline int vec_any_out(vec_float4 a, vec_float4 b)
 1.1  mrg {
 1.1  mrg   return (spu_extract(spu_gather(spu_nor(spu_cmpabsgt(a, b), (vec_uint4)(spu_rlmaska((vec_int4)(b), -31)))), 0) != 0xF);
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* CBE Language Extension Intrinsics
 1.1  mrg  */
 1.1  mrg
 1.1  mrg /* vec_extract (extract element from vector)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg #define vec_extract(_a, _element)	spu_extract(_a, _element)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_insert (insert scalar into specified vector element)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_insert(_a, _b, _element)	spu_insert(_a, _b, _element)
 1.1  mrg
 1.1  mrg /* vec_lvlx (load vector left indexed)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_lvlx(int a, unsigned char *b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvlx(int a, vec_uchar16 *b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_lvlx(int a, signed char *b)
 1.1  mrg {
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_lvlx(int a, vec_char16 *b)
 1.1  mrg {
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_lvlx(int a, unsigned short *b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_lvlx(int a, vec_ushort8 *b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_lvlx(int a, signed short *b)
 1.1  mrg {
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_lvlx(int a, vec_short8 *b)
 1.1  mrg {
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_lvlx(int a, unsigned int *b)
 1.1  mrg {
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_lvlx(int a, vec_uint4 *b)
 1.1  mrg {
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_lvlx(int a, signed int *b)
 1.1  mrg {
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_lvlx(int a, vec_int4 *b)
 1.1  mrg {
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_lvlx(int a, float *b)
 1.1  mrg {
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_lvlx(int a, vec_float4 *b)
 1.1  mrg {
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_slqwbyte(*p, (unsigned int)p & 0xF));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_lvlxl (load vector left indexed last)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_lvlxl(_a, _b)	vec_lvlx(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_lvrx (load vector right indexed)
 1.1  mrg  * ========
 1.1  mrg  */
 1.1  mrg static inline vec_uchar16 vec_lvrx(int a, unsigned char *b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uchar16 vec_lvrx(int a, vec_uchar16 *b)
 1.1  mrg {
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_lvrx(int a, signed char *b)
 1.1  mrg {
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_char16 vec_lvrx(int a, vec_char16 *b)
 1.1  mrg {
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_lvrx(int a, unsigned short *b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_ushort8 vec_lvrx(int a, vec_ushort8 *b)
 1.1  mrg {
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_lvrx(int a, signed short *b)
 1.1  mrg {
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_short8 vec_lvrx(int a, vec_short8 *b)
 1.1  mrg {
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_lvrx(int a, unsigned int *b)
 1.1  mrg {
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_uint4 vec_lvrx(int a, vec_uint4 *b)
 1.1  mrg {
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_lvrx(int a, signed int *b)
 1.1  mrg {
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_int4 vec_lvrx(int a, vec_int4 *b)
 1.1  mrg {
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_lvrx(int a, float *b)
 1.1  mrg {
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline vec_float4 vec_lvrx(int a, vec_float4 *b)
 1.1  mrg {
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(b) + a);
 1.1  mrg   return(spu_rlmaskqwbyte(*p, ((int)p & 0xF)-16));
 1.1  mrg }
 1.1  mrg
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_lvrxl (load vector right indexed last)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg #define vec_lvrxl(_a, _b)	vec_lvrx(_a, _b)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_promote (promote scalar to a vector)
 1.1  mrg  * ===========
 1.1  mrg  */
 1.1  mrg #define vec_promote(_a, _element)	spu_promote(_a, _element)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_splats (splat scalar to a vector)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_splats(_a)	spu_splats(_a)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_stvlx (store vector left indexed)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline void vec_stvlx(vec_uchar16 a, int b, unsigned char *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_uchar16 a, int b, vec_uchar16 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_char16 a, int b, signed char *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_char16 a, int b, vec_char16 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_ushort8 a, int b, unsigned short *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_ushort8 a, int b, vec_ushort8 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_short8 a, int b, signed short *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_short8 a, int b, vec_short8 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_uint4 a, int b, unsigned int *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_uint4 a, int b, vec_uint4 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_int4 a, int b, signed int *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_int4 a, int b, vec_int4 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_float4 a, int b, float *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvlx(vec_float4 a, int b, vec_float4 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = -((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_rlmaskqwbyte(a, shift),
 1.1  mrg 	       spu_rlmaskqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_stvlxl (store vector left indexed last)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_stvlxl(_a, _b, _c)	vec_stvlx(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg /* vec_stvrx (store vector right indexed)
 1.1  mrg  * =========
 1.1  mrg  */
 1.1  mrg static inline void vec_stvrx(vec_uchar16 a, int b, unsigned char *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_uchar16 a, int b, vec_uchar16 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uchar16 *p = (vec_uchar16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_char16 a, int b, signed char *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_char16 a, int b, vec_char16 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_char16 *p = (vec_char16 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned char)0xFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_ushort8 a, int b, unsigned short *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_ushort8 a, int b, vec_ushort8 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_ushort8 *p = (vec_ushort8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_short8 a, int b, signed short *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_short8 a, int b, vec_short8 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_short8 *p = (vec_short8 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned short)0xFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_uint4 a, int b, unsigned int *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_uint4 a, int b, vec_uint4 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_uint4 *p = (vec_uint4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_int4 a, int b, signed int *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_int4 a, int b, vec_int4 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_int4 *p = (vec_int4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_float4 a, int b, float *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg static inline void vec_stvrx(vec_float4 a, int b, vec_float4 *c)
 1.1  mrg {
 1.1  mrg   int shift;
 1.1  mrg   vec_float4 *p = (vec_float4 *)((unsigned char *)(c) + b);
 1.1  mrg
 1.1  mrg   shift = 16-((int)p & 0xF);
 1.1  mrg   *p = spu_sel(*p,
 1.1  mrg 	       spu_slqwbyte(a, shift),
 1.1  mrg 	       spu_slqwbyte(spu_splats((unsigned int)0xFFFFFFFF), shift));
 1.1  mrg }
 1.1  mrg
 1.1  mrg /* vec_stvrxl (store vector right indexed last)
 1.1  mrg  * ==========
 1.1  mrg  */
 1.1  mrg #define vec_stvrxl(_a, _b, _c)	vec_stvrx(_a, _b, _c)
 1.1  mrg
 1.1  mrg
 1.1  mrg #endif /* __SPU__ */
 1.1  mrg #endif /* __cplusplus */
 1.1  mrg #endif /* !_VMX2SPU_H_ */