config/rs6000/mmintrin.h

1.1.1.2  mrg /* Copyright (C) 2002-2019 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg    This file is part of GCC.
    1.1  mrg
    1.1  mrg    GCC is free software; you can redistribute it and/or modify
    1.1  mrg    it under the terms of the GNU General Public License as published by
    1.1  mrg    the Free Software Foundation; either version 3, or (at your option)
    1.1  mrg    any later version.
    1.1  mrg
    1.1  mrg    GCC is distributed in the hope that it will be useful,
    1.1  mrg    but WITHOUT ANY WARRANTY; without even the implied warranty of
    1.1  mrg    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
    1.1  mrg    GNU General Public License for more details.
    1.1  mrg
    1.1  mrg    Under Section 7 of GPL version 3, you are granted additional
    1.1  mrg    permissions described in the GCC Runtime Library Exception, version
    1.1  mrg    3.1, as published by the Free Software Foundation.
    1.1  mrg
    1.1  mrg    You should have received a copy of the GNU General Public License and
    1.1  mrg    a copy of the GCC Runtime Library Exception along with this program;
    1.1  mrg    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
    1.1  mrg    <http://www.gnu.org/licenses/>.  */
    1.1  mrg
    1.1  mrg /* Implemented from the specification included in the Intel C++ Compiler
    1.1  mrg    User Guide and Reference, version 9.0.  */
    1.1  mrg
    1.1  mrg #ifndef NO_WARN_X86_INTRINSICS
    1.1  mrg /* This header is distributed to simplify porting x86_64 code that
    1.1  mrg    makes explicit use of Intel intrinsics to powerpc64le.
    1.1  mrg    It is the user's responsibility to determine if the results are
    1.1  mrg    acceptable and make additional changes as necessary.
    1.1  mrg    Note that much code that uses Intel intrinsics can be rewritten in
    1.1  mrg    standard C or GNU C extensions, which are more portable and better
    1.1  mrg    optimized across multiple targets.
    1.1  mrg
    1.1  mrg    In the specific case of X86 MMX (__m64) intrinsics, the PowerPC
    1.1  mrg    target does not support a native __vector_size__ (8) type.  Instead
    1.1  mrg    we typedef __m64 to a 64-bit unsigned long long, which is natively
    1.1  mrg    supported in 64-bit mode.  This works well for the _si64 and some
    1.1  mrg    _pi32 operations, but starts to generate long sequences for _pi16
    1.1  mrg    and _pi8 operations.  For those cases it better (faster and
    1.1  mrg    smaller code) to transfer __m64 data to the PowerPC vector 128-bit
    1.1  mrg    unit, perform the operation, and then transfer the result back to
    1.1  mrg    the __m64 type. This implies that the direct register move
    1.1  mrg    instructions, introduced with power8, are available for efficient
    1.1  mrg    implementation of these transfers.
    1.1  mrg
    1.1  mrg    Most MMX intrinsic operations can be performed efficiently as
    1.1  mrg    C language 64-bit scalar operation or optimized to use the newer
    1.1  mrg    128-bit SSE/Altivec operations.  We recomend this for new
    1.1  mrg    applications.  */
    1.1  mrg #error "Please read comment above.  Use -DNO_WARN_X86_INTRINSICS to disable this error."
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg #ifndef _MMINTRIN_H_INCLUDED
    1.1  mrg #define _MMINTRIN_H_INCLUDED
    1.1  mrg
    1.1  mrg #include <altivec.h>
    1.1  mrg /* The Intel API is flexible enough that we must allow aliasing with other
    1.1  mrg    vector types, and their scalar components.  */
    1.1  mrg typedef __attribute__ ((__aligned__ (8))) unsigned long long __m64;
    1.1  mrg
    1.1  mrg typedef __attribute__ ((__aligned__ (8)))
    1.1  mrg union
    1.1  mrg   {
    1.1  mrg     __m64 as_m64;
    1.1  mrg     char as_char[8];
    1.1  mrg     signed char as_signed_char [8];
    1.1  mrg     short as_short[4];
    1.1  mrg     int as_int[2];
    1.1  mrg     long long as_long_long;
    1.1  mrg     float as_float[2];
    1.1  mrg     double as_double;
    1.1  mrg   } __m64_union;
    1.1  mrg
    1.1  mrg /* Empty the multimedia state.  */
    1.1  mrg extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_empty (void)
    1.1  mrg {
    1.1  mrg   /* nothing to do on PowerPC.  */
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_empty (void)
    1.1  mrg {
    1.1  mrg   /* nothing to do on PowerPC.  */
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Convert I to a __m64 object.  The integer is zero-extended to 64-bits.  */
    1.1  mrg extern __inline __m64  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cvtsi32_si64 (int __i)
    1.1  mrg {
    1.1  mrg   return (__m64) (unsigned int) __i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_from_int (int __i)
    1.1  mrg {
    1.1  mrg   return _mm_cvtsi32_si64 (__i);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Convert the lower 32 bits of the __m64 object into an integer.  */
    1.1  mrg extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cvtsi64_si32 (__m64 __i)
    1.1  mrg {
    1.1  mrg   return ((int) __i);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_to_int (__m64 __i)
    1.1  mrg {
    1.1  mrg   return _mm_cvtsi64_si32 (__i);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Convert I to a __m64 object.  */
    1.1  mrg
    1.1  mrg /* Intel intrinsic.  */
    1.1  mrg extern __inline __m64  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_from_int64 (long long __i)
    1.1  mrg {
    1.1  mrg   return (__m64) __i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cvtsi64_m64 (long long __i)
    1.1  mrg {
    1.1  mrg   return (__m64) __i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Microsoft intrinsic.  */
    1.1  mrg extern __inline __m64  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cvtsi64x_si64 (long long __i)
    1.1  mrg {
    1.1  mrg   return (__m64) __i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_set_pi64x (long long __i)
    1.1  mrg {
    1.1  mrg   return (__m64) __i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Convert the __m64 object to a 64bit integer.  */
    1.1  mrg
    1.1  mrg /* Intel intrinsic.  */
    1.1  mrg extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_to_int64 (__m64 __i)
    1.1  mrg {
    1.1  mrg   return (long long)__i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cvtm64_si64 (__m64 __i)
    1.1  mrg {
    1.1  mrg   return (long long) __i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Microsoft intrinsic.  */
    1.1  mrg extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cvtsi64_si64x (__m64 __i)
    1.1  mrg {
    1.1  mrg   return (long long) __i;
    1.1  mrg }
    1.1  mrg
    1.1  mrg #ifdef _ARCH_PWR8
    1.1  mrg /* Pack the four 16-bit values from M1 into the lower four 8-bit values of
    1.1  mrg    the result, and the four 16-bit values from M2 into the upper four 8-bit
    1.1  mrg    values of the result, all with signed saturation.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_packs_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed short vm1;
    1.1  mrg   __vector signed char vresult;
    1.1  mrg
1.1.1.2  mrg   vm1 = (__vector signed short) (__vector unsigned long long)
1.1.1.2  mrg #ifdef __LITTLE_ENDIAN__
1.1.1.2  mrg         { __m1, __m2 };
1.1.1.2  mrg #else
1.1.1.2  mrg         { __m2, __m1 };
1.1.1.2  mrg #endif
1.1.1.2  mrg   vresult = vec_packs (vm1, vm1);
1.1.1.2  mrg   return (__m64) ((__vector long long) vresult)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_packsswb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_packs_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Pack the two 32-bit values from M1 in to the lower two 16-bit values of
    1.1  mrg    the result, and the two 32-bit values from M2 into the upper two 16-bit
    1.1  mrg    values of the result, all with signed saturation.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_packs_pi32 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed int vm1;
    1.1  mrg   __vector signed short vresult;
    1.1  mrg
1.1.1.2  mrg   vm1 = (__vector signed int) (__vector unsigned long long)
1.1.1.2  mrg #ifdef __LITTLE_ENDIAN__
1.1.1.2  mrg         { __m1, __m2 };
1.1.1.2  mrg #else
1.1.1.2  mrg         { __m2, __m1 };
1.1.1.2  mrg #endif
1.1.1.2  mrg   vresult = vec_packs (vm1, vm1);
1.1.1.2  mrg   return (__m64) ((__vector long long) vresult)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_packssdw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_packs_pi32 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Pack the four 16-bit values from M1 into the lower four 8-bit values of
    1.1  mrg    the result, and the four 16-bit values from M2 into the upper four 8-bit
    1.1  mrg    values of the result, all with unsigned saturation.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_packs_pu16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
1.1.1.2  mrg   __vector unsigned char r;
1.1.1.2  mrg   __vector signed short vm1 = (__vector signed short) (__vector long long)
1.1.1.2  mrg #ifdef __LITTLE_ENDIAN__
1.1.1.2  mrg         { __m1, __m2 };
1.1.1.2  mrg #else
1.1.1.2  mrg         { __m2, __m1 };
1.1.1.2  mrg #endif
1.1.1.2  mrg   const __vector signed short __zero = { 0 };
1.1.1.2  mrg   __vector __bool short __select = vec_cmplt (vm1, __zero);
1.1.1.2  mrg   r = vec_packs ((__vector unsigned short) vm1, (__vector unsigned short) vm1);
1.1.1.2  mrg   __vector __bool char packsel = vec_pack (__select, __select);
1.1.1.2  mrg   r = vec_sel (r, (const __vector unsigned char) __zero, packsel);
1.1.1.2  mrg   return (__m64) ((__vector long long) r)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_packuswb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_packs_pu16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg #endif /* end ARCH_PWR8 */
    1.1  mrg
    1.1  mrg /* Interleave the four 8-bit values from the high half of M1 with the four
    1.1  mrg    8-bit values from the high half of M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_unpackhi_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector unsigned char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector unsigned char)vec_splats (__m1);
    1.1  mrg   b = (__vector unsigned char)vec_splats (__m2);
    1.1  mrg   c = vec_mergel (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[1];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_char[0] = m1.as_char[4];
    1.1  mrg   res.as_char[1] = m2.as_char[4];
    1.1  mrg   res.as_char[2] = m1.as_char[5];
    1.1  mrg   res.as_char[3] = m2.as_char[5];
    1.1  mrg   res.as_char[4] = m1.as_char[6];
    1.1  mrg   res.as_char[5] = m2.as_char[6];
    1.1  mrg   res.as_char[6] = m1.as_char[7];
    1.1  mrg   res.as_char[7] = m2.as_char[7];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_punpckhbw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_unpackhi_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Interleave the two 16-bit values from the high half of M1 with the two
    1.1  mrg    16-bit values from the high half of M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_unpackhi_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_short[0] = m1.as_short[2];
    1.1  mrg   res.as_short[1] = m2.as_short[2];
    1.1  mrg   res.as_short[2] = m1.as_short[3];
    1.1  mrg   res.as_short[3] = m2.as_short[3];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_punpckhwd (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_unpackhi_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg /* Interleave the 32-bit value from the high half of M1 with the 32-bit
    1.1  mrg    value from the high half of M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_unpackhi_pi32 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_int[0] = m1.as_int[1];
    1.1  mrg   res.as_int[1] = m2.as_int[1];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_punpckhdq (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_unpackhi_pi32 (__m1, __m2);
    1.1  mrg }
    1.1  mrg /* Interleave the four 8-bit values from the low half of M1 with the four
    1.1  mrg    8-bit values from the low half of M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_unpacklo_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector unsigned char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector unsigned char)vec_splats (__m1);
    1.1  mrg   b = (__vector unsigned char)vec_splats (__m2);
    1.1  mrg   c = vec_mergel (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_char[0] = m1.as_char[0];
    1.1  mrg   res.as_char[1] = m2.as_char[0];
    1.1  mrg   res.as_char[2] = m1.as_char[1];
    1.1  mrg   res.as_char[3] = m2.as_char[1];
    1.1  mrg   res.as_char[4] = m1.as_char[2];
    1.1  mrg   res.as_char[5] = m2.as_char[2];
    1.1  mrg   res.as_char[6] = m1.as_char[3];
    1.1  mrg   res.as_char[7] = m2.as_char[3];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_punpcklbw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_unpacklo_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg /* Interleave the two 16-bit values from the low half of M1 with the two
    1.1  mrg    16-bit values from the low half of M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_unpacklo_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_short[0] = m1.as_short[0];
    1.1  mrg   res.as_short[1] = m2.as_short[0];
    1.1  mrg   res.as_short[2] = m1.as_short[1];
    1.1  mrg   res.as_short[3] = m2.as_short[1];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_punpcklwd (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_unpacklo_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Interleave the 32-bit value from the low half of M1 with the 32-bit
    1.1  mrg    value from the low half of M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_unpacklo_pi32 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_int[0] = m1.as_int[0];
    1.1  mrg   res.as_int[1] = m2.as_int[0];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_punpckldq (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_unpacklo_pi32 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Add the 8-bit values in M1 to the 8-bit values in M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_add_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed char)vec_splats (__m1);
    1.1  mrg   b = (__vector signed char)vec_splats (__m2);
    1.1  mrg   c = vec_add (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_char[0] = m1.as_char[0] + m2.as_char[0];
    1.1  mrg   res.as_char[1] = m1.as_char[1] + m2.as_char[1];
    1.1  mrg   res.as_char[2] = m1.as_char[2] + m2.as_char[2];
    1.1  mrg   res.as_char[3] = m1.as_char[3] + m2.as_char[3];
    1.1  mrg   res.as_char[4] = m1.as_char[4] + m2.as_char[4];
    1.1  mrg   res.as_char[5] = m1.as_char[5] + m2.as_char[5];
    1.1  mrg   res.as_char[6] = m1.as_char[6] + m2.as_char[6];
    1.1  mrg   res.as_char[7] = m1.as_char[7] + m2.as_char[7];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_paddb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_add_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Add the 16-bit values in M1 to the 16-bit values in M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_add_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = vec_add (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_short[0] = m1.as_short[0] + m2.as_short[0];
    1.1  mrg   res.as_short[1] = m1.as_short[1] + m2.as_short[1];
    1.1  mrg   res.as_short[2] = m1.as_short[2] + m2.as_short[2];
    1.1  mrg   res.as_short[3] = m1.as_short[3] + m2.as_short[3];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_paddw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_add_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Add the 32-bit values in M1 to the 32-bit values in M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_add_pi32 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR9
    1.1  mrg   __vector signed int a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed int)vec_splats (__m1);
    1.1  mrg   b = (__vector signed int)vec_splats (__m2);
    1.1  mrg   c = vec_add (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_int[0] = m1.as_int[0] + m2.as_int[0];
    1.1  mrg   res.as_int[1] = m1.as_int[1] + m2.as_int[1];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_paddd (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_add_pi32 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Subtract the 8-bit values in M2 from the 8-bit values in M1.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sub_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed char)vec_splats (__m1);
    1.1  mrg   b = (__vector signed char)vec_splats (__m2);
    1.1  mrg   c = vec_sub (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_char[0] = m1.as_char[0] - m2.as_char[0];
    1.1  mrg   res.as_char[1] = m1.as_char[1] - m2.as_char[1];
    1.1  mrg   res.as_char[2] = m1.as_char[2] - m2.as_char[2];
    1.1  mrg   res.as_char[3] = m1.as_char[3] - m2.as_char[3];
    1.1  mrg   res.as_char[4] = m1.as_char[4] - m2.as_char[4];
    1.1  mrg   res.as_char[5] = m1.as_char[5] - m2.as_char[5];
    1.1  mrg   res.as_char[6] = m1.as_char[6] - m2.as_char[6];
    1.1  mrg   res.as_char[7] = m1.as_char[7] - m2.as_char[7];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psubb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_sub_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Subtract the 16-bit values in M2 from the 16-bit values in M1.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sub_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = vec_sub (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_short[0] = m1.as_short[0] - m2.as_short[0];
    1.1  mrg   res.as_short[1] = m1.as_short[1] - m2.as_short[1];
    1.1  mrg   res.as_short[2] = m1.as_short[2] - m2.as_short[2];
    1.1  mrg   res.as_short[3] = m1.as_short[3] - m2.as_short[3];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psubw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_sub_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Subtract the 32-bit values in M2 from the 32-bit values in M1.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sub_pi32 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR9
    1.1  mrg   __vector signed int a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed int)vec_splats (__m1);
    1.1  mrg   b = (__vector signed int)vec_splats (__m2);
    1.1  mrg   c = vec_sub (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_int[0] = m1.as_int[0] - m2.as_int[0];
    1.1  mrg   res.as_int[1] = m1.as_int[1] - m2.as_int[1];
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psubd (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_sub_pi32 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_add_si64 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return (__m1 + __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sub_si64 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return (__m1 - __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift the 64-bit value in M left by COUNT.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sll_si64 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return (__m << __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psllq (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_sll_si64 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_slli_si64 (__m64 __m, const int __count)
    1.1  mrg {
    1.1  mrg   return (__m << __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psllqi (__m64 __m, const int __count)
    1.1  mrg {
    1.1  mrg   return _mm_slli_si64 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift the 64-bit value in M left by COUNT; shift in zeros.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srl_si64 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return (__m >> __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrlq (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_srl_si64 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srli_si64 (__m64 __m, const int __count)
    1.1  mrg {
    1.1  mrg   return (__m >> __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrlqi (__m64 __m, const int __count)
    1.1  mrg {
    1.1  mrg   return _mm_srli_si64 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Bit-wise AND the 64-bit values in M1 and M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_and_si64 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return (__m1 & __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pand (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_and_si64 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Bit-wise complement the 64-bit value in M1 and bit-wise AND it with the
    1.1  mrg    64-bit value in M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_andnot_si64 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return (~__m1 & __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pandn (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_andnot_si64 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Bit-wise inclusive OR the 64-bit values in M1 and M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_or_si64 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return (__m1 | __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_por (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_or_si64 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Bit-wise exclusive OR the 64-bit values in M1 and M2.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_xor_si64 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return  (__m1 ^ __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pxor (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_xor_si64 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Creates a 64-bit zero.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_setzero_si64 (void)
    1.1  mrg {
    1.1  mrg   return (__m64) 0;
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Compare eight 8-bit values.  The result of the comparison is 0xFF if the
    1.1  mrg    test is true and zero if false.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cmpeq_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
1.1.1.2  mrg #if defined(_ARCH_PWR6) && defined(__powerpc64__)
    1.1  mrg   __m64 res;
    1.1  mrg   __asm__(
    1.1  mrg       "cmpb %0,%1,%2;\n"
    1.1  mrg       : "=r" (res)
    1.1  mrg       : "r" (__m1),
    1.1  mrg 	"r" (__m2)
    1.1  mrg       : );
    1.1  mrg   return (res);
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_char[0] = (m1.as_char[0] == m2.as_char[0])? -1: 0;
    1.1  mrg   res.as_char[1] = (m1.as_char[1] == m2.as_char[1])? -1: 0;
    1.1  mrg   res.as_char[2] = (m1.as_char[2] == m2.as_char[2])? -1: 0;
    1.1  mrg   res.as_char[3] = (m1.as_char[3] == m2.as_char[3])? -1: 0;
    1.1  mrg   res.as_char[4] = (m1.as_char[4] == m2.as_char[4])? -1: 0;
    1.1  mrg   res.as_char[5] = (m1.as_char[5] == m2.as_char[5])? -1: 0;
    1.1  mrg   res.as_char[6] = (m1.as_char[6] == m2.as_char[6])? -1: 0;
    1.1  mrg   res.as_char[7] = (m1.as_char[7] == m2.as_char[7])? -1: 0;
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pcmpeqb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_cmpeq_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cmpgt_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed char)vec_splats (__m1);
    1.1  mrg   b = (__vector signed char)vec_splats (__m2);
    1.1  mrg   c = (__vector signed char)vec_cmpgt (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_char[0] = (m1.as_char[0] > m2.as_char[0])? -1: 0;
    1.1  mrg   res.as_char[1] = (m1.as_char[1] > m2.as_char[1])? -1: 0;
    1.1  mrg   res.as_char[2] = (m1.as_char[2] > m2.as_char[2])? -1: 0;
    1.1  mrg   res.as_char[3] = (m1.as_char[3] > m2.as_char[3])? -1: 0;
    1.1  mrg   res.as_char[4] = (m1.as_char[4] > m2.as_char[4])? -1: 0;
    1.1  mrg   res.as_char[5] = (m1.as_char[5] > m2.as_char[5])? -1: 0;
    1.1  mrg   res.as_char[6] = (m1.as_char[6] > m2.as_char[6])? -1: 0;
    1.1  mrg   res.as_char[7] = (m1.as_char[7] > m2.as_char[7])? -1: 0;
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pcmpgtb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_cmpgt_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Compare four 16-bit values.  The result of the comparison is 0xFFFF if
    1.1  mrg    the test is true and zero if false.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cmpeq_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = (__vector signed short)vec_cmpeq (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_short[0] = (m1.as_short[0] == m2.as_short[0])? -1: 0;
    1.1  mrg   res.as_short[1] = (m1.as_short[1] == m2.as_short[1])? -1: 0;
    1.1  mrg   res.as_short[2] = (m1.as_short[2] == m2.as_short[2])? -1: 0;
    1.1  mrg   res.as_short[3] = (m1.as_short[3] == m2.as_short[3])? -1: 0;
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pcmpeqw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_cmpeq_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cmpgt_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = (__vector signed short)vec_cmpgt (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_short[0] = (m1.as_short[0] > m2.as_short[0])? -1: 0;
    1.1  mrg   res.as_short[1] = (m1.as_short[1] > m2.as_short[1])? -1: 0;
    1.1  mrg   res.as_short[2] = (m1.as_short[2] > m2.as_short[2])? -1: 0;
    1.1  mrg   res.as_short[3] = (m1.as_short[3] > m2.as_short[3])? -1: 0;
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pcmpgtw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_cmpgt_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Compare two 32-bit values.  The result of the comparison is 0xFFFFFFFF if
    1.1  mrg    the test is true and zero if false.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cmpeq_pi32 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR9
    1.1  mrg   __vector signed int a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed int)vec_splats (__m1);
    1.1  mrg   b = (__vector signed int)vec_splats (__m2);
    1.1  mrg   c = (__vector signed int)vec_cmpeq (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_int[0] = (m1.as_int[0] == m2.as_int[0])? -1: 0;
    1.1  mrg   res.as_int[1] = (m1.as_int[1] == m2.as_int[1])? -1: 0;
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pcmpeqd (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_cmpeq_pi32 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_cmpgt_pi32 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR9
    1.1  mrg   __vector signed int a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed int)vec_splats (__m1);
    1.1  mrg   b = (__vector signed int)vec_splats (__m2);
    1.1  mrg   c = (__vector signed int)vec_cmpgt (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union m1, m2, res;
    1.1  mrg
    1.1  mrg   m1.as_m64 = __m1;
    1.1  mrg   m2.as_m64 = __m2;
    1.1  mrg
    1.1  mrg   res.as_int[0] = (m1.as_int[0] > m2.as_int[0])? -1: 0;
    1.1  mrg   res.as_int[1] = (m1.as_int[1] > m2.as_int[1])? -1: 0;
    1.1  mrg
    1.1  mrg   return (__m64) res.as_m64;
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pcmpgtd (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_cmpgt_pi32 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg /* Add the 8-bit values in M1 to the 8-bit values in M2 using signed
    1.1  mrg    saturated arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_adds_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed char)vec_splats (__m1);
    1.1  mrg   b = (__vector signed char)vec_splats (__m2);
    1.1  mrg   c = vec_adds (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_paddsb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_adds_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg /* Add the 16-bit values in M1 to the 16-bit values in M2 using signed
    1.1  mrg    saturated arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_adds_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = vec_adds (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_paddsw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_adds_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg /* Add the 8-bit values in M1 to the 8-bit values in M2 using unsigned
    1.1  mrg    saturated arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_adds_pu8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector unsigned char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector unsigned char)vec_splats (__m1);
    1.1  mrg   b = (__vector unsigned char)vec_splats (__m2);
    1.1  mrg   c = vec_adds (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_paddusb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_adds_pu8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Add the 16-bit values in M1 to the 16-bit values in M2 using unsigned
    1.1  mrg    saturated arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_adds_pu16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector unsigned short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector unsigned short)vec_splats (__m1);
    1.1  mrg   b = (__vector unsigned short)vec_splats (__m2);
    1.1  mrg   c = vec_adds (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_paddusw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_adds_pu16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Subtract the 8-bit values in M2 from the 8-bit values in M1 using signed
    1.1  mrg    saturating arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_subs_pi8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed char)vec_splats (__m1);
    1.1  mrg   b = (__vector signed char)vec_splats (__m2);
    1.1  mrg   c = vec_subs (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psubsb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_subs_pi8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Subtract the 16-bit values in M2 from the 16-bit values in M1 using
    1.1  mrg    signed saturating arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_subs_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = vec_subs (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psubsw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_subs_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Subtract the 8-bit values in M2 from the 8-bit values in M1 using
    1.1  mrg    unsigned saturating arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_subs_pu8 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector unsigned char a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector unsigned char)vec_splats (__m1);
    1.1  mrg   b = (__vector unsigned char)vec_splats (__m2);
    1.1  mrg   c = vec_subs (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psubusb (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_subs_pu8 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Subtract the 16-bit values in M2 from the 16-bit values in M1 using
    1.1  mrg    unsigned saturating arithmetic.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_subs_pu16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector unsigned short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector unsigned short)vec_splats (__m1);
    1.1  mrg   b = (__vector unsigned short)vec_splats (__m2);
    1.1  mrg   c = vec_subs (a, b);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psubusw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_subs_pu16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Multiply four 16-bit values in M1 by four 16-bit values in M2 producing
    1.1  mrg    four 32-bit intermediate results, which are then summed by pairs to
    1.1  mrg    produce two 32-bit results.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_madd_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed short a, b;
    1.1  mrg   __vector signed int c;
    1.1  mrg   __vector signed int zero = {0, 0, 0, 0};
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = vec_vmsumshm (a, b, zero);
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pmaddwd (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_madd_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg /* Multiply four signed 16-bit values in M1 by four signed 16-bit values in
    1.1  mrg    M2 and produce the high 16 bits of the 32-bit results.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_mulhi_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed short a, b;
    1.1  mrg   __vector signed short c;
    1.1  mrg   __vector signed int w0, w1;
    1.1  mrg   __vector unsigned char xform1 = {
1.1.1.2  mrg #ifdef __LITTLE_ENDIAN__
    1.1  mrg       0x02, 0x03, 0x12, 0x13,  0x06, 0x07, 0x16, 0x17,
    1.1  mrg       0x0A, 0x0B, 0x1A, 0x1B,  0x0E, 0x0F, 0x1E, 0x1F
1.1.1.2  mrg #else
1.1.1.2  mrg       0x00, 0x01, 0x10, 0x11,  0x04, 0x05, 0x14, 0x15,
1.1.1.2  mrg       0x00, 0x01, 0x10, 0x11,  0x04, 0x05, 0x14, 0x15
1.1.1.2  mrg #endif
    1.1  mrg     };
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg
    1.1  mrg   w0 = vec_vmulesh (a, b);
    1.1  mrg   w1 = vec_vmulosh (a, b);
    1.1  mrg   c = (__vector signed short)vec_perm (w0, w1, xform1);
    1.1  mrg
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pmulhw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_mulhi_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Multiply four 16-bit values in M1 by four 16-bit values in M2 and produce
    1.1  mrg    the low 16 bits of the results.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_mullo_pi16 (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   __vector signed short a, b, c;
    1.1  mrg
    1.1  mrg   a = (__vector signed short)vec_splats (__m1);
    1.1  mrg   b = (__vector signed short)vec_splats (__m2);
    1.1  mrg   c = a * b;
1.1.1.2  mrg   return (__m64) ((__vector long long) c)[0];
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pmullw (__m64 __m1, __m64 __m2)
    1.1  mrg {
    1.1  mrg   return _mm_mullo_pi16 (__m1, __m2);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift four 16-bit values in M left by COUNT.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sll_pi16 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   __vector signed short m, r;
    1.1  mrg   __vector unsigned short c;
    1.1  mrg
    1.1  mrg   if (__count <= 15)
    1.1  mrg     {
    1.1  mrg       m = (__vector signed short)vec_splats (__m);
    1.1  mrg       c = (__vector unsigned short)vec_splats ((unsigned short)__count);
    1.1  mrg       r = vec_sl (m, (__vector unsigned short)c);
1.1.1.2  mrg       return (__m64) ((__vector long long) r)[0];
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg   return (0);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psllw (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_sll_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_slli_pi16 (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   /* Promote int to long then invoke mm_sll_pi16.  */
    1.1  mrg   return _mm_sll_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psllwi (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   return _mm_slli_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift two 32-bit values in M left by COUNT.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sll_pi32 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   __m64_union m, res;
    1.1  mrg
    1.1  mrg   m.as_m64 = __m;
    1.1  mrg
    1.1  mrg   res.as_int[0] = m.as_int[0] << __count;
    1.1  mrg   res.as_int[1] = m.as_int[1] << __count;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pslld (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_sll_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_slli_pi32 (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   /* Promote int to long then invoke mm_sll_pi32.  */
    1.1  mrg   return _mm_sll_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_pslldi (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   return _mm_slli_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift four 16-bit values in M right by COUNT; shift in the sign bit.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sra_pi16 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   __vector signed short m, r;
    1.1  mrg   __vector unsigned short c;
    1.1  mrg
    1.1  mrg   if (__count <= 15)
    1.1  mrg     {
    1.1  mrg 	m = (__vector signed short)vec_splats (__m);
    1.1  mrg 	c = (__vector unsigned short)vec_splats ((unsigned short)__count);
    1.1  mrg 	r = vec_sra (m, (__vector unsigned short)c);
1.1.1.2  mrg         return (__m64) ((__vector long long) r)[0];
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg   return (0);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psraw (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_sra_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srai_pi16 (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   /* Promote int to long then invoke mm_sra_pi32.  */
    1.1  mrg   return _mm_sra_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrawi (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   return _mm_srai_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift two 32-bit values in M right by COUNT; shift in the sign bit.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_sra_pi32 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   __m64_union m, res;
    1.1  mrg
    1.1  mrg   m.as_m64 = __m;
    1.1  mrg
    1.1  mrg   res.as_int[0] = m.as_int[0] >> __count;
    1.1  mrg   res.as_int[1] = m.as_int[1] >> __count;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrad (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_sra_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srai_pi32 (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   /* Promote int to long then invoke mm_sra_pi32.  */
    1.1  mrg   return _mm_sra_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psradi (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   return _mm_srai_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift four 16-bit values in M right by COUNT; shift in zeros.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srl_pi16 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   __vector unsigned short m, r;
    1.1  mrg   __vector unsigned short c;
    1.1  mrg
    1.1  mrg   if (__count <= 15)
    1.1  mrg     {
    1.1  mrg 	m = (__vector unsigned short)vec_splats (__m);
    1.1  mrg 	c = (__vector unsigned short)vec_splats ((unsigned short)__count);
    1.1  mrg 	r = vec_sr (m, (__vector unsigned short)c);
1.1.1.2  mrg         return (__m64) ((__vector long long) r)[0];
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     return (0);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrlw (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_srl_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srli_pi16 (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   /* Promote int to long then invoke mm_sra_pi32.  */
    1.1  mrg   return _mm_srl_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrlwi (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   return _mm_srli_pi16 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Shift two 32-bit values in M right by COUNT; shift in zeros.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srl_pi32 (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   __m64_union m, res;
    1.1  mrg
    1.1  mrg   m.as_m64 = __m;
    1.1  mrg
    1.1  mrg   res.as_int[0] = (unsigned int)m.as_int[0] >> __count;
    1.1  mrg   res.as_int[1] = (unsigned int)m.as_int[1] >> __count;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrld (__m64 __m, __m64 __count)
    1.1  mrg {
    1.1  mrg   return _mm_srl_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_srli_pi32 (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   /* Promote int to long then invoke mm_srl_pi32.  */
    1.1  mrg   return _mm_srl_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _m_psrldi (__m64 __m, int __count)
    1.1  mrg {
    1.1  mrg   return _mm_srli_pi32 (__m, __count);
    1.1  mrg }
    1.1  mrg #endif /* _ARCH_PWR8 */
    1.1  mrg
    1.1  mrg /* Creates a vector of two 32-bit values; I0 is least significant.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_set_pi32 (int __i1, int __i0)
    1.1  mrg {
    1.1  mrg   __m64_union res;
    1.1  mrg
    1.1  mrg   res.as_int[0] = __i0;
    1.1  mrg   res.as_int[1] = __i1;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Creates a vector of four 16-bit values; W0 is least significant.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_set_pi16 (short __w3, short __w2, short __w1, short __w0)
    1.1  mrg {
    1.1  mrg   __m64_union res;
    1.1  mrg
    1.1  mrg   res.as_short[0] = __w0;
    1.1  mrg   res.as_short[1] = __w1;
    1.1  mrg   res.as_short[2] = __w2;
    1.1  mrg   res.as_short[3] = __w3;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Creates a vector of eight 8-bit values; B0 is least significant.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_set_pi8 (char __b7, char __b6, char __b5, char __b4,
    1.1  mrg 	     char __b3, char __b2, char __b1, char __b0)
    1.1  mrg {
    1.1  mrg   __m64_union res;
    1.1  mrg
    1.1  mrg   res.as_char[0] = __b0;
    1.1  mrg   res.as_char[1] = __b1;
    1.1  mrg   res.as_char[2] = __b2;
    1.1  mrg   res.as_char[3] = __b3;
    1.1  mrg   res.as_char[4] = __b4;
    1.1  mrg   res.as_char[5] = __b5;
    1.1  mrg   res.as_char[6] = __b6;
    1.1  mrg   res.as_char[7] = __b7;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Similar, but with the arguments in reverse order.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_setr_pi32 (int __i0, int __i1)
    1.1  mrg {
    1.1  mrg   __m64_union res;
    1.1  mrg
    1.1  mrg   res.as_int[0] = __i0;
    1.1  mrg   res.as_int[1] = __i1;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_setr_pi16 (short __w0, short __w1, short __w2, short __w3)
    1.1  mrg {
    1.1  mrg   return _mm_set_pi16 (__w3, __w2, __w1, __w0);
    1.1  mrg }
    1.1  mrg
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_setr_pi8 (char __b0, char __b1, char __b2, char __b3,
    1.1  mrg 	      char __b4, char __b5, char __b6, char __b7)
    1.1  mrg {
    1.1  mrg   return _mm_set_pi8 (__b7, __b6, __b5, __b4, __b3, __b2, __b1, __b0);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Creates a vector of two 32-bit values, both elements containing I.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_set1_pi32 (int __i)
    1.1  mrg {
    1.1  mrg   __m64_union res;
    1.1  mrg
    1.1  mrg   res.as_int[0] = __i;
    1.1  mrg   res.as_int[1] = __i;
    1.1  mrg   return (res.as_m64);
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Creates a vector of four 16-bit values, all elements containing W.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_set1_pi16 (short __w)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR9
    1.1  mrg   __vector signed short w;
    1.1  mrg
    1.1  mrg   w = (__vector signed short)vec_splats (__w);
1.1.1.2  mrg   return (__m64) ((__vector long long) w)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union res;
    1.1  mrg
    1.1  mrg   res.as_short[0] = __w;
    1.1  mrg   res.as_short[1] = __w;
    1.1  mrg   res.as_short[2] = __w;
    1.1  mrg   res.as_short[3] = __w;
    1.1  mrg   return (res.as_m64);
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg
    1.1  mrg /* Creates a vector of eight 8-bit values, all elements containing B.  */
    1.1  mrg extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
    1.1  mrg _mm_set1_pi8 (signed char __b)
    1.1  mrg {
    1.1  mrg #if _ARCH_PWR8
    1.1  mrg   __vector signed char b;
    1.1  mrg
    1.1  mrg   b = (__vector signed char)vec_splats (__b);
1.1.1.2  mrg   return (__m64) ((__vector long long) b)[0];
    1.1  mrg #else
    1.1  mrg   __m64_union res;
    1.1  mrg
    1.1  mrg   res.as_char[0] = __b;
    1.1  mrg   res.as_char[1] = __b;
    1.1  mrg   res.as_char[2] = __b;
    1.1  mrg   res.as_char[3] = __b;
    1.1  mrg   res.as_char[4] = __b;
    1.1  mrg   res.as_char[5] = __b;
    1.1  mrg   res.as_char[6] = __b;
    1.1  mrg   res.as_char[7] = __b;
    1.1  mrg   return (res.as_m64);
    1.1  mrg #endif
    1.1  mrg }
    1.1  mrg #endif /* _MMINTRIN_H_INCLUDED */