config/rs6000/tmmintrin.h

1.1  mrg /* Copyright (C) 2003-2019 Free Software Foundation, Inc.
1.1  mrg
1.1  mrg    This file is part of GCC.
1.1  mrg
1.1  mrg    GCC is free software; you can redistribute it and/or modify
1.1  mrg    it under the terms of the GNU General Public License as published by
1.1  mrg    the Free Software Foundation; either version 3, or (at your option)
1.1  mrg    any later version.
1.1  mrg
1.1  mrg    GCC is distributed in the hope that it will be useful,
1.1  mrg    but WITHOUT ANY WARRANTY; without even the implied warranty of
1.1  mrg    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
1.1  mrg    GNU General Public License for more details.
1.1  mrg
1.1  mrg    Under Section 7 of GPL version 3, you are granted additional
1.1  mrg    permissions described in the GCC Runtime Library Exception, version
1.1  mrg    3.1, as published by the Free Software Foundation.
1.1  mrg
1.1  mrg    You should have received a copy of the GNU General Public License and
1.1  mrg    a copy of the GCC Runtime Library Exception along with this program;
1.1  mrg    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
1.1  mrg    <http://www.gnu.org/licenses/>.  */
1.1  mrg
1.1  mrg /* Implemented from the specification included in the Intel C++ Compiler
1.1  mrg    User Guide and Reference, version 9.0.  */
1.1  mrg
1.1  mrg #ifndef NO_WARN_X86_INTRINSICS
1.1  mrg /* This header is distributed to simplify porting x86_64 code that
1.1  mrg    makes explicit use of Intel intrinsics to powerpc64le.
1.1  mrg    It is the user's responsibility to determine if the results are
1.1  mrg    acceptable and make additional changes as necessary.
1.1  mrg    Note that much code that uses Intel intrinsics can be rewritten in
1.1  mrg    standard C or GNU C extensions, which are more portable and better
1.1  mrg    optimized across multiple targets.  */
1.1  mrg #endif
1.1  mrg
1.1  mrg #ifndef TMMINTRIN_H_
1.1  mrg #define TMMINTRIN_H_
1.1  mrg
1.1  mrg #include <altivec.h>
1.1  mrg #include <assert.h>
1.1  mrg
1.1  mrg /* We need definitions from the SSE header files.  */
1.1  mrg #include <pmmintrin.h>
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_abs_epi16 (__m128i __A)
1.1  mrg {
1.1  mrg   return (__m128i) vec_abs ((__v8hi) __A);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_abs_epi32 (__m128i __A)
1.1  mrg {
1.1  mrg   return (__m128i) vec_abs ((__v4si) __A);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_abs_epi8 (__m128i __A)
1.1  mrg {
1.1  mrg   return (__m128i) vec_abs ((__v16qi) __A);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_abs_pi16 (__m64 __A)
1.1  mrg {
1.1  mrg   __v8hi __B = (__v8hi) (__v2du) { __A, __A };
1.1  mrg   return (__m64) ((__v2du) vec_abs (__B))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_abs_pi32 (__m64 __A)
1.1  mrg {
1.1  mrg   __v4si __B = (__v4si) (__v2du) { __A, __A };
1.1  mrg   return (__m64) ((__v2du) vec_abs (__B))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_abs_pi8 (__m64 __A)
1.1  mrg {
1.1  mrg   __v16qi __B = (__v16qi) (__v2du) { __A, __A };
1.1  mrg   return (__m64) ((__v2du) vec_abs (__B))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_alignr_epi8 (__m128i __A, __m128i __B, const unsigned int __count)
1.1  mrg {
1.1  mrg   if (__builtin_constant_p (__count) && __count < 16)
1.1  mrg     {
1.1  mrg #ifdef __LITTLE_ENDIAN__
1.1  mrg       __A = (__m128i) vec_reve ((__v16qu) __A);
1.1  mrg       __B = (__m128i) vec_reve ((__v16qu) __B);
1.1  mrg #endif
1.1  mrg       __A = (__m128i) vec_sld ((__v16qu) __B, (__v16qu) __A, __count);
1.1  mrg #ifdef __LITTLE_ENDIAN__
1.1  mrg       __A = (__m128i) vec_reve ((__v16qu) __A);
1.1  mrg #endif
1.1  mrg       return __A;
1.1  mrg     }
1.1  mrg
1.1  mrg   if (__count == 0)
1.1  mrg     return __B;
1.1  mrg
1.1  mrg   if (__count >= 16)
1.1  mrg     {
1.1  mrg       if (__count >= 32)
1.1  mrg 	{
1.1  mrg 	  const __v16qu zero = { 0 };
1.1  mrg 	  return (__m128i) zero;
1.1  mrg 	}
1.1  mrg       else
1.1  mrg 	{
1.1  mrg 	  const __v16qu __shift =
1.1  mrg 	    vec_splats ((unsigned char) ((__count - 16) * 8));
1.1  mrg #ifdef __LITTLE_ENDIAN__
1.1  mrg 	  return (__m128i) vec_sro ((__v16qu) __A, __shift);
1.1  mrg #else
1.1  mrg 	  return (__m128i) vec_slo ((__v16qu) __A, __shift);
1.1  mrg #endif
1.1  mrg 	}
1.1  mrg     }
1.1  mrg   else
1.1  mrg     {
1.1  mrg       const __v16qu __shiftA =
1.1  mrg 	vec_splats ((unsigned char) ((16 - __count) * 8));
1.1  mrg       const __v16qu __shiftB = vec_splats ((unsigned char) (__count * 8));
1.1  mrg #ifdef __LITTLE_ENDIAN__
1.1  mrg       __A = (__m128i) vec_slo ((__v16qu) __A, __shiftA);
1.1  mrg       __B = (__m128i) vec_sro ((__v16qu) __B, __shiftB);
1.1  mrg #else
1.1  mrg       __A = (__m128i) vec_sro ((__v16qu) __A, __shiftA);
1.1  mrg       __B = (__m128i) vec_slo ((__v16qu) __B, __shiftB);
1.1  mrg #endif
1.1  mrg       return (__m128i) vec_or ((__v16qu) __A, (__v16qu) __B);
1.1  mrg     }
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_alignr_pi8 (__m64 __A, __m64 __B, unsigned int __count)
1.1  mrg {
1.1  mrg   if (__count < 16)
1.1  mrg     {
1.1  mrg       __v2du __C = { __B, __A };
1.1  mrg #ifdef __LITTLE_ENDIAN__
1.1  mrg       const __v4su __shift = { __count << 3, 0, 0, 0 };
1.1  mrg       __C = (__v2du) vec_sro ((__v16qu) __C, (__v16qu) __shift);
1.1  mrg #else
1.1  mrg       const __v4su __shift = { 0, 0, 0, __count << 3 };
1.1  mrg       __C = (__v2du) vec_slo ((__v16qu) __C, (__v16qu) __shift);
1.1  mrg #endif
1.1  mrg       return (__m64) __C[0];
1.1  mrg     }
1.1  mrg   else
1.1  mrg     {
1.1  mrg       const __m64 __zero = { 0 };
1.1  mrg       return __zero;
1.1  mrg     }
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hadd_epi16 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13, 16, 17, 20, 21, 24, 25, 28, 29 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15, 18, 19, 22, 23, 26, 27, 30, 31 };
1.1  mrg   __v8hi __C = vec_perm ((__v8hi) __A, (__v8hi) __B, __P);
1.1  mrg   __v8hi __D = vec_perm ((__v8hi) __A, (__v8hi) __B, __Q);
1.1  mrg   return (__m128i) vec_add (__C, __D);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hadd_epi32 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  2,  3,  8,  9, 10, 11, 16, 17, 18, 19, 24, 25, 26, 27 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  4,  5,  6,  7, 12, 13, 14, 15, 20, 21, 22, 23, 28, 29, 30, 31 };
1.1  mrg   __v4si __C = vec_perm ((__v4si) __A, (__v4si) __B, __P);
1.1  mrg   __v4si __D = vec_perm ((__v4si) __A, (__v4si) __B, __Q);
1.1  mrg   return (__m128i) vec_add (__C, __D);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hadd_pi16 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   __v8hi __C = (__v8hi) (__v2du) { __A, __B };
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13,  0,  1,  4,  5,  8,  9, 12, 13 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15,  2,  3,  6,  7, 10, 11, 14, 15 };
1.1  mrg   __v8hi __D = vec_perm (__C, __C, __Q);
1.1  mrg   __C = vec_perm (__C, __C, __P);
1.1  mrg   __C = vec_add (__C, __D);
1.1  mrg   return (__m64) ((__v2du) __C)[1];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hadd_pi32 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   __v4si __C = (__v4si) (__v2du) { __A, __B };
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  2,  3,  8,  9, 10, 11,  0,  1,  2,  3,  8,  9, 10, 11 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  4,  5,  6,  7, 12, 13, 14, 15,  4,  5,  6,  7, 12, 13, 14, 15 };
1.1  mrg   __v4si __D = vec_perm (__C, __C, __Q);
1.1  mrg   __C = vec_perm (__C, __C, __P);
1.1  mrg   __C = vec_add (__C, __D);
1.1  mrg   return (__m64) ((__v2du) __C)[1];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hadds_epi16 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   __v4si __C = { 0 }, __D = { 0 };
1.1  mrg   __C = vec_sum4s ((__v8hi) __A, __C);
1.1  mrg   __D = vec_sum4s ((__v8hi) __B, __D);
1.1  mrg   __C = (__v4si) vec_packs (__C, __D);
1.1  mrg   return (__m128i) __C;
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hadds_pi16 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v4si __zero = { 0 };
1.1  mrg   __v8hi __C = (__v8hi) (__v2du) { __A, __B };
1.1  mrg   __v4si __D = vec_sum4s (__C, __zero);
1.1  mrg   __C = vec_packs (__D, __D);
1.1  mrg   return (__m64) ((__v2du) __C)[1];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hsub_epi16 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13, 16, 17, 20, 21, 24, 25, 28, 29 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15, 18, 19, 22, 23, 26, 27, 30, 31 };
1.1  mrg   __v8hi __C = vec_perm ((__v8hi) __A, (__v8hi) __B, __P);
1.1  mrg   __v8hi __D = vec_perm ((__v8hi) __A, (__v8hi) __B, __Q);
1.1  mrg   return (__m128i) vec_sub (__C, __D);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hsub_epi32 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  2,  3,  8,  9, 10, 11, 16, 17, 18, 19, 24, 25, 26, 27 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  4,  5,  6,  7, 12, 13, 14, 15, 20, 21, 22, 23, 28, 29, 30, 31 };
1.1  mrg   __v4si __C = vec_perm ((__v4si) __A, (__v4si) __B, __P);
1.1  mrg   __v4si __D = vec_perm ((__v4si) __A, (__v4si) __B, __Q);
1.1  mrg   return (__m128i) vec_sub (__C, __D);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hsub_pi16 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13,  0,  1,  4,  5,  8,  9, 12, 13 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15,  2,  3,  6,  7, 10, 11, 14, 15 };
1.1  mrg   __v8hi __C = (__v8hi) (__v2du) { __A, __B };
1.1  mrg   __v8hi __D = vec_perm (__C, __C, __Q);
1.1  mrg   __C = vec_perm (__C, __C, __P);
1.1  mrg   __C = vec_sub (__C, __D);
1.1  mrg   return (__m64) ((__v2du) __C)[1];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hsub_pi32 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  2,  3,  8,  9, 10, 11,  0,  1,  2,  3,  8,  9, 10, 11 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  4,  5,  6,  7, 12, 13, 14, 15,  4,  5,  6,  7, 12, 13, 14, 15 };
1.1  mrg   __v4si __C = (__v4si) (__v2du) { __A, __B };
1.1  mrg   __v4si __D = vec_perm (__C, __C, __Q);
1.1  mrg   __C = vec_perm (__C, __C, __P);
1.1  mrg   __C = vec_sub (__C, __D);
1.1  mrg   return (__m64) ((__v2du) __C)[1];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hsubs_epi16 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13, 16, 17, 20, 21, 24, 25, 28, 29 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15, 18, 19, 22, 23, 26, 27, 30, 31 };
1.1  mrg   __v8hi __C = vec_perm ((__v8hi) __A, (__v8hi) __B, __P);
1.1  mrg   __v8hi __D = vec_perm ((__v8hi) __A, (__v8hi) __B, __Q);
1.1  mrg   return (__m128i) vec_subs (__C, __D);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_hsubs_pi16 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v16qu __P =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13,  0,  1,  4,  5,  8,  9, 12, 13 };
1.1  mrg   const __v16qu __Q =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15,  2,  3,  6,  7, 10, 11, 14, 15 };
1.1  mrg   __v8hi __C = (__v8hi) (__v2du) { __A, __B };
1.1  mrg   __v8hi __D = vec_perm (__C, __C, __P);
1.1  mrg   __v8hi __E = vec_perm (__C, __C, __Q);
1.1  mrg   __C = vec_subs (__D, __E);
1.1  mrg   return (__m64) ((__v2du) __C)[1];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_shuffle_epi8 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v16qi __zero = { 0 };
1.1  mrg   __vector __bool char __select = vec_cmplt ((__v16qi) __B, __zero);
1.1  mrg   __v16qi __C = vec_perm ((__v16qi) __A, (__v16qi) __A, (__v16qu) __B);
1.1  mrg   return (__m128i) vec_sel (__C, __zero, __select);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_shuffle_pi8 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v16qi __zero = { 0 };
1.1  mrg   __v16qi __C = (__v16qi) (__v2du) { __A, __A };
1.1  mrg   __v16qi __D = (__v16qi) (__v2du) { __B, __B };
1.1  mrg   __vector __bool char __select = vec_cmplt ((__v16qi) __D, __zero);
1.1  mrg   __C = vec_perm ((__v16qi) __C, (__v16qi) __C, (__v16qu) __D);
1.1  mrg   __C = vec_sel (__C, __zero, __select);
1.1  mrg   return (__m64) ((__v2du) (__C))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_sign_epi8 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v16qi __zero = { 0 };
1.1  mrg   __v16qi __selectneg = (__v16qi) vec_cmplt ((__v16qi) __B, __zero);
1.1  mrg   __v16qi __selectpos =
1.1  mrg     (__v16qi) vec_neg ((__v16qi) vec_cmpgt ((__v16qi) __B, __zero));
1.1  mrg   __v16qi __conv = vec_add (__selectneg, __selectpos);
1.1  mrg   return (__m128i) vec_mul ((__v16qi) __A, (__v16qi) __conv);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_sign_epi16 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v8hi __zero = { 0 };
1.1  mrg   __v8hi __selectneg = (__v8hi) vec_cmplt ((__v8hi) __B, __zero);
1.1  mrg   __v8hi __selectpos =
1.1  mrg     (__v8hi) vec_neg ((__v8hi) vec_cmpgt ((__v8hi) __B, __zero));
1.1  mrg   __v8hi __conv = vec_add (__selectneg, __selectpos);
1.1  mrg   return (__m128i) vec_mul ((__v8hi) __A, (__v8hi) __conv);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_sign_epi32 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   const __v4si __zero = { 0 };
1.1  mrg   __v4si __selectneg = (__v4si) vec_cmplt ((__v4si) __B, __zero);
1.1  mrg   __v4si __selectpos =
1.1  mrg     (__v4si) vec_neg ((__v4si) vec_cmpgt ((__v4si) __B, __zero));
1.1  mrg   __v4si __conv = vec_add (__selectneg, __selectpos);
1.1  mrg   return (__m128i) vec_mul ((__v4si) __A, (__v4si) __conv);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_sign_pi8 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v16qi __zero = { 0 };
1.1  mrg   __v16qi __C = (__v16qi) (__v2du) { __A, __A };
1.1  mrg   __v16qi __D = (__v16qi) (__v2du) { __B, __B };
1.1  mrg   __C = (__v16qi) _mm_sign_epi8 ((__m128i) __C, (__m128i) __D);
1.1  mrg   return (__m64) ((__v2du) (__C))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_sign_pi16 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v8hi __zero = { 0 };
1.1  mrg   __v8hi __C = (__v8hi) (__v2du) { __A, __A };
1.1  mrg   __v8hi __D = (__v8hi) (__v2du) { __B, __B };
1.1  mrg   __C = (__v8hi) _mm_sign_epi16 ((__m128i) __C, (__m128i) __D);
1.1  mrg   return (__m64) ((__v2du) (__C))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_sign_pi32 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   const __v4si __zero = { 0 };
1.1  mrg   __v4si __C = (__v4si) (__v2du) { __A, __A };
1.1  mrg   __v4si __D = (__v4si) (__v2du) { __B, __B };
1.1  mrg   __C = (__v4si) _mm_sign_epi32 ((__m128i) __C, (__m128i) __D);
1.1  mrg   return (__m64) ((__v2du) (__C))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_maddubs_epi16 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   __v8hi __unsigned = vec_splats ((signed short) 0x00ff);
1.1  mrg   __v8hi __C = vec_and (vec_unpackh ((__v16qi) __A), __unsigned);
1.1  mrg   __v8hi __D = vec_and (vec_unpackl ((__v16qi) __A), __unsigned);
1.1  mrg   __v8hi __E = vec_unpackh ((__v16qi) __B);
1.1  mrg   __v8hi __F = vec_unpackl ((__v16qi) __B);
1.1  mrg   __C = vec_mul (__C, __E);
1.1  mrg   __D = vec_mul (__D, __F);
1.1  mrg   const __v16qu __odds  =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13, 16, 17, 20, 21, 24, 25, 28, 29 };
1.1  mrg   const __v16qu __evens =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15, 18, 19, 22, 23, 26, 27, 30, 31 };
1.1  mrg   __E = vec_perm (__C, __D, __odds);
1.1  mrg   __F = vec_perm (__C, __D, __evens);
1.1  mrg   return (__m128i) vec_adds (__E, __F);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_maddubs_pi16 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   __v8hi __C = (__v8hi) (__v2du) { __A, __A };
1.1  mrg   __C = vec_unpackl ((__v16qi) __C);
1.1  mrg   const __v8hi __unsigned = vec_splats ((signed short) 0x00ff);
1.1  mrg   __C = vec_and (__C, __unsigned);
1.1  mrg   __v8hi __D = (__v8hi) (__v2du) { __B, __B };
1.1  mrg   __D = vec_unpackl ((__v16qi) __D);
1.1  mrg   __D = vec_mul (__C, __D);
1.1  mrg   const __v16qu __odds  =
1.1  mrg     {  0,  1,  4,  5,  8,  9, 12, 13, 16, 17, 20, 21, 24, 25, 28, 29 };
1.1  mrg   const __v16qu __evens =
1.1  mrg     {  2,  3,  6,  7, 10, 11, 14, 15, 18, 19, 22, 23, 26, 27, 30, 31 };
1.1  mrg   __C = vec_perm (__D, __D, __odds);
1.1  mrg   __D = vec_perm (__D, __D, __evens);
1.1  mrg   __C = vec_adds (__C, __D);
1.1  mrg   return (__m64) ((__v2du) (__C))[0];
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m128i
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_mulhrs_epi16 (__m128i __A, __m128i __B)
1.1  mrg {
1.1  mrg   __v4si __C = vec_unpackh ((__v8hi) __A);
1.1  mrg   __v4si __D = vec_unpackh ((__v8hi) __B);
1.1  mrg   __C = vec_mul (__C, __D);
1.1  mrg   __D = vec_unpackl ((__v8hi) __A);
1.1  mrg   __v4si __E = vec_unpackl ((__v8hi) __B);
1.1  mrg   __D = vec_mul (__D, __E);
1.1  mrg   const __v4su __shift = vec_splats ((unsigned int) 14);
1.1  mrg   __C = vec_sr (__C, __shift);
1.1  mrg   __D = vec_sr (__D, __shift);
1.1  mrg   const __v4si __ones = vec_splats ((signed int) 1);
1.1  mrg   __C = vec_add (__C, __ones);
1.1  mrg   __C = vec_sr (__C, (__v4su) __ones);
1.1  mrg   __D = vec_add (__D, __ones);
1.1  mrg   __D = vec_sr (__D, (__v4su) __ones);
1.1  mrg   return (__m128i) vec_pack (__C, __D);
1.1  mrg }
1.1  mrg
1.1  mrg extern __inline __m64
1.1  mrg __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1.1  mrg _mm_mulhrs_pi16 (__m64 __A, __m64 __B)
1.1  mrg {
1.1  mrg   __v4si __C = (__v4si) (__v2du) { __A, __A };
1.1  mrg   __C = vec_unpackh ((__v8hi) __C);
1.1  mrg   __v4si __D = (__v4si) (__v2du) { __B, __B };
1.1  mrg   __D = vec_unpackh ((__v8hi) __D);
1.1  mrg   __C = vec_mul (__C, __D);
1.1  mrg   const __v4su __shift = vec_splats ((unsigned int) 14);
1.1  mrg   __C = vec_sr (__C, __shift);
1.1  mrg   const __v4si __ones = vec_splats ((signed int) 1);
1.1  mrg   __C = vec_add (__C, __ones);
1.1  mrg   __C = vec_sr (__C, (__v4su) __ones);
1.1  mrg   __v8hi __E = vec_pack (__C, __D);
1.1  mrg   return (__m64) ((__v2du) (__E))[0];
1.1  mrg }
1.1  mrg
1.1  mrg #endif