arch/arm/arm_neon.h

1.2  rin /*	$NetBSD: arm_neon.h,v 1.2 2023/08/07 01:14:19 rin Exp $	*/
1.1  rin
1.1  rin /*-
1.1  rin  * Copyright (c) 2020 The NetBSD Foundation, Inc.
1.1  rin  * All rights reserved.
1.1  rin  *
1.1  rin  * Redistribution and use in source and binary forms, with or without
1.1  rin  * modification, are permitted provided that the following conditions
1.1  rin  * are met:
1.1  rin  * 1. Redistributions of source code must retain the above copyright
1.1  rin  *    notice, this list of conditions and the following disclaimer.
1.1  rin  * 2. Redistributions in binary form must reproduce the above copyright
1.1  rin  *    notice, this list of conditions and the following disclaimer in the
1.1  rin  *    documentation and/or other materials provided with the distribution.
1.1  rin  *
1.1  rin  * THIS SOFTWARE IS PROVIDED BY THE NETBSD FOUNDATION, INC. AND CONTRIBUTORS
1.1  rin  * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
1.1  rin  * TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
1.1  rin  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR CONTRIBUTORS
1.1  rin  * BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
1.1  rin  * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
1.1  rin  * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
1.1  rin  * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
1.1  rin  * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
1.1  rin  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
1.1  rin  * POSSIBILITY OF SUCH DAMAGE.
1.1  rin  */
1.1  rin
1.1  rin #ifndef	_SYS_CRYPTO_ARCH_ARM_ARM_NEON_H
1.1  rin #define	_SYS_CRYPTO_ARCH_ARM_ARM_NEON_H
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin
1.1  rin #define	_INTRINSATTR							      \
1.1  rin 	__extension__							      \
1.1  rin 	__attribute__((__always_inline__, __gnu_inline__, __artificial__))
1.1  rin
1.1  rin #ifdef __aarch64__
1.1  rin typedef __Int32x4_t int32x4_t;
1.1  rin typedef __Int64x2_t int64x2_t;
1.1  rin typedef __Int8x16_t int8x16_t;
1.1  rin typedef __Uint16x8_t uint16x8_t;
1.1  rin typedef __Uint32x4_t uint32x4_t;
1.1  rin typedef __Uint64x2_t uint64x2_t;
1.1  rin typedef __Uint8x16_t uint8x16_t;
1.1  rin typedef struct { uint8x16_t val[2]; } uint8x16x2_t;
1.1  rin #else
1.1  rin typedef __simd128_int32_t int32x4_t;
1.1  rin typedef __simd128_int64_t int64x2_t;
1.1  rin typedef __simd128_int8_t int8x16_t;
1.1  rin typedef __simd128_uint16_t uint16x8_t;
1.1  rin typedef __simd128_uint32_t uint32x4_t;
1.1  rin typedef __simd128_uint64_t uint64x2_t;
1.1  rin typedef __simd128_uint8_t uint8x16_t;
1.1  rin
1.1  rin typedef __simd64_int8_t int8x8_t;
1.1  rin typedef __simd64_uint8_t uint8x8_t;
1.1  rin typedef __builtin_neon_udi uint64x1_t;
1.1  rin typedef struct { uint8x8_t val[2]; } uint8x8x2_t;
1.1  rin typedef struct { uint8x16_t val[2]; } uint8x16x2_t;
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__AARCH64EB__)
1.1  rin #define	__neon_lane_index(__v, __i)	(__arraycount(__v) - 1 - (__i))
1.1  rin #define	__neon_laneq_index(__v, __i)	(__arraycount(__v) - 1 - (__i))
1.1  rin #elif defined(__ARM_BIG_ENDIAN)
1.1  rin #define	__neon_lane_index(__v, __i)	((__i) ^ (__arraycount(__v) - 1))
1.1  rin #define	__neon_laneq_index(__v, __i)	((__i) ^ (__arraycount(__v)/2 - 1))
1.1  rin #else
1.1  rin #define	__neon_lane_index(__v, __i)	(__i)
1.1  rin #define	__neon_laneq_index(__v, __i)	(__i)
1.1  rin #endif
1.1  rin
1.1  rin #elif defined(__clang__)
1.1  rin
1.1  rin #define	_INTRINSATTR							      \
1.1  rin 	__attribute__((__always_inline__, __nodebug__))
1.1  rin
1.1  rin typedef __attribute__((neon_vector_type(16))) int8_t int8x16_t;
1.1  rin typedef __attribute__((neon_vector_type(2))) int64_t int64x2_t;
1.1  rin typedef __attribute__((neon_vector_type(4))) int32_t int32x4_t;
1.1  rin
1.1  rin typedef __attribute__((neon_vector_type(16))) uint8_t uint8x16_t;
1.1  rin typedef __attribute__((neon_vector_type(2))) uint64_t uint64x2_t;
1.1  rin typedef __attribute__((neon_vector_type(4))) uint32_t uint32x4_t;
1.1  rin typedef __attribute__((neon_vector_type(8))) uint16_t uint16x8_t;
1.1  rin
1.1  rin typedef __attribute__((neon_vector_type(8))) int8_t int8x8_t;
1.1  rin
1.1  rin typedef __attribute__((neon_vector_type(8))) uint8_t uint8x8_t;
1.1  rin
1.1  rin typedef struct { uint8x8_t val[2]; } uint8x8x2_t;
1.1  rin typedef struct { uint8x16_t val[2]; } uint8x16x2_t;
1.1  rin
1.1  rin #ifdef __LITTLE_ENDIAN__
1.1  rin #define	__neon_lane_index(__v, __i)	__i
1.1  rin #define	__neon_laneq_index(__v, __i)	__i
1.1  rin #else
1.1  rin #define	__neon_lane_index(__v, __i)	(__arraycount(__v) - 1 - __i)
1.1  rin #define	__neon_laneq_index(__v, __i)	(__arraycount(__v) - 1 - __i)
1.1  rin #endif
1.1  rin
1.1  rin #else
1.1  rin
1.1  rin #error Teach me how to neon in your compile!
1.1  rin
1.1  rin #endif
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vaddq_u32(uint32x4_t __v0, uint32x4_t __v1)
1.1  rin {
1.1  rin 	return __v0 + __v1;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vcltq_s32(int32x4_t __v0, int32x4_t __v1)
1.1  rin {
1.1  rin 	return (uint32x4_t)(__v0 < __v1);
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline int32x4_t
1.1  rin vdupq_n_s32(int32_t __x)
1.1  rin {
1.1  rin 	return (int32x4_t) { __x, __x, __x, __x };
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vdupq_n_u32(uint32_t __x)
1.1  rin {
1.1  rin 	return (uint32x4_t) { __x, __x, __x, __x };
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vdupq_n_u8(uint8_t __x)
1.1  rin {
1.1  rin 	return (uint8x16_t) {
1.1  rin 		__x, __x, __x, __x, __x, __x, __x, __x,
1.1  rin 		__x, __x, __x, __x, __x, __x, __x, __x,
1.1  rin 	};
1.1  rin }
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vextq_u32(uint32x4_t __lo, uint32x4_t __hi, uint8_t __i)
1.1  rin {
1.1  rin #if defined(__AARCH64EB__) || defined(__ARM_BIG_ENDIAN)
1.1  rin 	return __builtin_shuffle(__hi, __lo,
1.1  rin 	    (uint32x4_t) { 4 - __i, 5 - __i, 6 - __i, 7 - __i });
1.1  rin #else
1.1  rin 	return __builtin_shuffle(__lo, __hi,
1.1  rin 	    (uint32x4_t) { __i + 0, __i + 1, __i + 2, __i + 3 });
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #ifdef __LITTLE_ENDIAN__
1.1  rin #define	vextq_u32(__lo, __hi, __i)					      \
1.1  rin 	(uint32x4_t)__builtin_neon_vextq_v((int8x16_t)(__lo),		      \
1.1  rin 	    (int8x16_t)(__hi), (__i), 50)
1.1  rin #else
1.1  rin #define	vextq_u32(__lo, __hi, __i) (					      \
1.1  rin {									      \
1.1  rin 	uint32x4_t __tlo = (__lo);					      \
1.1  rin 	uint32x4_t __thi = (__hi);					      \
1.1  rin 	uint32x4_t __lo_r = __builtin_shufflevector(__tlo, __tlo, 3,2,1,0);   \
1.1  rin 	uint32x4_t __hi_r = __builtin_shufflevector(__thi, __thi, 3,2,1,0);   \
1.1  rin 	uint32x4_t __r = __builtin_neon_vextq_v((int8x16_t)__lo_r,	      \
1.1  rin 	    (int8x16_t)__hi_r, __i, 50);				      \
1.1  rin 	__builtin_shufflevector(__r, __r, 3,2,1,0);			      \
1.1  rin })
1.1  rin #endif	/* __LITTLE_ENDIAN__ */
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vextq_u8(uint8x16_t __lo, uint8x16_t __hi, uint8_t __i)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.1  rin #if defined(__AARCH64EB__)
1.1  rin 	return __builtin_shuffle(__hi, __lo,
1.1  rin 	    (uint8x16_t) {
1.1  rin 		16 - __i, 17 - __i, 18 - __i, 19 - __i,
1.1  rin 		20 - __i, 21 - __i, 22 - __i, 23 - __i,
1.1  rin 		24 - __i, 25 - __i, 26 - __i, 27 - __i,
1.1  rin 		28 - __i, 29 - __i, 30 - __i, 31 - __i,
1.1  rin 	});
1.1  rin #else
1.1  rin 	return __builtin_shuffle(__lo, __hi,
1.1  rin 	    (uint8x16_t) {
1.1  rin 		__i +  0, __i +  1, __i +  2, __i +  3,
1.1  rin 		__i +  4, __i +  5, __i +  6, __i +  7,
1.1  rin 		__i +  8, __i +  9, __i + 10, __i + 11,
1.1  rin 		__i + 12, __i + 13, __i + 14, __i + 15,
1.1  rin 	});
1.1  rin #endif
1.1  rin #else
1.1  rin 	return (uint8x16_t)__builtin_neon_vextv16qi((int8x16_t)__lo,
1.1  rin 	    (int8x16_t)__hi, __i);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #ifdef __LITTLE_ENDIAN__
1.1  rin #define	vextq_u8(__lo, __hi, __i)					      \
1.1  rin 	(uint8x16_t)__builtin_neon_vextq_v((int8x16_t)(__lo),		      \
1.1  rin 	    (int8x16_t)(__hi), (__i), 48)
1.1  rin #else
1.1  rin #define	vextq_u8(__lo, __hi, __i) (					      \
1.1  rin {									      \
1.1  rin 	uint8x16_t __tlo = (__lo);					      \
1.1  rin 	uint8x16_t __thi = (__hi);					      \
1.1  rin 	uint8x16_t __lo_r = __builtin_shufflevector(__tlo, __tlo,	      \
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);			      \
1.1  rin 	uint8x16_t __hi_r = __builtin_shufflevector(__thi, __thi,	      \
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);			      \
1.1  rin 	uint8x16_t __r = __builtin_neon_vextq_v((int8x16_t)__lo_r,	      \
1.1  rin 	    (int8x16_t)__hi_r, (__i), 48);				      \
1.1  rin 	__builtin_shufflevector(__r, __r,				      \
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);			      \
1.1  rin })
1.1  rin #endif	/* __LITTLE_ENDIAN */
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32_t
1.1  rin vgetq_lane_u32(uint32x4_t __v, uint8_t __i)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.1  rin 	return __v[__neon_laneq_index(__v, __i)];
1.1  rin #else
1.1  rin 	return (uint32_t)__builtin_neon_vget_laneuv4si((int32x4_t)__v, __i);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #define	vgetq_lane_u32(__v, __i)					      \
1.1  rin 	(uint32_t)__builtin_neon_vgetq_lane_i32((int32x4_t)(__v),	      \
1.1  rin 	    __neon_laneq_index(__v, __i))
1.1  rin #endif
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vld1q_u32(const uint32_t *__p32)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin #ifdef __aarch64__
1.1  rin 	const __builtin_aarch64_simd_si *__p =
1.1  rin 	    (const __builtin_aarch64_simd_si *)__p32;
1.1  rin
1.1  rin 	return (uint32x4_t)__builtin_aarch64_ld1v4si(__p);
1.1  rin #else
1.1  rin 	const __builtin_neon_si *__p = (const __builtin_neon_si *)__p32;
1.1  rin
1.1  rin 	return (uint32x4_t)__builtin_neon_vld1v4si(__p);
1.1  rin #endif
1.1  rin #elif defined(__clang__)
1.1  rin 	uint32x4_t __v = (uint32x4_t)__builtin_neon_vld1q_v(__p32, 50);
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__v = __builtin_shufflevector(__v, __v, 3,2,1,0);
1.1  rin #endif
1.1  rin 	return __v;
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vld1q_u8(const uint8_t *__p8)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin #ifdef __aarch64__
1.1  rin 	const __builtin_aarch64_simd_qi *__p =
1.1  rin 	    (const __builtin_aarch64_simd_qi *)__p8;
1.1  rin
1.1  rin 	return (uint8x16_t)__builtin_aarch64_ld1v16qi(__p);
1.1  rin #else
1.1  rin 	const __builtin_neon_qi *__p = (const __builtin_neon_qi *)__p8;
1.1  rin
1.1  rin 	return (uint8x16_t)__builtin_neon_vld1v16qi(__p);
1.1  rin #endif
1.1  rin #elif defined(__clang__)
1.1  rin 	uint8x16_t __v = (uint8x16_t)__builtin_neon_vld1q_v(__p8, 48);
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__v = __builtin_shufflevector(__v, __v,
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	return __v;
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vqtbl1q_u8(uint8x16_t __tab, uint8x16_t __idx)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin #ifdef __aarch64__
1.1  rin 	uint8x16_t __res;
1.1  rin 	__asm__("tbl %0.16b, {%1.16b}, %2.16b"
1.1  rin 	    : "=w"(__res) : "w"(__tab), "w"(__idx));
1.1  rin 	return __res;
1.1  rin #else
1.1  rin 	/*
1.1  rin 	 * No native ARMv7 NEON instruction for this, so do it via two
1.1  rin 	 * half-width TBLs instead (vtbl2_u8 equivalent).
1.1  rin 	 */
1.1  rin 	uint64x2_t __tab64 = (uint64x2_t)__tab;
1.1  rin 	uint8x8_t __tablo = (uint8x8_t)__tab64[0];
1.1  rin 	uint8x8_t __tabhi = (uint8x8_t)__tab64[1];
1.1  rin 	uint8x8x2_t __tab8x8x2 = { { __tablo, __tabhi } };
1.1  rin 	union {
1.1  rin 		uint8x8x2_t __u8x8x2;
1.1  rin 		__builtin_neon_ti __ti;
1.1  rin 	} __u = { __tab8x8x2 };
1.1  rin 	uint64x2_t __idx64, __out64;
1.1  rin 	int8x8_t __idxlo, __idxhi, __outlo, __outhi;
1.1  rin
1.1  rin 	__idx64 = (uint64x2_t)__idx;
1.1  rin 	__idxlo = (int8x8_t)__idx64[0];
1.1  rin 	__idxhi = (int8x8_t)__idx64[1];
1.1  rin 	__outlo = (int8x8_t)__builtin_neon_vtbl2v8qi(__u.__ti, __idxlo);
1.1  rin 	__outhi = (int8x8_t)__builtin_neon_vtbl2v8qi(__u.__ti, __idxhi);
1.1  rin 	__out64 = (uint64x2_t) { (uint64x1_t)__outlo, (uint64x1_t)__outhi };
1.1  rin
1.1  rin 	return (uint8x16_t)__out64;
1.1  rin #endif
1.1  rin #elif defined(__clang__)
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__tab = __builtin_shufflevector(__tab, __tab,
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);
1.1  rin 	__idx = __builtin_shufflevector(__idx, __idx,
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	uint8x16_t __r;
1.1  rin #ifdef __aarch64__
1.1  rin 	__r = __builtin_neon_vqtbl1q_v((int8x16_t)__tab, (int8x16_t)__idx, 48);
1.1  rin #else
1.1  rin 	uint64x2_t __tab64 = (uint64x2_t)__tab;
1.1  rin 	uint8x8_t __tablo = (uint8x8_t)__tab64[0];
1.1  rin 	uint8x8_t __tabhi = (uint8x8_t)__tab64[1];
1.1  rin 	uint64x2_t __idx64, __out64;
1.1  rin 	int8x8_t __idxlo, __idxhi, __outlo, __outhi;
1.1  rin
1.1  rin 	__idx64 = (uint64x2_t)__idx;
1.1  rin 	__idxlo = (int8x8_t)__idx64[0];
1.1  rin 	__idxhi = (int8x8_t)__idx64[1];
1.1  rin 	__outlo = (uint8x8_t)__builtin_neon_vtbl2_v((int8x8_t)__tablo,
1.1  rin 	    (int8x8_t)__tabhi, (int8x8_t)__idxlo, 16);
1.1  rin 	__outhi = (uint8x8_t)__builtin_neon_vtbl2_v((int8x8_t)__tablo,
1.1  rin 	    (int8x8_t)__tabhi, (int8x8_t)__idxhi, 16);
1.1  rin 	__out64 = (uint64x2_t) { (uint64_t)__outlo, (uint64_t)__outhi };
1.1  rin 	__r = (uint8x16_t)__out64;
1.1  rin #endif
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__r = __builtin_shufflevector(__r, __r,
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	return __r;
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline int32x4_t
1.1  rin vreinterpretq_s32_u8(uint8x16_t __v)
1.1  rin {
1.1  rin 	return (int32x4_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint16x8_t
1.1  rin vreinterpretq_u16_u32(uint32x4_t __v)
1.1  rin {
1.1  rin 	return (uint16x8_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vreinterpretq_u32_u16(uint16x8_t __v)
1.1  rin {
1.1  rin 	return (uint32x4_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vreinterpretq_u32_u64(uint64x2_t __v)
1.1  rin {
1.1  rin 	return (uint32x4_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vreinterpretq_u32_u8(uint8x16_t __v)
1.1  rin {
1.1  rin 	return (uint32x4_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint64x2_t
1.1  rin vreinterpretq_u64_u32(uint32x4_t __v)
1.1  rin {
1.1  rin 	return (uint64x2_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint64x2_t
1.1  rin vreinterpretq_u64_u8(uint8x16_t __v)
1.1  rin {
1.1  rin 	return (uint64x2_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vreinterpretq_u8_s32(int32x4_t __v)
1.1  rin {
1.1  rin 	return (uint8x16_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vreinterpretq_u8_u32(uint32x4_t __v)
1.1  rin {
1.1  rin 	return (uint8x16_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vreinterpretq_u8_u64(uint64x2_t __v)
1.1  rin {
1.1  rin 	return (uint8x16_t)__v;
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint16x8_t
1.1  rin vrev32q_u16(uint16x8_t __v)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin 	return __builtin_shuffle(__v, (uint16x8_t) { 1,0, 3,2, 5,4, 7,6 });
1.1  rin #elif defined(__clang__)
1.1  rin 	return __builtin_shufflevector(__v, __v,  1,0, 3,2, 5,4, 7,6);
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vrev32q_u8(uint8x16_t __v)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin 	return __builtin_shuffle(__v,
1.1  rin 	    (uint8x16_t) { 3,2,1,0, 7,6,5,4, 11,10,9,8, 15,14,13,12 });
1.1  rin #elif defined(__clang__)
1.1  rin 	return __builtin_shufflevector(__v, __v,
1.1  rin 	    3,2,1,0, 7,6,5,4, 11,10,9,8, 15,14,13,12);
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vsetq_lane_u32(uint32_t __x, uint32x4_t __v, uint8_t __i)
1.1  rin {
1.1  rin 	__v[__neon_laneq_index(__v, __i)] = __x;
1.1  rin 	return __v;
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #define	vsetq_lane_u32(__x, __v, __i)					      \
1.1  rin 	(uint32x4_t)__builtin_neon_vsetq_lane_i32((__x), (int32x4_t)(__v),    \
1.1  rin 	    __neon_laneq_index(__v, __i))
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint64x2_t
1.1  rin vsetq_lane_u64(uint64_t __x, uint64x2_t __v, uint8_t __i)
1.1  rin {
1.1  rin 	__v[__neon_laneq_index(__v, __i)] = __x;
1.1  rin 	return __v;
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #define	vsetq_lane_u64(__x, __v, __i)					      \
1.1  rin 	(uint64x2_t)__builtin_neon_vsetq_lane_i64((__x), (int64x2_t)(__v),    \
1.1  rin 	    __neon_laneq_index(__v, __i));
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline int32x4_t
1.1  rin vshlq_n_s32(int32x4_t __v, uint8_t __bits)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.1  rin 	return (int32x4_t)__builtin_aarch64_ashlv4si(__v, __bits);
1.1  rin #else
1.1  rin 	return (int32x4_t)__builtin_neon_vshl_nv4si(__v, __bits);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #define	vshlq_n_s32(__v, __bits)					      \
1.1  rin 	(int32x4_t)__builtin_neon_vshlq_n_v((int32x4_t)(__v), (__bits), 34)
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vshlq_n_u32(uint32x4_t __v, uint8_t __bits)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.1  rin 	return (uint32x4_t)__builtin_aarch64_ashlv4si((int32x4_t)__v, __bits);
1.1  rin #else
1.1  rin 	return (uint32x4_t)__builtin_neon_vshl_nv4si((int32x4_t)__v, __bits);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #define	vshlq_n_u32(__v, __bits)					      \
1.1  rin 	(uint32x4_t)__builtin_neon_vshlq_n_v((int32x4_t)(__v), (__bits), 50)
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vshrq_n_u32(uint32x4_t __v, uint8_t __bits)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.2  rin #  if __GNUC_PREREQ__(12, 0)
1.2  rin 	return __builtin_aarch64_lshrv4si_uus(__v, __bits);
1.2  rin #  else
1.1  rin 	return (uint32x4_t)__builtin_aarch64_lshrv4si((int32x4_t)__v, __bits);
1.2  rin #  endif
1.1  rin #else
1.1  rin 	return (uint32x4_t)__builtin_neon_vshru_nv4si((int32x4_t)__v, __bits);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #define	vshrq_n_u32(__v, __bits)					      \
1.1  rin 	(uint32x4_t)__builtin_neon_vshrq_n_v((int32x4_t)(__v), (__bits), 50)
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x16_t
1.1  rin vshrq_n_u8(uint8x16_t __v, uint8_t __bits)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.2  rin #  if __GNUC_PREREQ__(12, 0)
1.2  rin 	return __builtin_aarch64_lshrv16qi_uus(__v, __bits);
1.2  rin #  else
1.1  rin 	return (uint8x16_t)__builtin_aarch64_lshrv16qi((int8x16_t)__v, __bits);
1.2  rin #  endif
1.1  rin #else
1.1  rin 	return (uint8x16_t)__builtin_neon_vshru_nv16qi((int8x16_t)__v, __bits);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #define	vshrq_n_u8(__v, __bits)						      \
1.1  rin 	(uint8x16_t)__builtin_neon_vshrq_n_v((int8x16_t)(__v), (__bits), 48)
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline int32x4_t
1.1  rin vsliq_n_s32(int32x4_t __vins, int32x4_t __vsh, uint8_t __bits)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.1  rin 	return (int32x4_t)__builtin_aarch64_ssli_nv4si(__vins, __vsh, __bits);
1.1  rin #else
1.1  rin 	return (int32x4_t)__builtin_neon_vsli_nv4si(__vins, __vsh, __bits);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #ifdef __LITTLE_ENDIAN__
1.1  rin #define	vsliq_n_s32(__vins, __vsh, __bits)				      \
1.1  rin 	(int32x4_t)__builtin_neon_vsliq_n_v((int32x4_t)(__vins),	      \
1.1  rin 	    (int32x4_t)(__vsh), (__bits), 34)
1.1  rin #else
1.1  rin #define	vsliq_n_s32(__vins, __vsh, __bits) (				      \
1.1  rin {									      \
1.1  rin 	int32x4_t __tvins = (__vins);					      \
1.1  rin 	int32x4_t __tvsh = (__vsh);					      \
1.1  rin 	uint8_t __tbits = (__bits);					      \
1.1  rin 	int32x4_t __vins_r = __builtin_shufflevector(__tvins, __tvins,	      \
1.1  rin 	    3,2,1,0);							      \
1.1  rin 	int32x4_t __vsh_r = __builtin_shufflevector(__tvsh, __tvsh,	      \
1.1  rin 	    3,2,1,0);							      \
1.1  rin 	int32x4_t __r = __builtin_neon_vsliq_n_v(__tvins, __tvsh, __tbits,    \
1.1  rin 	    34);							      \
1.1  rin 	__builtin_shufflevector(__r, __r, 3,2,1,0);			      \
1.1  rin })
1.1  rin #endif	/* __LITTLE_ENDIAN__ */
1.1  rin #endif
1.1  rin
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin _INTRINSATTR
1.1  rin static __inline uint32x4_t
1.1  rin vsriq_n_u32(uint32x4_t __vins, uint32x4_t __vsh, uint8_t __bits)
1.1  rin {
1.1  rin #ifdef __aarch64__
1.1  rin 	return __builtin_aarch64_usri_nv4si_uuus(__vins, __vsh, __bits);
1.1  rin #else
1.1  rin 	return (uint32x4_t)__builtin_neon_vsri_nv4si((int32x4_t)__vins,
1.1  rin 	    (int32x4_t)__vsh, __bits);
1.1  rin #endif
1.1  rin }
1.1  rin #elif defined(__clang__)
1.1  rin #ifdef __LITTLE_ENDIAN__
1.1  rin #define	vsriq_n_u32(__vins, __vsh, __bits)				      \
1.1  rin 	(int32x4_t)__builtin_neon_vsriq_n_v((int32x4_t)(__vins),	      \
1.1  rin 	    (int32x4_t)(__vsh), (__bits), 34)
1.1  rin #else
1.1  rin #define	vsriq_n_s32(__vins, __vsh, __bits) (				      \
1.1  rin {									      \
1.1  rin 	int32x4_t __tvins = (__vins);					      \
1.1  rin 	int32x4_t __tvsh = (__vsh);					      \
1.1  rin 	uint8_t __tbits = (__bits);					      \
1.1  rin 	int32x4_t __vins_r = __builtin_shufflevector(__tvins, __tvins,	      \
1.1  rin 	    3,2,1,0);							      \
1.1  rin 	int32x4_t __vsh_r = __builtin_shufflevector(__tvsh, __tvsh,	      \
1.1  rin 	    3,2,1,0);							      \
1.1  rin 	int32x4_t __r = __builtin_neon_vsriq_n_v(__tvins, __tvsh, __tbits,    \
1.1  rin 	    34);							      \
1.1  rin 	__builtin_shufflevector(__r, __r, 3,2,1,0);			      \
1.1  rin })
1.1  rin #endif
1.1  rin #endif
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline void
1.1  rin vst1q_u32(uint32_t *__p32, uint32x4_t __v)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin #ifdef __aarch64__
1.1  rin 	__builtin_aarch64_simd_si *__p = (__builtin_aarch64_simd_si *)__p32;
1.1  rin
1.1  rin 	__builtin_aarch64_st1v4si(__p, (int32x4_t)__v);
1.1  rin #else
1.1  rin 	__builtin_neon_si *__p = (__builtin_neon_si *)__p32;
1.1  rin
1.1  rin 	__builtin_neon_vst1v4si(__p, (int32x4_t)__v);
1.1  rin #endif
1.1  rin #elif defined(__clang__)
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__v = __builtin_shufflevector(__v, __v, 3,2,1,0);
1.1  rin #endif
1.1  rin 	__builtin_neon_vst1q_v(__p32, __v, 50);
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline void
1.1  rin vst1q_u8(uint8_t *__p8, uint8x16_t __v)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin #ifdef __aarch64__
1.1  rin 	__builtin_aarch64_simd_qi *__p = (__builtin_aarch64_simd_qi *)__p8;
1.1  rin
1.1  rin 	__builtin_aarch64_st1v16qi(__p, (int8x16_t)__v);
1.1  rin #else
1.1  rin 	__builtin_neon_qi *__p = (__builtin_neon_qi *)__p8;
1.1  rin
1.1  rin 	__builtin_neon_vst1v16qi(__p, (int8x16_t)__v);
1.1  rin #endif
1.1  rin #elif defined(__clang__)
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__v = __builtin_shufflevector(__v, __v,
1.1  rin 	    15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	__builtin_neon_vst1q_v(__p8, __v, 48);
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin #ifndef __aarch64__		/* XXX */
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x8_t
1.1  rin vtbl1_u8(uint8x8_t __tab, uint8x8_t __idx)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin 	return (uint8x8_t)__builtin_neon_vtbl1v8qi((int8x8_t)__tab,
1.1  rin 	    (int8x8_t)__idx);
1.1  rin #elif defined(__clang__)
1.1  rin 	uint8x8_t __ret;
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__tab = __builtin_shufflevector(__tab, __tab, 7,6,5,4,3,2,1,0);
1.1  rin 	__idx = __builtin_shufflevector(__idx, __idx, 7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	__ret = (uint8x8_t)__builtin_neon_vtbl1_v((int8x8_t)__tab,
1.1  rin 	    (int8x8_t)__idx, 16);
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__ret = __builtin_shufflevector(__ret, __ret, 7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	return __ret;
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin _INTRINSATTR
1.1  rin static __inline uint8x8_t
1.1  rin vtbl2_u8(uint8x8x2_t __tab, uint8x8_t __idx)
1.1  rin {
1.1  rin #if defined(__GNUC__) && !defined(__clang__)
1.1  rin 	union {
1.1  rin 		uint8x8x2_t __u8x8x82;
1.1  rin 		__builtin_neon_ti __ti;
1.1  rin 	} __u = { __tab };
1.1  rin 	return (uint8x8_t)__builtin_neon_vtbl2v8qi(__u.__ti, (int8x8_t)__idx);
1.1  rin #elif defined(__clang__)
1.1  rin 	uint8x8_t __ret;
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__tab.val[0] = __builtin_shufflevector(__tab.val[0], __tab.val[0],
1.1  rin 	    7,6,5,4,3,2,1,0);
1.1  rin 	__tab.val[1] = __builtin_shufflevector(__tab.val[1], __tab.val[1],
1.1  rin 	    7,6,5,4,3,2,1,0);
1.1  rin 	__idx = __builtin_shufflevector(__idx, __idx, 7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	__ret = (uint8x8_t)__builtin_neon_vtbl2_v((int8x8_t)__tab.val[0],
1.1  rin 	    (int8x8_t)__tab.val[1], (int8x8_t)__idx, 16);
1.1  rin #ifndef __LITTLE_ENDIAN__
1.1  rin 	__ret = __builtin_shufflevector(__ret, __ret, 7,6,5,4,3,2,1,0);
1.1  rin #endif
1.1  rin 	return __ret;
1.1  rin #endif
1.1  rin }
1.1  rin
1.1  rin #endif	/* !defined(__aarch64__) */
1.1  rin
1.1  rin #endif	/* _SYS_CRYPTO_ARCH_ARM_ARM_NEON_H */