powerpc32/vmx/copyd.asm

    1.1  mrg dnl  PowerPC-32/VMX and PowerPC-64/VMX mpn_copyd.
    1.1  mrg
    1.1  mrg dnl  Copyright 2006 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
1.1.1.2  mrg dnl
    1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg dnl  it under the terms of either:
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg dnl      option) any later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.2  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg dnl      later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or both in parallel, as here.
1.1.1.2  mrg dnl
    1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg dnl  for more details.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.2  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg C                16-byte coaligned      unaligned
    1.1  mrg C                   cycles/limb        cycles/limb
    1.1  mrg C 7400,7410 (G4):       0.5                0.64
    1.1  mrg C 744x,745x (G4+):      0.75               0.82
    1.1  mrg C 970 (G5):             0.78               1.02		(64-bit limbs)
    1.1  mrg
    1.1  mrg C STATUS
    1.1  mrg C  * Works for all sizes and alignments.
    1.1  mrg
    1.1  mrg C TODO
    1.1  mrg C  * Optimize unaligned case.  Some basic tests with 2-way and 4-way unrolling
    1.1  mrg C    indicate that we can reach 0.56 c/l for 7400, 0.75 c/l for 745x, and 0.80
    1.1  mrg C    c/l for 970.
    1.1  mrg C  * Consider using VMX instructions also for head and tail, by using some
    1.1  mrg C    read-modify-write tricks.
    1.1  mrg C  * The VMX code is used from the smallest sizes it handles, but measurements
    1.1  mrg C    show a large speed bump at the cutoff points.  Small copying (perhaps
    1.1  mrg C    using some read-modify-write technique) should be optimized.
1.1.1.2  mrg C  * Make an mpn_com based on this code.
    1.1  mrg
    1.1  mrg define(`GMP_LIMB_BYTES', eval(GMP_LIMB_BITS/8))
    1.1  mrg define(`LIMBS_PER_VR',  eval(16/GMP_LIMB_BYTES))
    1.1  mrg define(`LIMBS_PER_2VR', eval(32/GMP_LIMB_BYTES))
    1.1  mrg
    1.1  mrg
    1.1  mrg ifelse(GMP_LIMB_BITS,32,`
    1.1  mrg 	define(`LIMB32',`	$1')
    1.1  mrg 	define(`LIMB64',`')
    1.1  mrg ',`
    1.1  mrg 	define(`LIMB32',`')
    1.1  mrg 	define(`LIMB64',`	$1')
    1.1  mrg ')
    1.1  mrg
    1.1  mrg C INPUT PARAMETERS
    1.1  mrg define(`rp',	`r3')
    1.1  mrg define(`up',	`r4')
    1.1  mrg define(`n',	`r5')
    1.1  mrg
    1.1  mrg define(`us',	`v4')
    1.1  mrg
    1.1  mrg
    1.1  mrg ASM_START()
    1.1  mrg PROLOGUE(mpn_copyd)
    1.1  mrg
    1.1  mrg LIMB32(`slwi.	r0, n, 2	')
    1.1  mrg LIMB64(`sldi.	r0, n, 3	')
    1.1  mrg 	add	rp, rp, r0
    1.1  mrg 	add	up, up, r0
    1.1  mrg
    1.1  mrg LIMB32(`cmpi	cr7, n, 11	')
    1.1  mrg LIMB64(`cmpdi	cr7, n, 5	')
    1.1  mrg 	bge	cr7, L(big)
    1.1  mrg
    1.1  mrg 	beqlr	cr0
    1.1  mrg
    1.1  mrg C Handle small cases with plain operations
    1.1  mrg 	mtctr	n
    1.1  mrg L(topS):
    1.1  mrg LIMB32(`lwz	r0, -4(up)	')
    1.1  mrg LIMB64(`ld	r0, -8(up)	')
    1.1  mrg 	addi	up, up, -GMP_LIMB_BYTES
    1.1  mrg LIMB32(`stw	r0, -4(rp)	')
    1.1  mrg LIMB64(`std	r0, -8(rp)	')
    1.1  mrg 	addi	rp, rp, -GMP_LIMB_BYTES
    1.1  mrg 	bdnz	L(topS)
    1.1  mrg 	blr
    1.1  mrg
    1.1  mrg C Handle large cases with VMX operations
    1.1  mrg L(big):
    1.1  mrg 	addi	rp, rp, -16
    1.1  mrg 	addi	up, up, -16
    1.1  mrg 	mfspr	r12, 256
    1.1  mrg 	oris	r0, r12, 0xf800		C Set VRSAVE bit 0-4
    1.1  mrg 	mtspr	256, r0
    1.1  mrg
    1.1  mrg LIMB32(`rlwinm.	r7, rp, 30,30,31')	C (rp >> 2) mod 4
    1.1  mrg LIMB64(`rlwinm.	r7, rp, 29,31,31')	C (rp >> 3) mod 2
    1.1  mrg 	beq	L(rp_aligned)
    1.1  mrg
    1.1  mrg 	subf	n, r7, n
    1.1  mrg L(top0):
    1.1  mrg LIMB32(`lwz	r0, 12(up)	')
    1.1  mrg LIMB64(`ld	r0, 8(up)	')
    1.1  mrg 	addi	up, up, -GMP_LIMB_BYTES
    1.1  mrg LIMB32(`addic.	r7, r7, -1	')
    1.1  mrg LIMB32(`stw	r0, 12(rp)	')
    1.1  mrg LIMB64(`std	r0, 8(rp)	')
    1.1  mrg 	addi	rp, rp, -GMP_LIMB_BYTES
    1.1  mrg LIMB32(`bne	L(top0)		')
    1.1  mrg
    1.1  mrg L(rp_aligned):
    1.1  mrg
    1.1  mrg LIMB32(`rlwinm.	r0, up, 30,30,31')	C (up >> 2) mod 4
    1.1  mrg LIMB64(`rlwinm.	r0, up, 29,31,31')	C (up >> 3) mod 2
    1.1  mrg
    1.1  mrg LIMB64(`srdi	r7, n, 2	')	C loop count corresponding to n
    1.1  mrg LIMB32(`srwi	r7, n, 3	')	C loop count corresponding to n
    1.1  mrg 	mtctr	r7			C copy n to count register
    1.1  mrg
    1.1  mrg 	li	r10, -16
    1.1  mrg
    1.1  mrg 	beq	L(up_aligned)
    1.1  mrg
    1.1  mrg 	lvsl	us, 0, up
    1.1  mrg
    1.1  mrg 	addi	up, up, 16
    1.1  mrg LIMB32(`andi.	r0, n, 0x4	')
    1.1  mrg LIMB64(`andi.	r0, n, 0x2	')
    1.1  mrg 	beq	L(1)
    1.1  mrg 	lvx	v0, 0, up
    1.1  mrg 	lvx	v2, r10, up
    1.1  mrg 	vperm	v3, v2, v0, us
    1.1  mrg 	stvx	v3, 0, rp
    1.1  mrg 	addi	up, up, -32
    1.1  mrg 	addi	rp, rp, -16
    1.1  mrg 	b	L(lpu)
    1.1  mrg L(1):	lvx	v2, 0, up
    1.1  mrg 	addi	up, up, -16
    1.1  mrg 	b	L(lpu)
    1.1  mrg
    1.1  mrg 	ALIGN(32)
    1.1  mrg L(lpu):	lvx	v0, 0, up
    1.1  mrg 	vperm	v3, v0, v2, us
    1.1  mrg 	stvx	v3, 0, rp
    1.1  mrg 	lvx	v2, r10, up
    1.1  mrg 	addi	up, up, -32
    1.1  mrg 	vperm	v3, v2, v0, us
    1.1  mrg 	stvx	v3, r10, rp
    1.1  mrg 	addi	rp, rp, -32
    1.1  mrg 	bdnz	L(lpu)
    1.1  mrg
    1.1  mrg 	b	L(tail)
    1.1  mrg
    1.1  mrg L(up_aligned):
    1.1  mrg
    1.1  mrg LIMB32(`andi.	r0, n, 0x4	')
    1.1  mrg LIMB64(`andi.	r0, n, 0x2	')
    1.1  mrg 	beq	L(lpa)
    1.1  mrg 	lvx	v0, 0,   up
    1.1  mrg 	stvx	v0, 0,   rp
    1.1  mrg 	addi	up, up, -16
    1.1  mrg 	addi	rp, rp, -16
    1.1  mrg 	b	L(lpa)
    1.1  mrg
    1.1  mrg 	ALIGN(32)
    1.1  mrg L(lpa):	lvx	v0, 0,   up
    1.1  mrg 	lvx	v1, r10, up
    1.1  mrg 	addi	up, up, -32
    1.1  mrg 	nop
    1.1  mrg 	stvx	v0, 0,   rp
    1.1  mrg 	stvx	v1, r10, rp
    1.1  mrg 	addi	rp, rp, -32
    1.1  mrg 	bdnz	L(lpa)
    1.1  mrg
    1.1  mrg L(tail):
    1.1  mrg LIMB32(`rlwinm.	r7, n, 0,30,31	')	C r7 = n mod 4
    1.1  mrg LIMB64(`rlwinm.	r7, n, 0,31,31	')	C r7 = n mod 2
    1.1  mrg 	beq	L(ret)
    1.1  mrg LIMB32(`li	r10, 12		')
    1.1  mrg L(top2):
    1.1  mrg LIMB32(`lwzx	r0, r10, up	')
    1.1  mrg LIMB64(`ld	r0, 8(up)	')
    1.1  mrg LIMB32(`addic.	r7, r7, -1	')
    1.1  mrg LIMB32(`stwx	r0, r10, rp	')
    1.1  mrg LIMB64(`std	r0, 8(rp)	')
    1.1  mrg LIMB32(`addi	r10, r10, -GMP_LIMB_BYTES')
    1.1  mrg LIMB32(`bne	L(top2)		')
    1.1  mrg
    1.1  mrg L(ret):	mtspr	256, r12
    1.1  mrg 	blr
    1.1  mrg EPILOGUE()