powerpc64/mode64/divrem_1.asm

    1.1  mrg dnl  PowerPC-64 mpn_divrem_1 -- Divide an mpn number by an unnormalized limb.
    1.1  mrg
1.1.1.3  mrg dnl  Copyright 2003-2005, 2007, 2008, 2010, 2012 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
1.1.1.3  mrg dnl
    1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.3  mrg dnl  it under the terms of either:
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.3  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.3  mrg dnl      option) any later version.
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl  or
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.3  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.3  mrg dnl      later version.
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl  or both in parallel, as here.
1.1.1.3  mrg dnl
    1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.3  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.3  mrg dnl  for more details.
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.3  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.3  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
1.1.1.2  mrg C                           cycles/limb
1.1.1.2  mrg C                       norm    unorm   frac
1.1.1.2  mrg C POWER3/PPC630         16-34   16-34   ~11   outdated figures
1.1.1.2  mrg C POWER4/PPC970          28      28      19
1.1.1.2  mrg C POWER5                 29      29     ~19
1.1.1.2  mrg C POWER6                 49      59     ~42
1.1.1.2  mrg C POWER7                 24.5    23     ~14
    1.1  mrg
    1.1  mrg C INPUT PARAMETERS
    1.1  mrg C qp  = r3
    1.1  mrg C fn  = r4
    1.1  mrg C up  = r5
    1.1  mrg C un  = r6
    1.1  mrg C d   = r7
    1.1  mrg
    1.1  mrg C We use a not very predictable branch in the frac code, therefore the cycle
    1.1  mrg C count wobbles somewhat.  With the alternative branch-free code, things run
    1.1  mrg C considerably slower on POWER4/PPC970 and POWER5.
    1.1  mrg
    1.1  mrg C Add preinv entry point.
    1.1  mrg
    1.1  mrg
    1.1  mrg ASM_START()
    1.1  mrg
    1.1  mrg EXTERN_FUNC(mpn_invert_limb)
    1.1  mrg
1.1.1.3  mrg PROLOGUE(mpn_divrem_1,toc)
    1.1  mrg
    1.1  mrg 	mfcr	r12
    1.1  mrg 	add.	r10, r6, r4
    1.1  mrg 	std	r25, -56(r1)
    1.1  mrg 	mr	r25, r4
    1.1  mrg 	mflr	r0
    1.1  mrg 	std	r26, -48(r1)
    1.1  mrg 	mr	r26, r5
    1.1  mrg 	std	r28, -32(r1)
    1.1  mrg 	mr	r28, r6
    1.1  mrg 	std	r29, -24(r1)
    1.1  mrg 	mr	r29, r3
    1.1  mrg 	li	r3, 0
    1.1  mrg 	std	r30, -16(r1)
    1.1  mrg 	mr	r30, r7
    1.1  mrg 	std	r31, -8(r1)
    1.1  mrg 	li	r31, 0
    1.1  mrg 	std	r27, -40(r1)
    1.1  mrg 	std	r0, 16(r1)
    1.1  mrg 	stw	r12, 8(r1)
    1.1  mrg 	stdu	r1, -176(r1)
    1.1  mrg 	beq-	cr0, L(1)
    1.1  mrg 	cmpdi	cr7, r7, 0
    1.1  mrg 	sldi	r0, r10, 3
    1.1  mrg 	add	r11, r0, r29
    1.1  mrg 	addi	r29, r11, -8
    1.1  mrg 	blt-	cr7, L(162)
    1.1  mrg 	cmpdi	cr4, r6, 0
    1.1  mrg 	beq+	cr4, L(71)
    1.1  mrg L(163):
    1.1  mrg 	sldi	r9, r6, 3
    1.1  mrg 	add	r9, r9, r5
    1.1  mrg 	ld	r7, -8(r9)
    1.1  mrg 	cmpld	cr7, r7, r30
    1.1  mrg 	bge-	cr7, L(71)
    1.1  mrg 	cmpdi	cr7, r10, 1
    1.1  mrg 	li	r0, 0
    1.1  mrg 	mr	r31, r7
    1.1  mrg 	std	r0, -8(r11)
    1.1  mrg 	addi	r29, r29, -8
    1.1  mrg 	mr	r3, r7
    1.1  mrg 	beq-	cr7, L(1)
    1.1  mrg 	addi	r28, r6, -1
    1.1  mrg 	cmpdi	cr4, r28, 0
    1.1  mrg L(71):
    1.1  mrg 	cntlzd	r27, r30
    1.1  mrg 	sld	r30, r30, r27
    1.1  mrg 	sld	r31, r31, r27
    1.1  mrg 	mr	r3, r30
    1.1  mrg 	CALL(	mpn_invert_limb)
    1.1  mrg 	beq-	cr4, L(110)
    1.1  mrg 	sldi	r9, r28, 3
    1.1  mrg 	addic.	r6, r28, -2
    1.1  mrg 	add	r9, r9, r26
    1.1  mrg 	subfic	r5, r27, 64
    1.1  mrg 	ld	r8, -8(r9)
    1.1  mrg 	srd	r0, r8, r5
    1.1  mrg 	or	r31, r31, r0
    1.1  mrg 	sld	r7, r8, r27
    1.1  mrg 	blt-	cr0, L(154)
    1.1  mrg 	addi	r28, r28, -1
    1.1  mrg 	mtctr	r28
    1.1  mrg 	sldi	r6, r6, 3
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(uloop):
    1.1  mrg 	ldx	r8, r26, r6
1.1.1.2  mrg 	nop
    1.1  mrg 	mulld	r0, r31, r3
    1.1  mrg 	mulhdu	r10, r31, r3
1.1.1.2  mrg 	addi	r11, r31, 1
    1.1  mrg 	srd	r9, r8, r5
1.1.1.2  mrg 	addi	r6, r6, -8
    1.1  mrg 	or	r9, r7, r9
    1.1  mrg 	addc	r0, r0, r9
    1.1  mrg 	adde	r10, r10, r11
    1.1  mrg 	mulld	r31, r10, r30
    1.1  mrg 	subf	r31, r31, r9
1.1.1.2  mrg 	subfc	r0, r31, r0	C r <= ql
1.1.1.2  mrg 	subfe	r0, r0, r0	C r0 = -(r <= ql)
1.1.1.2  mrg 	and	r9, r30, r0
1.1.1.2  mrg 	add	r31, r31, r9
1.1.1.2  mrg 	add	r10, r0, r10	C qh -= (r >= ql)
    1.1  mrg 	cmpld	cr7, r31, r30
    1.1  mrg 	bge-	cr7, L(164)
    1.1  mrg L(123):
    1.1  mrg 	std	r10, 0(r29)
    1.1  mrg 	addi	r29, r29, -8
    1.1  mrg 	sld	r7, r8, r27
    1.1  mrg 	bdnz	L(uloop)
    1.1  mrg L(154):
    1.1  mrg 	addi	r11, r31, 1
    1.1  mrg 	nop
    1.1  mrg 	mulld	r0, r31, r3
    1.1  mrg 	mulhdu	r8, r31, r3
    1.1  mrg 	addc	r0, r0, r7
    1.1  mrg 	adde	r8, r8, r11
    1.1  mrg 	mulld	r31, r8, r30
    1.1  mrg 	subf	r31, r31, r7
    1.1  mrg 	subfc	r0, r0, r31	C r >= ql
    1.1  mrg 	subfe	r0, r0, r0	C r0 = -(r >= ql)
    1.1  mrg 	not	r7, r0
    1.1  mrg 	add	r8, r7, r8	C qh -= (r >= ql)
    1.1  mrg 	andc	r0, r30, r0
    1.1  mrg 	add	r31, r31, r0
    1.1  mrg 	cmpld	cr7, r31, r30
    1.1  mrg 	bge-	cr7, L(165)
    1.1  mrg L(134):
    1.1  mrg 	std	r8, 0(r29)
    1.1  mrg 	addi	r29, r29, -8
    1.1  mrg L(110):
    1.1  mrg 	addic.	r0, r25, -1
    1.1  mrg 	blt-	cr0, L(156)
    1.1  mrg 	mtctr	r25
    1.1  mrg 	neg	r9, r30
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(ufloop):
    1.1  mrg 	addi	r11, r31, 1
    1.1  mrg 	nop
1.1.1.2  mrg 	mulld	r0, r3, r31
    1.1  mrg 	mulhdu	r10, r3, r31
    1.1  mrg 	add	r10, r10, r11
    1.1  mrg 	mulld	r31, r9, r10
    1.1  mrg ifelse(0,1,`
1.1.1.2  mrg 	subfc	r0, r0, r31
    1.1  mrg 	subfe	r0, r0, r0	C r0 = -(r >= ql)
    1.1  mrg 	not	r7, r0
    1.1  mrg 	add	r10, r7, r10	C qh -= (r >= ql)
    1.1  mrg 	andc	r0, r30, r0
    1.1  mrg 	add	r31, r31, r0
    1.1  mrg ',`
1.1.1.2  mrg 	cmpld	cr7, r31, r0
    1.1  mrg 	blt	cr7, L(29)
    1.1  mrg 	add	r31, r30, r31
    1.1  mrg 	addi	r10, r10, -1
    1.1  mrg L(29):
    1.1  mrg ')
    1.1  mrg 	std	r10, 0(r29)
    1.1  mrg 	addi	r29, r29, -8
    1.1  mrg 	bdnz	L(ufloop)
    1.1  mrg L(156):
    1.1  mrg 	srd	r3, r31, r27
    1.1  mrg L(1):
    1.1  mrg 	addi	r1, r1, 176
    1.1  mrg 	ld	r0, 16(r1)
    1.1  mrg 	lwz	r12, 8(r1)
    1.1  mrg 	mtlr	r0
    1.1  mrg 	ld	r25, -56(r1)
    1.1  mrg 	ld	r26, -48(r1)
    1.1  mrg 	mtcrf	8, r12
    1.1  mrg 	ld	r27, -40(r1)
    1.1  mrg 	ld	r28, -32(r1)
    1.1  mrg 	ld	r29, -24(r1)
    1.1  mrg 	ld	r30, -16(r1)
    1.1  mrg 	ld	r31, -8(r1)
    1.1  mrg 	blr
    1.1  mrg L(162):
    1.1  mrg 	cmpdi	cr7, r6, 0
    1.1  mrg 	beq-	cr7, L(8)
    1.1  mrg 	sldi	r9, r6, 3
    1.1  mrg 	addi	r29, r29, -8
    1.1  mrg 	add	r9, r9, r5
    1.1  mrg 	addi	r28, r6, -1
    1.1  mrg 	ld	r31, -8(r9)
    1.1  mrg 	subfc	r9, r7, r31
    1.1  mrg 	li	r9, 0
    1.1  mrg 	adde	r9, r9, r9
    1.1  mrg 	neg	r0, r9
    1.1  mrg 	std	r9, -8(r11)
    1.1  mrg 	and	r0, r0, r7
    1.1  mrg 	subf	r31, r0, r31
    1.1  mrg L(8):
    1.1  mrg 	mr	r3, r30
    1.1  mrg 	CALL(	mpn_invert_limb)
1.1.1.2  mrg 	li	r27, 0
    1.1  mrg 	addic.	r6, r28, -1
1.1.1.2  mrg 	blt-	cr0, L(110)
    1.1  mrg 	mtctr	r28
    1.1  mrg 	sldi	r6, r6, 3
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(nloop):
    1.1  mrg 	addi	r11, r31, 1
    1.1  mrg 	ldx	r8, r26, r6
    1.1  mrg 	mulld	r0, r31, r3
    1.1  mrg 	mulhdu	r10, r31, r3
1.1.1.2  mrg 	addi	r6, r6, -8
1.1.1.2  mrg 	addc	r0, r0, r8
    1.1  mrg 	adde	r10, r10, r11
    1.1  mrg 	mulld	r31, r10, r30
    1.1  mrg 	subf	r31, r31, r8	C r = nl - qh * d
1.1.1.2  mrg 	subfc	r0, r31, r0	C r <= ql
1.1.1.2  mrg 	subfe	r0, r0, r0	C r0 = -(r <= ql)
1.1.1.2  mrg 	and	r9, r30, r0
1.1.1.2  mrg 	add	r31, r31, r9
1.1.1.2  mrg 	add	r10, r0, r10	C qh -= (r >= ql)
    1.1  mrg 	cmpld	cr7, r31, r30
    1.1  mrg 	bge-	cr7, L(167)
    1.1  mrg L(51):
    1.1  mrg 	std	r10, 0(r29)
    1.1  mrg 	addi	r29, r29, -8
    1.1  mrg 	bdnz	L(nloop)
1.1.1.2  mrg 	b	L(110)
    1.1  mrg
    1.1  mrg L(164):
    1.1  mrg 	subf	r31, r30, r31
    1.1  mrg 	addi	r10, r10, 1
    1.1  mrg 	b	L(123)
    1.1  mrg L(167):
    1.1  mrg 	subf	r31, r30, r31
    1.1  mrg 	addi	r10, r10, 1
    1.1  mrg 	b	L(51)
    1.1  mrg L(165):
    1.1  mrg 	subf	r31, r30, r31
    1.1  mrg 	addi	r8, r8, 1
    1.1  mrg 	b	L(134)
    1.1  mrg EPILOGUE()