sparc32/v9/addmul_1.asm

    1.1  mrg dnl  SPARC v9 32-bit mpn_addmul_1 -- Multiply a limb vector with a limb and add
    1.1  mrg dnl  the result to a second limb vector.
    1.1  mrg
    1.1  mrg dnl  Copyright 1998, 2000, 2001, 2003 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
1.1.1.2  mrg dnl
    1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg dnl  it under the terms of either:
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg dnl      option) any later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.2  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg dnl      later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or both in parallel, as here.
1.1.1.2  mrg dnl
    1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg dnl  for more details.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.2  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg C Algorithm: We use two floating-point multiplies per limb product, with the
    1.1  mrg C invariant v operand split into two 16-bit pieces, and the u operand split
    1.1  mrg C into 32-bit pieces.  We convert the two 48-bit products and transfer them to
    1.1  mrg C the integer unit.
    1.1  mrg
    1.1  mrg C		   cycles/limb
    1.1  mrg C UltraSPARC 1&2:     6.5
    1.1  mrg C UltraSPARC 3:	      ?
    1.1  mrg
    1.1  mrg C Possible optimizations:
    1.1  mrg C   1. Combine 32-bit memory operations into 64-bit operations.  Since we're
    1.1  mrg C      memory bandwidth limited, this could save 1.5 cycles/limb.
    1.1  mrg C   2. Unroll the inner loop.  Since we already use alternate temporary areas,
    1.1  mrg C      it is very straightforward to unroll, using an exit branch midways.
    1.1  mrg C      Unrolling would allow deeper scheduling which could improve speed for L2
    1.1  mrg C      cache case.
    1.1  mrg C   3. For mpn_mul_1: Use more alternating temp areas.  The std'es and ldx'es
    1.1  mrg C      aren't sufficiently apart-scheduled with just two temp areas.
    1.1  mrg C   4. Specialize for particular v values.  If its upper 16 bits are zero, we
    1.1  mrg C      could save many operations.
    1.1  mrg
    1.1  mrg C INPUT PARAMETERS
    1.1  mrg C rp	i0
    1.1  mrg C up	i1
    1.1  mrg C n	i2
    1.1  mrg C v	i3
    1.1  mrg
    1.1  mrg define(`FSIZE',224)
    1.1  mrg
    1.1  mrg ASM_START()
    1.1  mrg PROLOGUE(mpn_addmul_1)
    1.1  mrg 	add	%sp, -FSIZE, %sp
    1.1  mrg 	sethi	%hi(0xffff), %g1
    1.1  mrg 	srl	%o3, 16, %g2
    1.1  mrg 	or	%g1, %lo(0xffff), %g1
    1.1  mrg 	and	%o3, %g1, %g1
    1.1  mrg 	stx	%g1, [%sp+104]
    1.1  mrg 	stx	%g2, [%sp+112]
    1.1  mrg 	ldd	[%sp+104], %f6
    1.1  mrg 	ldd	[%sp+112], %f8
    1.1  mrg 	fxtod	%f6, %f6
    1.1  mrg 	fxtod	%f8, %f8
    1.1  mrg 	ld	[%sp+104], %f10		C zero f10
    1.1  mrg
    1.1  mrg 	mov	0, %g3			C cy = 0
    1.1  mrg
    1.1  mrg define(`fanop', `fitod %f18, %f0')	C  A quasi nop running in the FA pipe
    1.1  mrg
    1.1  mrg 	add	%sp, 160, %o5		C point in scratch area
    1.1  mrg 	and	%o5, -32, %o5		C align at 0 (mod 32) in scratch area
    1.1  mrg
    1.1  mrg 	subcc	%o2, 1, %o2
    1.1  mrg 	ld	[%o1], %f11		C read up[i]
    1.1  mrg 	add	%o1, 4, %o1		C up++
    1.1  mrg 	bne,pt	%icc, .L_two_or_more
    1.1  mrg 	fxtod	%f10, %f2
    1.1  mrg
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	std	%f14, [%o5+16]
    1.1  mrg 	std	%f12, [%o5+24]
    1.1  mrg 	ldx	[%o5+16], %g2		C p16
    1.1  mrg 	ldx	[%o5+24], %g1		C p0
    1.1  mrg 	lduw	[%o0], %g5		C read rp[i]
    1.1  mrg 	b	.L1
    1.1  mrg 	add	%o0, -16, %o0
    1.1  mrg
    1.1  mrg 	.align	16
    1.1  mrg .L_two_or_more:
    1.1  mrg 	subcc	%o2, 1, %o2
    1.1  mrg 	ld	[%o1], %f11		C read up[i]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	add	%o1, 4, %o1		C up++
    1.1  mrg 	bne,pt	%icc, .L_three_or_more
    1.1  mrg 	fxtod	%f10, %f2
    1.1  mrg
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	std	%f14, [%o5+16]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	std	%f12, [%o5+24]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	std	%f14, [%o5+0]
    1.1  mrg 	std	%f12, [%o5+8]
    1.1  mrg 	lduw	[%o0], %g5		C read rp[i]
    1.1  mrg 	ldx	[%o5+16], %g2		C p16
    1.1  mrg 	ldx	[%o5+24], %g1		C p0
    1.1  mrg 	b	.L2
    1.1  mrg 	add	%o0, -12, %o0
    1.1  mrg
    1.1  mrg 	.align	16
    1.1  mrg .L_three_or_more:
    1.1  mrg 	subcc	%o2, 1, %o2
    1.1  mrg 	ld	[%o1], %f11		C read up[i]
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	std	%f14, [%o5+16]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	std	%f12, [%o5+24]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	add	%o1, 4, %o1		C up++
    1.1  mrg 	bne,pt	%icc, .L_four_or_more
    1.1  mrg 	fxtod	%f10, %f2
    1.1  mrg
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	std	%f14, [%o5+0]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	std	%f12, [%o5+8]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	ldx	[%o5+16], %g2		C p16
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	ldx	[%o5+24], %g1		C p0
    1.1  mrg 	std	%f14, [%o5+16]
    1.1  mrg 	std	%f12, [%o5+24]
    1.1  mrg 	lduw	[%o0], %g5		C read rp[i]
    1.1  mrg 	b	.L3
    1.1  mrg 	add	%o0, -8, %o0
    1.1  mrg
    1.1  mrg 	.align	16
    1.1  mrg .L_four_or_more:
    1.1  mrg 	subcc	%o2, 1, %o2
    1.1  mrg 	ld	[%o1], %f11		C read up[i]
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	std	%f14, [%o5+0]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	std	%f12, [%o5+8]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	add	%o1, 4, %o1		C up++
    1.1  mrg 	bne,pt	%icc, .L_five_or_more
    1.1  mrg 	fxtod	%f10, %f2
    1.1  mrg
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	ldx	[%o5+16], %g2		C p16
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	ldx	[%o5+24], %g1		C p0
    1.1  mrg 	std	%f14, [%o5+16]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	std	%f12, [%o5+24]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	add	%o1, 4, %o1		C up++
    1.1  mrg 	lduw	[%o0], %g5		C read rp[i]
    1.1  mrg 	b	.L4
    1.1  mrg 	add	%o0, -4, %o0
    1.1  mrg
    1.1  mrg 	.align	16
    1.1  mrg .L_five_or_more:
    1.1  mrg 	subcc	%o2, 1, %o2
    1.1  mrg 	ld	[%o1], %f11		C read up[i]
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg 	ldx	[%o5+16], %g2		C p16
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	ldx	[%o5+24], %g1		C p0
    1.1  mrg 	std	%f14, [%o5+16]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	std	%f12, [%o5+24]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	add	%o1, 4, %o1		C up++
    1.1  mrg 	lduw	[%o0], %g5		C read rp[i]
    1.1  mrg 	bne,pt	%icc, .Loop
    1.1  mrg 	fxtod	%f10, %f2
    1.1  mrg 	b,a	.L5
    1.1  mrg
    1.1  mrg C BEGIN MAIN LOOP
    1.1  mrg 	.align 16
    1.1  mrg C -- 0
    1.1  mrg .Loop:	nop
    1.1  mrg 	subcc	%o2, 1, %o2
    1.1  mrg 	ld	[%o1], %f11		C read up[i]
    1.1  mrg 	fdtox	%f16, %f14
    1.1  mrg C -- 1
    1.1  mrg 	sllx	%g2, 16, %g4		C (p16 << 16)
    1.1  mrg 	add	%o0, 4, %o0		C rp++
    1.1  mrg 	ldx	[%o5+0], %g2		C p16
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg C -- 2
    1.1  mrg 	nop
    1.1  mrg 	add	%g1, %g4, %g4		C p = p0 + (p16 << 16)
    1.1  mrg 	ldx	[%o5+8], %g1		C p0
    1.1  mrg 	fanop
    1.1  mrg C -- 3
    1.1  mrg 	nop
    1.1  mrg 	add	%g3, %g4, %g4		C p += cy
    1.1  mrg 	std	%f14, [%o5+0]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg C -- 4
    1.1  mrg 	nop
    1.1  mrg 	add	%g5, %g4, %g4		C p += rp[i]
    1.1  mrg 	std	%f12, [%o5+8]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg C -- 5
    1.1  mrg 	xor	%o5, 16, %o5		C alternate scratch variables
    1.1  mrg 	add	%o1, 4, %o1		C up++
    1.1  mrg 	stw	%g4, [%o0-4]
    1.1  mrg 	fanop
    1.1  mrg C -- 6
    1.1  mrg 	srlx	%g4, 32, %g3		C new cy
    1.1  mrg 	lduw	[%o0], %g5		C read rp[i]
    1.1  mrg 	bne,pt	%icc, .Loop
    1.1  mrg 	fxtod	%f10, %f2
    1.1  mrg C END MAIN LOOP
    1.1  mrg
    1.1  mrg .L5:	fdtox	%f16, %f14
    1.1  mrg 	sllx	%g2, 16, %g4		C (p16 << 16)
    1.1  mrg 	ldx	[%o5+0], %g2		C p16
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	add	%g1, %g4, %g4		C p = p0 + (p16 << 16)
    1.1  mrg 	ldx	[%o5+8], %g1		C p0
    1.1  mrg 	add	%g4, %g3, %g4		C p += cy
    1.1  mrg 	std	%f14, [%o5+0]
    1.1  mrg 	fmuld	%f2, %f8, %f16
    1.1  mrg 	add	%g5, %g4, %g4		C p += rp[i]
    1.1  mrg 	std	%f12, [%o5+8]
    1.1  mrg 	fmuld	%f2, %f6, %f4
    1.1  mrg 	xor	%o5, 16, %o5
    1.1  mrg 	stw	%g4, [%o0+0]
    1.1  mrg 	srlx	%g4, 32, %g3		C new cy
    1.1  mrg 	lduw	[%o0+4], %g5		C read rp[i]
    1.1  mrg
    1.1  mrg .L4:	fdtox	%f16, %f14
    1.1  mrg 	sllx	%g2, 16, %g4		C (p16 << 16)
    1.1  mrg 	ldx	[%o5+0], %g2		C p16
    1.1  mrg 	fdtox	%f4, %f12
    1.1  mrg 	add	%g1, %g4, %g4		C p = p0 + (p16 << 16)
    1.1  mrg 	ldx	[%o5+8], %g1		C p0
    1.1  mrg 	add	%g3, %g4, %g4		C p += cy
    1.1  mrg 	std	%f14, [%o5+0]
    1.1  mrg 	add	%g5, %g4, %g4		C p += rp[i]
    1.1  mrg 	std	%f12, [%o5+8]
    1.1  mrg 	xor	%o5, 16, %o5
    1.1  mrg 	stw	%g4, [%o0+4]
    1.1  mrg 	srlx	%g4, 32, %g3		C new cy
    1.1  mrg 	lduw	[%o0+8], %g5		C read rp[i]
    1.1  mrg
    1.1  mrg .L3:	sllx	%g2, 16, %g4		C (p16 << 16)
    1.1  mrg 	ldx	[%o5+0], %g2		C p16
    1.1  mrg 	add	%g1, %g4, %g4		C p = p0 + (p16 << 16)
    1.1  mrg 	ldx	[%o5+8], %g1		C p0
    1.1  mrg 	add	%g3, %g4, %g4		C p += cy
    1.1  mrg 	add	%g5, %g4, %g4		C p += rp[i]
    1.1  mrg 	xor	%o5, 16, %o5
    1.1  mrg 	stw	%g4, [%o0+8]
    1.1  mrg 	srlx	%g4, 32, %g3		C new cy
    1.1  mrg 	lduw	[%o0+12], %g5		C read rp[i]
    1.1  mrg
    1.1  mrg .L2:	sllx	%g2, 16, %g4		C (p16 << 16)
    1.1  mrg 	ldx	[%o5+0], %g2		C p16
    1.1  mrg 	add	%g1, %g4, %g4		C p = p0 + (p16 << 16)
    1.1  mrg 	ldx	[%o5+8], %g1		C p0
    1.1  mrg 	add	%g3, %g4, %g4		C p += cy
    1.1  mrg 	add	%g5, %g4, %g4		C p += rp[i]
    1.1  mrg 	stw	%g4, [%o0+12]
    1.1  mrg 	srlx	%g4, 32, %g3		C new cy
    1.1  mrg 	lduw	[%o0+16], %g5		C read rp[i]
    1.1  mrg
    1.1  mrg .L1:	sllx	%g2, 16, %g4		C (p16 << 16)
    1.1  mrg 	add	%g1, %g4, %g4		C p = p0 + (p16 << 16)
    1.1  mrg 	add	%g3, %g4, %g4		C p += cy
    1.1  mrg 	add	%g5, %g4, %g4		C p += rp[i]
    1.1  mrg 	stw	%g4, [%o0+16]
    1.1  mrg 	srlx	%g4, 32, %g3		C new cy
    1.1  mrg
    1.1  mrg 	mov	%g3, %o0
    1.1  mrg 	retl
    1.1  mrg 	sub	%sp, -FSIZE, %sp
    1.1  mrg EPILOGUE(mpn_addmul_1)