sparc64/ultrasparc1234/mul_1.asm

    1.1  mrg dnl  SPARC v9 64-bit mpn_mul_1 -- Multiply a limb vector with a limb and store
    1.1  mrg dnl  the result in a second limb vector.
    1.1  mrg
1.1.1.2  mrg dnl  Copyright 1998, 2000-2003 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
1.1.1.2  mrg dnl
    1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg dnl  it under the terms of either:
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg dnl      option) any later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.2  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg dnl      later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or both in parallel, as here.
1.1.1.2  mrg dnl
    1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg dnl  for more details.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.2  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg C		   cycles/limb
    1.1  mrg C UltraSPARC 1&2:     14
    1.1  mrg C UltraSPARC 3:	      18.5
    1.1  mrg
    1.1  mrg C Algorithm: We use eight floating-point multiplies per limb product, with the
    1.1  mrg C invariant v operand split into four 16-bit pieces, and the s1 operand split
    1.1  mrg C into 32-bit pieces.  We sum pairs of 48-bit partial products using
    1.1  mrg C floating-point add, then convert the four 49-bit product-sums and transfer
    1.1  mrg C them to the integer unit.
    1.1  mrg
    1.1  mrg C Possible optimizations:
    1.1  mrg C   1. Align the stack area where we transfer the four 49-bit product-sums
    1.1  mrg C      to a 32-byte boundary.  That would minimize the cache collision.
    1.1  mrg C      (UltraSPARC-1/2 use a direct-mapped cache.)  (Perhaps even better would
    1.1  mrg C      be to align the area to map to the area immediately before s1?)
    1.1  mrg C   2. Sum the 4 49-bit quantities using 32-bit operations, as in the
    1.1  mrg C      develop mpn_addmul_2.  This would save many integer instructions.
    1.1  mrg C   3. Unrolling.  Questionable if it is worth the code expansion, given that
    1.1  mrg C      it could only save 1 cycle/limb.
    1.1  mrg C   4. Specialize for particular v values.  If its upper 32 bits are zero, we
    1.1  mrg C      could save many operations, in the FPU (fmuld), but more so in the IEU
    1.1  mrg C      since we'll be summing 48-bit quantities, which might be simpler.
    1.1  mrg C   5. Ideally, we should schedule the f2/f3 and f4/f5 RAW further apart, and
    1.1  mrg C      the i00,i16,i32,i48 RAW less apart.  The latter apart-scheduling should
    1.1  mrg C      not be greater than needed for L2 cache latency, and also not so great
    1.1  mrg C      that i16 needs to be copied.
    1.1  mrg C   6. Avoid performing mem+fa+fm in the same cycle, at least not when we want
    1.1  mrg C      to get high IEU bandwidth.  (12 of the 14 cycles will be free for 2 IEU
    1.1  mrg C      ops.)
    1.1  mrg
    1.1  mrg C Instruction classification (as per UltraSPARC-1/2 functional units):
    1.1  mrg C    8 FM
    1.1  mrg C   10 FA
    1.1  mrg C   11 MEM
    1.1  mrg C   9 ISHIFT + 10? IADDLOG
    1.1  mrg C    1 BRANCH
    1.1  mrg C   49 insns totally (plus three mov insns that should be optimized out)
    1.1  mrg
    1.1  mrg C The loop executes 53 instructions in 14 cycles on UltraSPARC-1/2, i.e we
    1.1  mrg C sustain 3.79 instructions/cycle.
    1.1  mrg
    1.1  mrg C INPUT PARAMETERS
    1.1  mrg C rp	i0
    1.1  mrg C up	i1
    1.1  mrg C n	i2
    1.1  mrg C v	i3
    1.1  mrg
    1.1  mrg ASM_START()
    1.1  mrg 	REGISTER(%g2,#scratch)
    1.1  mrg 	REGISTER(%g3,#scratch)
    1.1  mrg
    1.1  mrg define(`p00', `%f8') define(`p16',`%f10') define(`p32',`%f12') define(`p48',`%f14')
    1.1  mrg define(`r32',`%f16') define(`r48',`%f18') define(`r64',`%f20') define(`r80',`%f22')
    1.1  mrg define(`v00',`%f24') define(`v16',`%f26') define(`v32',`%f28') define(`v48',`%f30')
    1.1  mrg define(`u00',`%f32') define(`u32', `%f34')
    1.1  mrg define(`a00',`%f36') define(`a16',`%f38') define(`a32',`%f40') define(`a48',`%f42')
    1.1  mrg define(`cy',`%g1')
    1.1  mrg define(`rlimb',`%g3')
    1.1  mrg define(`i00',`%l0') define(`i16',`%l1') define(`i32',`%l2') define(`i48',`%l3')
    1.1  mrg define(`xffffffff',`%l7')
    1.1  mrg define(`xffff',`%o0')
    1.1  mrg
    1.1  mrg PROLOGUE(mpn_mul_1)
    1.1  mrg
    1.1  mrg C Initialization.  (1) Split v operand into four 16-bit chunks and store them
    1.1  mrg C as IEEE double in fp registers.  (2) Clear upper 32 bits of fp register pairs
    1.1  mrg C f2 and f4.  (3) Store masks in registers aliased to `xffff' and `xffffffff'.
    1.1  mrg
    1.1  mrg 	save	%sp, -256, %sp
    1.1  mrg 	mov	-1, %g4
    1.1  mrg 	srlx	%g4, 48, xffff		C store mask in register `xffff'
    1.1  mrg 	and	%i3, xffff, %g2
    1.1  mrg 	stx	%g2, [%sp+2223+0]
    1.1  mrg 	srlx	%i3, 16, %g3
    1.1  mrg 	and	%g3, xffff, %g3
    1.1  mrg 	stx	%g3, [%sp+2223+8]
    1.1  mrg 	srlx	%i3, 32, %g2
    1.1  mrg 	and	%g2, xffff, %g2
    1.1  mrg 	stx	%g2, [%sp+2223+16]
    1.1  mrg 	srlx	%i3, 48, %g3
    1.1  mrg 	stx	%g3, [%sp+2223+24]
    1.1  mrg 	srlx	%g4, 32, xffffffff	C store mask in register `xffffffff'
    1.1  mrg
    1.1  mrg 	sllx	%i2, 3, %i2
    1.1  mrg 	mov	0, cy			C clear cy
    1.1  mrg 	add	%i0, %i2, %i0
    1.1  mrg 	add	%i1, %i2, %i1
    1.1  mrg 	neg	%i2
    1.1  mrg 	add	%i1, 4, %i5
    1.1  mrg 	add	%i0, -32, %i4
    1.1  mrg 	add	%i0, -16, %i0
    1.1  mrg
    1.1  mrg 	ldd	[%sp+2223+0], v00
    1.1  mrg 	ldd	[%sp+2223+8], v16
    1.1  mrg 	ldd	[%sp+2223+16], v32
    1.1  mrg 	ldd	[%sp+2223+24], v48
    1.1  mrg 	ld	[%sp+2223+0],%f2	C zero f2
    1.1  mrg 	ld	[%sp+2223+0],%f4	C zero f4
    1.1  mrg 	ld	[%i5+%i2], %f3		C read low 32 bits of up[i]
    1.1  mrg 	ld	[%i1+%i2], %f5		C read high 32 bits of up[i]
    1.1  mrg 	fxtod	v00, v00
    1.1  mrg 	fxtod	v16, v16
    1.1  mrg 	fxtod	v32, v32
    1.1  mrg 	fxtod	v48, v48
    1.1  mrg
    1.1  mrg C Start real work.  (We sneakingly read f3 and f5 above...)
    1.1  mrg C The software pipeline is very deep, requiring 4 feed-in stages.
    1.1  mrg
    1.1  mrg 	fxtod	%f2, u00
    1.1  mrg 	fxtod	%f4, u32
    1.1  mrg 	fmuld	u00, v00, a00
    1.1  mrg 	fmuld	u00, v16, a16
    1.1  mrg 	fmuld	u00, v32, p32
    1.1  mrg 	fmuld	u32, v00, r32
    1.1  mrg 	fmuld	u00, v48, p48
    1.1  mrg 	addcc	%i2, 8, %i2
    1.1  mrg 	bnz,pt	%xcc, .L_two_or_more
    1.1  mrg 	fmuld	u32, v16, r48
    1.1  mrg
    1.1  mrg .L_one:
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg
    1.1  mrg 	fdtox	r64, a00
    1.1  mrg 	fdtox	r80, a16
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	b	.L_out_1
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg
    1.1  mrg .L_two_or_more:
    1.1  mrg 	ld	[%i5+%i2], %f3		C read low 32 bits of up[i]
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg 	ld	[%i1+%i2], %f5		C read high 32 bits of up[i]
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg 	fxtod	%f2, u00
    1.1  mrg 	fxtod	%f4, u32
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	fmuld	u00, v00, p00
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	fmuld	u00, v16, p16
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	fmuld	u00, v32, p32
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	faddd	p00, r64, a00
    1.1  mrg 	fmuld	u32, v00, r32
    1.1  mrg 	faddd	p16, r80, a16
    1.1  mrg 	fmuld	u00, v48, p48
    1.1  mrg 	addcc	%i2, 8, %i2
    1.1  mrg 	bnz,pt	%xcc, .L_three_or_more
    1.1  mrg 	fmuld	u32, v16, r48
    1.1  mrg
    1.1  mrg .L_two:
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg
    1.1  mrg 	fdtox	r64, a00
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	fdtox	r80, a16
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	b	.L_out_2
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg
    1.1  mrg .L_three_or_more:
    1.1  mrg 	ld	[%i5+%i2], %f3		C read low 32 bits of up[i]
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg 	ld	[%i1+%i2], %f5		C read high 32 bits of up[i]
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	fxtod	%f2, u00
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	fxtod	%f4, u32
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	fmuld	u00, v00, p00
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	fmuld	u00, v16, p16
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	fmuld	u00, v32, p32
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	faddd	p00, r64, a00
    1.1  mrg 	fmuld	u32, v00, r32
    1.1  mrg 	faddd	p16, r80, a16
    1.1  mrg 	fmuld	u00, v48, p48
    1.1  mrg 	addcc	%i2, 8, %i2
    1.1  mrg 	bnz,pt	%xcc, .L_four_or_more
    1.1  mrg 	fmuld	u32, v16, r48
    1.1  mrg
    1.1  mrg .L_three:
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	b	.L_out_3
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg
    1.1  mrg .L_four_or_more:
    1.1  mrg 	ld	[%i5+%i2], %f3		C read low 32 bits of up[i]
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg 	ld	[%i1+%i2], %f5		C read high 32 bits of up[i]
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	fxtod	%f2, u00
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	fxtod	%f4, u32
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	fmuld	u00, v00, p00
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	fmuld	u00, v16, p16
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	fmuld	u00, v32, p32
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	faddd	p00, r64, a00
    1.1  mrg 	fmuld	u32, v00, r32
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	faddd	p16, r80, a16
    1.1  mrg 	fmuld	u00, v48, p48
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	addcc	%i2, 8, %i2
    1.1  mrg 	bnz,pt	%xcc, .Loop
    1.1  mrg 	fmuld	u32, v16, r48
    1.1  mrg
    1.1  mrg .L_four:
    1.1  mrg 	b,a	.L_out_4
    1.1  mrg
    1.1  mrg C BEGIN MAIN LOOP
    1.1  mrg 	.align	16
    1.1  mrg .Loop:
    1.1  mrg C 00
    1.1  mrg 	srlx	%o4, 16, %o5		C (x >> 16)
    1.1  mrg 	ld	[%i5+%i2], %f3		C read low 32 bits of up[i]
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg C 01
    1.1  mrg 	add	%o5, %o2, %o2		C mi64 in %o2   2nd ASSIGNMENT
    1.1  mrg 	and	%o4, xffff, %o5		C (x & 0xffff)
    1.1  mrg 	ld	[%i1+%i2], %f5		C read high 32 bits of up[i]
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg C 02
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg C 03
    1.1  mrg 	srlx	%o2, 48, %o7		C (mi64 >> 48)
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg C 04
    1.1  mrg 	sllx	%o2, 16, %i3		C (mi64 << 16)
    1.1  mrg 	add	%o7, %o1, cy		C new cy
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg C 05
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	fxtod	%f2, u00
    1.1  mrg C 06
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	fxtod	%f4, u32
    1.1  mrg C 07
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	or	%i3, %o5, %o5
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg C 08
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	fmuld	u00, v00, p00
    1.1  mrg C 09
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	fmuld	u00, v16, p16
    1.1  mrg C 10
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	fmuld	u00, v32, p32
    1.1  mrg C 11
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	faddd	p00, r64, a00
    1.1  mrg 	fmuld	u32, v00, r32
    1.1  mrg C 12
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	stx	%o5, [%i4+%i2]
    1.1  mrg 	faddd	p16, r80, a16
    1.1  mrg 	fmuld	u00, v48, p48
    1.1  mrg C 13
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	addcc	%i2, 8, %i2
    1.1  mrg 	bnz,pt	%xcc, .Loop
    1.1  mrg 	fmuld	u32, v16, r48
    1.1  mrg C END MAIN LOOP
    1.1  mrg
    1.1  mrg .L_out_4:
    1.1  mrg 	srlx	%o4, 16, %o5		C (x >> 16)
    1.1  mrg 	fmuld	u32, v32, r64	C FIXME not urgent
    1.1  mrg 	faddd	p32, r32, a32
    1.1  mrg 	add	%o5, %o2, %o2		C mi64 in %o2   2nd ASSIGNMENT
    1.1  mrg 	and	%o4, xffff, %o5		C (x & 0xffff)
    1.1  mrg 	fdtox	a00, a00
    1.1  mrg 	faddd	p48, r48, a48
    1.1  mrg 	srlx	%o2, 48, %o7		C (mi64 >> 48)
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	fmuld	u32, v48, r80	C FIXME not urgent
    1.1  mrg 	fdtox	a16, a16
    1.1  mrg 	sllx	%o2, 16, %i3		C (mi64 << 16)
    1.1  mrg 	add	%o7, %o1, cy		C new cy
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	fdtox	a32, a32
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	or	%i3, %o5, %o5
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	fdtox	a48, a48
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a32, [%sp+2223+16]
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	std	a48, [%sp+2223+24]
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	stx	%o5, [%i4+%i2]
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg .L_out_3:
    1.1  mrg 	srlx	%o4, 16, %o5		C (x >> 16)
    1.1  mrg 	add	%o5, %o2, %o2		C mi64 in %o2   2nd ASSIGNMENT
    1.1  mrg 	and	%o4, xffff, %o5		C (x & 0xffff)
    1.1  mrg 	fdtox	r64, a00
    1.1  mrg 	srlx	%o2, 48, %o7		C (mi64 >> 48)
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	fdtox	r80, a16
    1.1  mrg 	sllx	%o2, 16, %i3		C (mi64 << 16)
    1.1  mrg 	add	%o7, %o1, cy		C new cy
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	ldx	[%sp+2223+16], i32
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	or	%i3, %o5, %o5
    1.1  mrg 	ldx	[%sp+2223+24], i48
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	std	a00, [%sp+2223+0]
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	std	a16, [%sp+2223+8]
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	stx	%o5, [%i4+%i2]
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg .L_out_2:
    1.1  mrg 	srlx	%o4, 16, %o5		C (x >> 16)
    1.1  mrg 	add	%o5, %o2, %o2		C mi64 in %o2   2nd ASSIGNMENT
    1.1  mrg 	and	%o4, xffff, %o5		C (x & 0xffff)
    1.1  mrg 	srlx	%o2, 48, %o7		C (mi64 >> 48)
    1.1  mrg 	mov	i00, %g5		C i00+ now in g5
    1.1  mrg 	sllx	%o2, 16, %i3		C (mi64 << 16)
    1.1  mrg 	add	%o7, %o1, cy		C new cy
    1.1  mrg 	ldx	[%sp+2223+0], i00
    1.1  mrg 	srlx	i16, 48, %l4		C (i16 >> 48)
    1.1  mrg 	mov	i16, %g2
    1.1  mrg 	ldx	[%sp+2223+8], i16
    1.1  mrg 	srlx	i48, 16, %l5		C (i48 >> 16)
    1.1  mrg 	mov	i32, %g4		C i32+ now in g4
    1.1  mrg 	sllx	i48, 32, %l6		C (i48 << 32)
    1.1  mrg 	or	%i3, %o5, %o5
    1.1  mrg 	srlx	%g4, 32, %o3		C (i32 >> 32)
    1.1  mrg 	add	%l5, %l4, %o1		C hi64- in %o1
    1.1  mrg 	sllx	%g4, 16, %o2		C (i32 << 16)
    1.1  mrg 	add	%o3, %o1, %o1		C hi64 in %o1   1st ASSIGNMENT
    1.1  mrg 	sllx	%o1, 48, %o3		C (hi64 << 48)
    1.1  mrg 	add	%g2, %o2, %o2		C mi64- in %o2
    1.1  mrg 	add	%l6, %o2, %o2		C mi64- in %o2
    1.1  mrg 	sub	%o2, %o3, %o2		C mi64 in %o2   1st ASSIGNMENT
    1.1  mrg 	stx	%o5, [%i4+%i2]
    1.1  mrg 	add	cy, %g5, %o4		C x = prev(i00) + cy
    1.1  mrg 	add	%i2, 8, %i2
    1.1  mrg .L_out_1:
    1.1  mrg 	srlx	%o4, 16, %o5		C (x >> 16)
    1.1  mrg 	add	%o5, %o2, %o2		C mi64 in %o2   2nd ASSIGNMENT
    1.1  mrg 	and	%o4, xffff, %o5		C (x & 0xffff)
    1.1  mrg 	srlx	%o2, 48, %o7		C (mi64 >> 48)
    1.1  mrg 	sllx	%o2, 16, %i3		C (mi64 << 16)
    1.1  mrg 	add	%o7, %o1, cy		C new cy
    1.1  mrg 	or	%i3, %o5, %o5
    1.1  mrg 	stx	%o5, [%i4+%i2]
    1.1  mrg
    1.1  mrg 	sllx	i00, 0, %g2
    1.1  mrg 	add	%g2, cy, cy
    1.1  mrg 	sllx	i16, 16, %g3
    1.1  mrg 	add	%g3, cy, cy
    1.1  mrg
    1.1  mrg 	return	%i7+8
    1.1  mrg 	mov	cy, %o0
    1.1  mrg EPILOGUE(mpn_mul_1)