atom/sse2/sqr_basecase.asm

    1.1  mrg dnl  x86 mpn_sqr_basecase -- square an mpn number, optimised for atom.
    1.1  mrg
    1.1  mrg dnl  Contributed to the GNU project by Torbjorn Granlund and Marco Bodrato.
1.1.1.2  mrg
    1.1  mrg dnl  Copyright 2011 Free Software Foundation, Inc.
1.1.1.2  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
    1.1  mrg dnl
    1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg dnl  it under the terms of either:
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg dnl      option) any later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.2  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg dnl      later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or both in parallel, as here.
    1.1  mrg dnl
    1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg dnl  for more details.
    1.1  mrg dnl
1.1.1.2  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.2  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg C TODO
    1.1  mrg C  * Check if 'jmp N(%esp)' is well-predicted enough to allow us to combine the
    1.1  mrg C    4 large loops into one; we could use it for the outer loop branch.
    1.1  mrg C  * Optimise code outside of inner loops.
    1.1  mrg C  * Write combined addmul_1 feed-in a wind-down code, and use when iterating
    1.1  mrg C    outer each loop.  ("Overlapping software pipelining")
    1.1  mrg C  * Perhaps use caller-saves regs for inlined mul_1, allowing us to postpone
    1.1  mrg C    all pushes.
    1.1  mrg C  * Perhaps write special code for n < M, for some small M.
    1.1  mrg C  * Replace inlined addmul_1 with smaller code from aorsmul_1.asm, or perhaps
    1.1  mrg C    with even less pipelined code.
    1.1  mrg C  * We run the outer loop until we have a 2-limb by 1-limb addmul_1 left.
    1.1  mrg C    Consider breaking out earlier, saving high the cost of short loops.
    1.1  mrg
    1.1  mrg C void mpn_sqr_basecase (mp_ptr wp,
    1.1  mrg C                        mp_srcptr xp, mp_size_t xn);
    1.1  mrg
    1.1  mrg define(`rp',  `%edi')
    1.1  mrg define(`up',  `%esi')
    1.1  mrg define(`n',   `%ecx')
    1.1  mrg
    1.1  mrg define(`un',  `%ebp')
    1.1  mrg
    1.1  mrg 	TEXT
    1.1  mrg 	ALIGN(16)
    1.1  mrg PROLOGUE(mpn_sqr_basecase)
    1.1  mrg 	push	%edi
    1.1  mrg 	push	%esi
    1.1  mrg 	mov	12(%esp), rp
    1.1  mrg 	mov	16(%esp), up
    1.1  mrg 	mov	20(%esp), n
    1.1  mrg
    1.1  mrg 	lea	4(rp), rp	C write triangular product starting at rp[1]
    1.1  mrg 	dec	n
    1.1  mrg 	movd	(up), %mm7
    1.1  mrg
    1.1  mrg 	jz	L(one)
    1.1  mrg 	lea	4(up), up
    1.1  mrg 	push	%ebx
    1.1  mrg 	push	%ebp
    1.1  mrg 	mov	n, %eax
    1.1  mrg
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	neg	n
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	pxor	%mm6, %mm6
    1.1  mrg 	mov	n, un
    1.1  mrg
    1.1  mrg 	and	$3, %eax
    1.1  mrg 	jz	L(of0)
    1.1  mrg 	cmp	$2, %eax
    1.1  mrg 	jc	L(of1)
    1.1  mrg 	jz	L(of2)
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg 	jmp	L(m3)
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(lm3):	movd	-4(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, -4(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg L(m3):	paddq	%mm0, %mm6
    1.1  mrg 	movd	4(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, (rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, 4(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	add	$4, un
    1.1  mrg 	movd	%mm6, 8(rp)
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	js	L(lm3)
    1.1  mrg
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	movd	%mm6, 12(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg C	jz	L(done)
    1.1  mrg   lea	-12(up), up
    1.1  mrg   lea	4(rp), rp
    1.1  mrg 	jmp	L(ol2)
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(lm0):	movd	(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg L(of0):	paddq	%mm0, %mm6
    1.1  mrg 	movd	4(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, (rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, 4(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	12(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, 8(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	add	$4, un
    1.1  mrg 	movd	%mm6, 12(rp)
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	js	L(lm0)
    1.1  mrg
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	movd	%mm6, 16(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg C	jz	L(done)
    1.1  mrg   lea	-8(up), up
    1.1  mrg   lea	8(rp), rp
    1.1  mrg 	jmp	L(ol3)
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(lm1):	movd	-12(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	-8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, -12(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	-4(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, -8(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, -4(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg L(of1):	paddq	%mm0, %mm6
    1.1  mrg 	add	$4, un
    1.1  mrg 	movd	%mm6, (rp)
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	js	L(lm1)
    1.1  mrg
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	movd	%mm6, 4(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg 	jz	L(done)		C goes away when we add special n=2 code
    1.1  mrg   lea	-20(up), up
    1.1  mrg   lea	-4(rp), rp
    1.1  mrg 	jmp	L(ol0)
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(lm2):	movd	-8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	-4(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, -8(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, -4(rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg L(of2):	paddq	%mm0, %mm6
    1.1  mrg 	movd	4(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	movd	%mm6, (rp)
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	paddq	%mm0, %mm6
    1.1  mrg 	add	$4, un
    1.1  mrg 	movd	%mm6, 4(rp)
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	js	L(lm2)
    1.1  mrg
    1.1  mrg 	psrlq	$32, %mm6
    1.1  mrg 	movd	%mm6, 8(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg C	jz	L(done)
    1.1  mrg   lea	-16(up), up
    1.1  mrg C  lea	(rp), rp
    1.1  mrg C	jmp	L(ol1)
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg
    1.1  mrg L(ol1):	lea	4(up,n,4), up
    1.1  mrg 	movd	(up), %mm7	C read next U invariant limb
    1.1  mrg 	lea	8(rp,n,4), rp
    1.1  mrg 	mov	n, un
    1.1  mrg
    1.1  mrg 	movd	4(up), %mm1
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	sar	$2, un
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	inc	un
    1.1  mrg 	jz	L(re1)
    1.1  mrg
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	xor	%edx, %edx	C zero edx and CF
    1.1  mrg 	jmp	L(a1)
    1.1  mrg
    1.1  mrg L(la1):	adc	$0, %edx
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg L(a1):	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	movd	12(up), %mm1
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, 8(rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	inc	un
    1.1  mrg 	movd	4(up), %mm1
    1.1  mrg 	jnz	L(la1)
    1.1  mrg
    1.1  mrg 	adc	un, %edx	C un is zero here
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	adc	un, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %eax
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	mov	%eax, 8(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg
    1.1  mrg L(ol0):	lea	(up,n,4), up
    1.1  mrg 	movd	4(up), %mm7	C read next U invariant limb
    1.1  mrg 	lea	4(rp,n,4), rp
    1.1  mrg 	mov	n, un
    1.1  mrg
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	sar	$2, un
    1.1  mrg 	movd	12(up), %mm1
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	xor	%edx, %edx	C zero edx and CF
    1.1  mrg 	jmp	L(a0)
    1.1  mrg
    1.1  mrg L(la0):	adc	$0, %edx
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	movd	12(up), %mm1
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg L(a0):	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, 8(rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	inc	un
    1.1  mrg 	movd	4(up), %mm1
    1.1  mrg 	jnz	L(la0)
    1.1  mrg
    1.1  mrg 	adc	un, %edx	C un is zero here
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	adc	un, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %eax
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	mov	%eax, 8(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg
    1.1  mrg L(ol3):	lea	12(up,n,4), up
    1.1  mrg 	movd	-8(up), %mm7	C read next U invariant limb
    1.1  mrg 	lea	(rp,n,4), rp	C put rp back
    1.1  mrg 	mov	n, un
    1.1  mrg
    1.1  mrg 	movd	-4(up), %mm1
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	sar	$2, un
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	xor	%edx, %edx	C zero edx and CF
    1.1  mrg 	jmp	L(a3)
    1.1  mrg
    1.1  mrg L(la3):	adc	$0, %edx
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	movd	12(up), %mm1
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, 8(rp)
    1.1  mrg L(a3):	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	inc	un
    1.1  mrg 	movd	4(up), %mm1
    1.1  mrg 	jnz	L(la3)
    1.1  mrg
    1.1  mrg 	adc	un, %edx	C un is zero here
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	adc	un, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %eax
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	mov	%eax, 8(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg
    1.1  mrg L(ol2):	lea	8(up,n,4), up
    1.1  mrg 	movd	-4(up), %mm7	C read next U invariant limb
    1.1  mrg 	lea	12(rp,n,4), rp
    1.1  mrg 	mov	n, un
    1.1  mrg
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	xor	%edx, %edx
    1.1  mrg 	sar	$2, un
    1.1  mrg 	movd	4(up), %mm1
    1.1  mrg 	test	un, un		C clear carry
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	inc	un
    1.1  mrg 	jnz	L(a2)
    1.1  mrg 	jmp	L(re2)
    1.1  mrg
    1.1  mrg L(la2):	adc	$0, %edx
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg L(a2):	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	movd	8(up), %mm0
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	movd	12(up), %mm1
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	lea	16(up), up
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	adc	$0, %edx
    1.1  mrg 	add	%eax, 8(rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %edx
    1.1  mrg 	pmuludq	%mm7, %mm0
    1.1  mrg 	inc	un
    1.1  mrg 	movd	4(up), %mm1
    1.1  mrg 	jnz	L(la2)
    1.1  mrg
    1.1  mrg 	adc	un, %edx	C un is zero here
    1.1  mrg 	add	%ebx, 12(rp)
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	adc	un, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %eax
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	mov	%eax, 8(rp)
    1.1  mrg
    1.1  mrg 	inc	n
    1.1  mrg 	jmp	L(ol1)
    1.1  mrg
    1.1  mrg C ================================================================
    1.1  mrg L(re2):	psrlq	$32, %mm0
    1.1  mrg 	movd	(up), %mm7	C read next U invariant limb
    1.1  mrg 	adc	%edx, %eax
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	adc	un, %edx
    1.1  mrg 	add	%eax, (rp)
    1.1  mrg 	lea	4(rp), rp
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	%edx, %ebx
    1.1  mrg 	movd	%mm1, %eax
    1.1  mrg 	movd	4(up), %mm1
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	add	%ebx, (rp)
    1.1  mrg 	pmuludq	%mm7, %mm1
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	mov	%eax, 4(rp)
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg
    1.1  mrg L(re1):	psrlq	$32, %mm1
    1.1  mrg 	add	%ebx, 4(rp)
    1.1  mrg 	movd	%mm1, %eax
    1.1  mrg 	adc	un, %eax
    1.1  mrg 	xor	n, n		C make n zeroness assumption below true
    1.1  mrg 	mov	%eax, 8(rp)
    1.1  mrg
    1.1  mrg L(done):			C n is zero here
    1.1  mrg 	mov	24(%esp), up
    1.1  mrg 	mov	28(%esp), %eax
    1.1  mrg
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	inc	%eax
    1.1  mrg 	pmuludq	%mm0, %mm0
    1.1  mrg 	lea	4(up), up
    1.1  mrg 	mov	20(%esp), rp
    1.1  mrg 	shr	%eax
    1.1  mrg 	movd	%mm0, (rp)
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	lea	-12(rp), rp
    1.1  mrg 	mov	%eax, 28(%esp)
    1.1  mrg 	jnc	L(odd)
    1.1  mrg
    1.1  mrg 	movd	%mm0, %ebp
    1.1  mrg 	movd	(up), %mm0
    1.1  mrg 	lea	8(rp), rp
    1.1  mrg 	pmuludq	%mm0, %mm0
    1.1  mrg 	lea	-4(up), up
    1.1  mrg 	add	8(rp), %ebp
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	adc	12(rp), %edx
    1.1  mrg 	rcr	n
    1.1  mrg 	jmp	L(ent)
    1.1  mrg
    1.1  mrg C	ALIGN(16)		C alignment seems irrelevant
    1.1  mrg L(top):	movd	(up), %mm1
    1.1  mrg 	adc	n, n
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	pmuludq	%mm1, %mm1
    1.1  mrg 	movd	4(up), %mm0
    1.1  mrg 	adc	(rp), %eax
    1.1  mrg 	movd	%mm1, %ebx
    1.1  mrg 	pmuludq	%mm0, %mm0
    1.1  mrg 	psrlq	$32, %mm1
    1.1  mrg 	adc	4(rp), %ebx
    1.1  mrg 	movd	%mm1, %ebp
    1.1  mrg 	movd	%mm0, %edx
    1.1  mrg 	adc	8(rp), %ebp
    1.1  mrg 	adc	12(rp), %edx
    1.1  mrg 	rcr	n		C FIXME: isn't this awfully slow on atom???
    1.1  mrg 	adc	%eax, (rp)
    1.1  mrg 	adc	%ebx, 4(rp)
    1.1  mrg L(ent):	lea	8(up), up
    1.1  mrg 	adc	%ebp, 8(rp)
    1.1  mrg 	psrlq	$32, %mm0
    1.1  mrg 	adc	%edx, 12(rp)
    1.1  mrg L(odd):	decl	28(%esp)
    1.1  mrg 	lea	16(rp), rp
    1.1  mrg 	jnz	L(top)
    1.1  mrg
    1.1  mrg L(end):	adc	n, n
    1.1  mrg 	movd	%mm0, %eax
    1.1  mrg 	adc	n, %eax
    1.1  mrg 	mov	%eax, (rp)
    1.1  mrg
    1.1  mrg L(rtn):	emms
    1.1  mrg 	pop	%ebp
    1.1  mrg 	pop	%ebx
    1.1  mrg 	pop	%esi
    1.1  mrg 	pop	%edi
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg L(one):	pmuludq	%mm7, %mm7
    1.1  mrg 	movq	%mm7, -4(rp)
    1.1  mrg 	emms
    1.1  mrg 	pop	%esi
    1.1  mrg 	pop	%edi
    1.1  mrg 	ret
    1.1  mrg EPILOGUE()