x86/k7/mul_basecase.asm

    1.1  mrg dnl  AMD K7 mpn_mul_basecase -- multiply two mpn numbers.
    1.1  mrg
1.1.1.2  mrg dnl  Copyright 1999-2002 Free Software Foundation, Inc.
1.1.1.2  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
    1.1  mrg dnl
1.1.1.2  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg dnl  it under the terms of either:
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg dnl      option) any later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.2  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg dnl      later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or both in parallel, as here.
    1.1  mrg dnl
1.1.1.2  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
1.1.1.2  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg dnl  for more details.
    1.1  mrg dnl
1.1.1.2  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.2  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg
    1.1  mrg C K7: approx 4.42 cycles per cross product at around 20x20 limbs (16
    1.1  mrg C     limbs/loop unrolling).
    1.1  mrg
    1.1  mrg
    1.1  mrg
    1.1  mrg dnl  K7 UNROLL_COUNT cycles/product (at around 20x20)
    1.1  mrg dnl           8           4.67
    1.1  mrg dnl          16           4.59
    1.1  mrg dnl          32           4.42
    1.1  mrg dnl  Maximum possible with the current code is 32.
    1.1  mrg dnl
    1.1  mrg dnl  At 32 the typical 13-26 limb sizes from the karatsuba code will get
    1.1  mrg dnl  done with a straight run through a block of code, no inner loop.  Using
    1.1  mrg dnl  32 gives 1k of code, but the k7 has a 64k L1 code cache.
    1.1  mrg
    1.1  mrg deflit(UNROLL_COUNT, 32)
    1.1  mrg
    1.1  mrg
    1.1  mrg C void mpn_mul_basecase (mp_ptr wp,
    1.1  mrg C                        mp_srcptr xp, mp_size_t xsize,
    1.1  mrg C                        mp_srcptr yp, mp_size_t ysize);
    1.1  mrg C
    1.1  mrg C Calculate xp,xsize multiplied by yp,ysize, storing the result in
    1.1  mrg C wp,xsize+ysize.
    1.1  mrg C
    1.1  mrg C This routine is essentially the same as mpn/generic/mul_basecase.c, but
    1.1  mrg C it's faster because it does most of the mpn_addmul_1() startup
    1.1  mrg C calculations only once.  The saving is 15-25% on typical sizes coming from
    1.1  mrg C the Karatsuba multiply code.
    1.1  mrg
    1.1  mrg ifdef(`PIC',`
    1.1  mrg deflit(UNROLL_THRESHOLD, 5)
    1.1  mrg ',`
    1.1  mrg deflit(UNROLL_THRESHOLD, 5)
    1.1  mrg ')
    1.1  mrg
    1.1  mrg defframe(PARAM_YSIZE,20)
    1.1  mrg defframe(PARAM_YP,   16)
    1.1  mrg defframe(PARAM_XSIZE,12)
    1.1  mrg defframe(PARAM_XP,   8)
    1.1  mrg defframe(PARAM_WP,   4)
    1.1  mrg
    1.1  mrg 	TEXT
    1.1  mrg 	ALIGN(32)
    1.1  mrg PROLOGUE(mpn_mul_basecase)
    1.1  mrg deflit(`FRAME',0)
    1.1  mrg
    1.1  mrg 	movl	PARAM_XSIZE, %ecx
    1.1  mrg 	movl	PARAM_YP, %eax
    1.1  mrg
    1.1  mrg 	movl	PARAM_XP, %edx
    1.1  mrg 	movl	(%eax), %eax	C yp low limb
    1.1  mrg
    1.1  mrg 	cmpl	$2, %ecx
    1.1  mrg 	ja	L(xsize_more_than_two)
    1.1  mrg 	je	L(two_by_something)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	C one limb by one limb
    1.1  mrg
    1.1  mrg 	mull	(%edx)
    1.1  mrg
    1.1  mrg 	movl	PARAM_WP, %ecx
    1.1  mrg 	movl	%eax, (%ecx)
    1.1  mrg 	movl	%edx, 4(%ecx)
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg L(two_by_something):
    1.1  mrg deflit(`FRAME',0)
    1.1  mrg 	decl	PARAM_YSIZE
    1.1  mrg 	pushl	%ebx		defframe_pushl(`SAVE_EBX')
    1.1  mrg 	movl	%eax, %ecx	C yp low limb
    1.1  mrg
    1.1  mrg 	movl	PARAM_WP, %ebx
    1.1  mrg 	pushl	%esi		defframe_pushl(`SAVE_ESI')
    1.1  mrg 	movl	%edx, %esi	C xp
    1.1  mrg
    1.1  mrg 	movl	(%edx), %eax	C xp low limb
    1.1  mrg 	jnz	L(two_by_two)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	C two limbs by one limb
    1.1  mrg
    1.1  mrg 	mull	%ecx
    1.1  mrg
    1.1  mrg 	movl	%eax, (%ebx)
    1.1  mrg 	movl	4(%esi), %eax
    1.1  mrg 	movl	%edx, %esi	C carry
    1.1  mrg
    1.1  mrg 	mull	%ecx
    1.1  mrg
    1.1  mrg 	addl	%eax, %esi
    1.1  mrg
    1.1  mrg 	movl	%esi, 4(%ebx)
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg
    1.1  mrg 	movl	%edx, 8(%ebx)
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg 	addl	$FRAME, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg C Could load yp earlier into another register.
    1.1  mrg
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(two_by_two):
    1.1  mrg 	C eax	xp low limb
    1.1  mrg 	C ebx	wp
    1.1  mrg 	C ecx	yp low limb
    1.1  mrg 	C edx
    1.1  mrg 	C esi	xp
    1.1  mrg 	C edi
    1.1  mrg 	C ebp
    1.1  mrg
    1.1  mrg dnl  FRAME carries on from previous
    1.1  mrg
    1.1  mrg 	mull	%ecx		C xp[0] * yp[0]
    1.1  mrg
    1.1  mrg 	push	%edi		defframe_pushl(`SAVE_EDI')
    1.1  mrg 	movl	%edx, %edi	C carry, for wp[1]
    1.1  mrg
    1.1  mrg 	movl	%eax, (%ebx)
    1.1  mrg 	movl	4(%esi), %eax
    1.1  mrg
    1.1  mrg 	mull	%ecx		C xp[1] * yp[0]
    1.1  mrg
    1.1  mrg 	addl	%eax, %edi
    1.1  mrg 	movl	PARAM_YP, %ecx
    1.1  mrg
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg 	movl	4(%ecx), %ecx	C yp[1]
    1.1  mrg 	movl	%edi, 4(%ebx)
    1.1  mrg
    1.1  mrg 	movl	4(%esi), %eax	C xp[1]
    1.1  mrg 	movl	%edx, %edi	C carry, for wp[2]
    1.1  mrg
    1.1  mrg 	mull	%ecx		C xp[1] * yp[1]
    1.1  mrg
    1.1  mrg 	addl	%eax, %edi
    1.1  mrg
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg 	movl	(%esi), %eax	C xp[0]
    1.1  mrg
    1.1  mrg 	movl	%edx, %esi	C carry, for wp[3]
    1.1  mrg
    1.1  mrg 	mull	%ecx		C xp[0] * yp[1]
    1.1  mrg
    1.1  mrg 	addl	%eax, 4(%ebx)
    1.1  mrg 	adcl	%edx, %edi
    1.1  mrg 	movl	%edi, 8(%ebx)
    1.1  mrg
    1.1  mrg 	adcl	$0, %esi
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg 	movl	%esi, 12(%ebx)
    1.1  mrg
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg 	addl	$FRAME, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(xsize_more_than_two):
    1.1  mrg
    1.1  mrg C The first limb of yp is processed with a simple mpn_mul_1 style loop
    1.1  mrg C inline.  Unrolling this doesn't seem worthwhile since it's only run once
    1.1  mrg C (whereas the addmul below is run ysize-1 many times).  A call to the
    1.1  mrg C actual mpn_mul_1 will be slowed down by the call and parameter pushing and
    1.1  mrg C popping, and doesn't seem likely to be worthwhile on the typical 13-26
    1.1  mrg C limb operations the Karatsuba code calls here with.
    1.1  mrg
    1.1  mrg 	C eax	yp[0]
    1.1  mrg 	C ebx
    1.1  mrg 	C ecx	xsize
    1.1  mrg 	C edx	xp
    1.1  mrg 	C esi
    1.1  mrg 	C edi
    1.1  mrg 	C ebp
    1.1  mrg
    1.1  mrg dnl  FRAME doesn't carry on from previous, no pushes yet here
    1.1  mrg defframe(`SAVE_EBX',-4)
    1.1  mrg defframe(`SAVE_ESI',-8)
    1.1  mrg defframe(`SAVE_EDI',-12)
    1.1  mrg defframe(`SAVE_EBP',-16)
    1.1  mrg deflit(`FRAME',0)
    1.1  mrg
    1.1  mrg 	subl	$16, %esp
    1.1  mrg deflit(`FRAME',16)
    1.1  mrg
    1.1  mrg 	movl	%edi, SAVE_EDI
    1.1  mrg 	movl	PARAM_WP, %edi
    1.1  mrg
    1.1  mrg 	movl	%ebx, SAVE_EBX
    1.1  mrg 	movl	%ebp, SAVE_EBP
    1.1  mrg 	movl	%eax, %ebp
    1.1  mrg
    1.1  mrg 	movl	%esi, SAVE_ESI
    1.1  mrg 	xorl	%ebx, %ebx
    1.1  mrg 	leal	(%edx,%ecx,4), %esi	C xp end
    1.1  mrg
    1.1  mrg 	leal	(%edi,%ecx,4), %edi	C wp end of mul1
    1.1  mrg 	negl	%ecx
    1.1  mrg
    1.1  mrg
    1.1  mrg L(mul1):
    1.1  mrg 	C eax	scratch
    1.1  mrg 	C ebx	carry
    1.1  mrg 	C ecx	counter, negative
    1.1  mrg 	C edx	scratch
    1.1  mrg 	C esi	xp end
    1.1  mrg 	C edi	wp end of mul1
    1.1  mrg 	C ebp	multiplier
    1.1  mrg
    1.1  mrg 	movl	(%esi,%ecx,4), %eax
    1.1  mrg
    1.1  mrg 	mull	%ebp
    1.1  mrg
    1.1  mrg 	addl	%ebx, %eax
    1.1  mrg 	movl	%eax, (%edi,%ecx,4)
    1.1  mrg 	movl	$0, %ebx
    1.1  mrg
    1.1  mrg 	adcl	%edx, %ebx
    1.1  mrg 	incl	%ecx
    1.1  mrg 	jnz	L(mul1)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	movl	PARAM_YSIZE, %edx
    1.1  mrg 	movl	PARAM_XSIZE, %ecx
    1.1  mrg
    1.1  mrg 	movl	%ebx, (%edi)		C final carry
    1.1  mrg 	decl	%edx
    1.1  mrg
    1.1  mrg 	jnz	L(ysize_more_than_one)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg
    1.1  mrg 	movl	SAVE_EBP, %ebp
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg 	addl	$FRAME, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg
    1.1  mrg L(ysize_more_than_one):
    1.1  mrg 	cmpl	$UNROLL_THRESHOLD, %ecx
    1.1  mrg 	movl	PARAM_YP, %eax
    1.1  mrg
    1.1  mrg 	jae	L(unroll)
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg 	C simple addmul looping
    1.1  mrg 	C
    1.1  mrg 	C eax	yp
    1.1  mrg 	C ebx
    1.1  mrg 	C ecx	xsize
    1.1  mrg 	C edx	ysize-1
    1.1  mrg 	C esi	xp end
    1.1  mrg 	C edi	wp end of mul1
    1.1  mrg 	C ebp
    1.1  mrg
    1.1  mrg 	leal	4(%eax,%edx,4), %ebp	C yp end
    1.1  mrg 	negl	%ecx
    1.1  mrg 	negl	%edx
    1.1  mrg
    1.1  mrg 	movl	(%esi,%ecx,4), %eax	C xp low limb
    1.1  mrg 	movl	%edx, PARAM_YSIZE	C -(ysize-1)
    1.1  mrg 	incl	%ecx
    1.1  mrg
    1.1  mrg 	xorl	%ebx, %ebx		C initial carry
    1.1  mrg 	movl	%ecx, PARAM_XSIZE	C -(xsize-1)
    1.1  mrg 	movl	%ebp, PARAM_YP
    1.1  mrg
    1.1  mrg 	movl	(%ebp,%edx,4), %ebp	C yp second lowest limb - multiplier
    1.1  mrg 	jmp	L(simple_outer_entry)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	C this is offset 0x121 so close enough to aligned
    1.1  mrg L(simple_outer_top):
    1.1  mrg 	C ebp	ysize counter, negative
    1.1  mrg
    1.1  mrg 	movl	PARAM_YP, %edx
    1.1  mrg 	movl	PARAM_XSIZE, %ecx	C -(xsize-1)
    1.1  mrg 	xorl	%ebx, %ebx		C carry
    1.1  mrg
    1.1  mrg 	movl	%ebp, PARAM_YSIZE
    1.1  mrg 	addl	$4, %edi		C next position in wp
    1.1  mrg
    1.1  mrg 	movl	(%edx,%ebp,4), %ebp	C yp limb - multiplier
    1.1  mrg 	movl	-4(%esi,%ecx,4), %eax	C xp low limb
    1.1  mrg
    1.1  mrg
    1.1  mrg L(simple_outer_entry):
    1.1  mrg
    1.1  mrg L(simple_inner):
    1.1  mrg 	C eax	xp limb
    1.1  mrg 	C ebx	carry limb
    1.1  mrg 	C ecx	loop counter (negative)
    1.1  mrg 	C edx	scratch
    1.1  mrg 	C esi	xp end
    1.1  mrg 	C edi	wp end
    1.1  mrg 	C ebp	multiplier
    1.1  mrg
    1.1  mrg 	mull	%ebp
    1.1  mrg
    1.1  mrg 	addl	%eax, %ebx
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg
    1.1  mrg 	addl	%ebx, (%edi,%ecx,4)
    1.1  mrg 	movl	(%esi,%ecx,4), %eax
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg
    1.1  mrg 	incl	%ecx
    1.1  mrg 	movl	%edx, %ebx
    1.1  mrg 	jnz	L(simple_inner)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	mull	%ebp
    1.1  mrg
    1.1  mrg 	movl	PARAM_YSIZE, %ebp
    1.1  mrg 	addl	%eax, %ebx
    1.1  mrg
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg 	addl	%ebx, (%edi)
    1.1  mrg
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg 	incl	%ebp
    1.1  mrg
    1.1  mrg 	movl	%edx, 4(%edi)
    1.1  mrg 	jnz	L(simple_outer_top)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg 	movl	SAVE_EBP, %ebp
    1.1  mrg 	addl	$FRAME, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg C
    1.1  mrg C The unrolled loop is the same as in mpn_addmul_1(), see that code for some
    1.1  mrg C comments.
    1.1  mrg C
    1.1  mrg C VAR_ADJUST is the negative of how many limbs the leals in the inner loop
    1.1  mrg C increment xp and wp.  This is used to adjust back xp and wp, and rshifted
    1.1  mrg C to given an initial VAR_COUNTER at the top of the outer loop.
    1.1  mrg C
    1.1  mrg C VAR_COUNTER is for the unrolled loop, running from VAR_ADJUST/UNROLL_COUNT
    1.1  mrg C up to -1, inclusive.
    1.1  mrg C
    1.1  mrg C VAR_JMP is the computed jump into the unrolled loop.
    1.1  mrg C
    1.1  mrg C VAR_XP_LOW is the least significant limb of xp, which is needed at the
    1.1  mrg C start of the unrolled loop.
    1.1  mrg C
    1.1  mrg C PARAM_YSIZE is the outer loop counter, going from -(ysize-1) up to -1,
    1.1  mrg C inclusive.
    1.1  mrg C
    1.1  mrg C PARAM_YP is offset appropriately so that the PARAM_YSIZE counter can be
    1.1  mrg C added to give the location of the next limb of yp, which is the multiplier
    1.1  mrg C in the unrolled loop.
    1.1  mrg C
    1.1  mrg C The trick with VAR_ADJUST means it's only necessary to do one fetch in the
    1.1  mrg C outer loop to take care of xp, wp and the inner loop counter.
    1.1  mrg
    1.1  mrg defframe(VAR_COUNTER,  -20)
    1.1  mrg defframe(VAR_ADJUST,   -24)
    1.1  mrg defframe(VAR_JMP,      -28)
    1.1  mrg defframe(VAR_XP_LOW,   -32)
    1.1  mrg deflit(VAR_EXTRA_SPACE, 16)
    1.1  mrg
    1.1  mrg
    1.1  mrg L(unroll):
    1.1  mrg 	C eax	yp
    1.1  mrg 	C ebx
    1.1  mrg 	C ecx	xsize
    1.1  mrg 	C edx	ysize-1
    1.1  mrg 	C esi	xp end
    1.1  mrg 	C edi	wp end of mul1
    1.1  mrg 	C ebp
    1.1  mrg
    1.1  mrg 	movl	PARAM_XP, %esi
    1.1  mrg 	movl	4(%eax), %ebp		C multiplier (yp second limb)
    1.1  mrg 	leal	4(%eax,%edx,4), %eax	C yp adjust for ysize indexing
    1.1  mrg
    1.1  mrg 	movl	PARAM_WP, %edi
    1.1  mrg 	movl	%eax, PARAM_YP
    1.1  mrg 	negl	%edx
    1.1  mrg
    1.1  mrg 	movl	%edx, PARAM_YSIZE
    1.1  mrg 	leal	UNROLL_COUNT-2(%ecx), %ebx	C (xsize-1)+UNROLL_COUNT-1
    1.1  mrg 	decl	%ecx				C xsize-1
    1.1  mrg
    1.1  mrg 	movl	(%esi), %eax		C xp low limb
    1.1  mrg 	andl	$-UNROLL_MASK-1, %ebx
    1.1  mrg 	negl	%ecx
    1.1  mrg
    1.1  mrg 	subl	$VAR_EXTRA_SPACE, %esp
    1.1  mrg deflit(`FRAME',16+VAR_EXTRA_SPACE)
    1.1  mrg 	negl	%ebx
    1.1  mrg 	andl	$UNROLL_MASK, %ecx
    1.1  mrg
    1.1  mrg 	movl	%ebx, VAR_ADJUST
    1.1  mrg 	movl	%ecx, %edx
    1.1  mrg 	shll	$4, %ecx
    1.1  mrg
    1.1  mrg 	sarl	$UNROLL_LOG2, %ebx
    1.1  mrg
    1.1  mrg 	C 17 code bytes per limb
    1.1  mrg ifdef(`PIC',`
    1.1  mrg 	call	L(pic_calc)
    1.1  mrg L(unroll_here):
    1.1  mrg ',`
    1.1  mrg 	leal	L(unroll_entry) (%ecx,%edx,1), %ecx
    1.1  mrg ')
    1.1  mrg 	negl	%edx
    1.1  mrg
    1.1  mrg 	movl	%eax, VAR_XP_LOW
    1.1  mrg 	movl	%ecx, VAR_JMP
    1.1  mrg 	leal	4(%edi,%edx,4), %edi	C wp and xp, adjust for unrolling,
    1.1  mrg 	leal	4(%esi,%edx,4), %esi	C  and start at second limb
    1.1  mrg 	jmp	L(unroll_outer_entry)
    1.1  mrg
    1.1  mrg
    1.1  mrg ifdef(`PIC',`
    1.1  mrg L(pic_calc):
    1.1  mrg 	C See mpn/x86/README about old gas bugs
    1.1  mrg 	leal	(%ecx,%edx,1), %ecx
    1.1  mrg 	addl	$L(unroll_entry)-L(unroll_here), %ecx
    1.1  mrg 	addl	(%esp), %ecx
    1.1  mrg 	ret_internal
    1.1  mrg ')
    1.1  mrg
    1.1  mrg
    1.1  mrg C --------------------------------------------------------------------------
    1.1  mrg 	ALIGN(32)
    1.1  mrg L(unroll_outer_top):
    1.1  mrg 	C ebp	ysize counter, negative
    1.1  mrg
    1.1  mrg 	movl	VAR_ADJUST, %ebx
    1.1  mrg 	movl	PARAM_YP, %edx
    1.1  mrg
    1.1  mrg 	movl	VAR_XP_LOW, %eax
    1.1  mrg 	movl	%ebp, PARAM_YSIZE	C store incremented ysize counter
    1.1  mrg
    1.1  mrg 	leal	4(%edi,%ebx,4), %edi
    1.1  mrg 	leal	(%esi,%ebx,4), %esi
    1.1  mrg 	sarl	$UNROLL_LOG2, %ebx
    1.1  mrg
    1.1  mrg 	movl	(%edx,%ebp,4), %ebp	C yp next multiplier
    1.1  mrg 	movl	VAR_JMP, %ecx
    1.1  mrg
    1.1  mrg L(unroll_outer_entry):
    1.1  mrg 	mull	%ebp
    1.1  mrg
    1.1  mrg 	testb	$1, %cl		C and clear carry bit
    1.1  mrg 	movl	%ebx, VAR_COUNTER
    1.1  mrg 	movl	$0, %ebx
    1.1  mrg
    1.1  mrg 	movl	$0, %ecx
    1.1  mrg 	cmovz(	%eax, %ecx)	C eax into low carry, zero into high carry limb
    1.1  mrg 	cmovnz(	%eax, %ebx)
    1.1  mrg
    1.1  mrg 	C Extra fetch of VAR_JMP is bad, but registers are tight
    1.1  mrg 	jmp	*VAR_JMP
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg 	ALIGN(32)
    1.1  mrg L(unroll_top):
    1.1  mrg 	C eax	xp limb
    1.1  mrg 	C ebx	carry high
    1.1  mrg 	C ecx	carry low
    1.1  mrg 	C edx	scratch
    1.1  mrg 	C esi	xp+8
    1.1  mrg 	C edi	wp
    1.1  mrg 	C ebp	yp multiplier limb
    1.1  mrg 	C
    1.1  mrg 	C VAR_COUNTER  loop counter, negative
    1.1  mrg 	C
    1.1  mrg 	C 17 bytes each limb
    1.1  mrg
    1.1  mrg L(unroll_entry):
    1.1  mrg
    1.1  mrg deflit(CHUNK_COUNT,2)
    1.1  mrg forloop(`i', 0, UNROLL_COUNT/CHUNK_COUNT-1, `
    1.1  mrg 	deflit(`disp0', eval(i*CHUNK_COUNT*4 ifelse(UNROLL_BYTES,256,-128)))
    1.1  mrg 	deflit(`disp1', eval(disp0 + 4))
    1.1  mrg
    1.1  mrg Zdisp(	movl,	disp0,(%esi), %eax)
    1.1  mrg 	adcl	%edx, %ebx
    1.1  mrg
    1.1  mrg 	mull	%ebp
    1.1  mrg
    1.1  mrg Zdisp(	addl,	%ecx, disp0,(%edi))
    1.1  mrg 	movl	$0, %ecx
    1.1  mrg
    1.1  mrg 	adcl	%eax, %ebx
    1.1  mrg
    1.1  mrg
    1.1  mrg 	movl	disp1(%esi), %eax
    1.1  mrg 	adcl	%edx, %ecx
    1.1  mrg
    1.1  mrg 	mull	%ebp
    1.1  mrg
    1.1  mrg 	addl	%ebx, disp1(%edi)
    1.1  mrg 	movl	$0, %ebx
    1.1  mrg
    1.1  mrg 	adcl	%eax, %ecx
    1.1  mrg ')
    1.1  mrg
    1.1  mrg
    1.1  mrg 	incl	VAR_COUNTER
    1.1  mrg 	leal	UNROLL_BYTES(%esi), %esi
    1.1  mrg 	leal	UNROLL_BYTES(%edi), %edi
    1.1  mrg
    1.1  mrg 	jnz	L(unroll_top)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	C eax
    1.1  mrg 	C ebx	zero
    1.1  mrg 	C ecx	low
    1.1  mrg 	C edx	high
    1.1  mrg 	C esi
    1.1  mrg 	C edi	wp, pointing at second last limb)
    1.1  mrg 	C ebp
    1.1  mrg 	C
    1.1  mrg 	C carry flag to be added to high
    1.1  mrg
    1.1  mrg deflit(`disp0', ifelse(UNROLL_BYTES,256,-128))
    1.1  mrg deflit(`disp1', eval(disp0-0 + 4))
    1.1  mrg
    1.1  mrg 	movl	PARAM_YSIZE, %ebp
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg 	addl	%ecx, disp0(%edi)
    1.1  mrg
    1.1  mrg 	adcl	$0, %edx
    1.1  mrg 	incl	%ebp
    1.1  mrg
    1.1  mrg 	movl	%edx, disp1(%edi)
    1.1  mrg 	jnz	L(unroll_outer_top)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg 	movl	SAVE_EBP, %ebp
    1.1  mrg
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg 	addl	$FRAME, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg EPILOGUE()