x86/k7/aors_n.asm

    1.1  mrg dnl  AMD K7 mpn_add_n/mpn_sub_n -- mpn add or subtract.
    1.1  mrg
1.1.1.2  mrg dnl  Copyright 1999-2003 Free Software Foundation, Inc.
1.1.1.2  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
    1.1  mrg dnl
1.1.1.2  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg dnl  it under the terms of either:
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg dnl      option) any later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.2  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg dnl      later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or both in parallel, as here.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
1.1.1.2  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg dnl  for more details.
    1.1  mrg dnl
1.1.1.2  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.2  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg
    1.1  mrg C K7: 1.64 cycles/limb (at 16 limbs/loop).
    1.1  mrg
    1.1  mrg
    1.1  mrg
    1.1  mrg dnl  K7: UNROLL_COUNT cycles/limb
    1.1  mrg dnl           8           1.9
    1.1  mrg dnl          16           1.64
    1.1  mrg dnl          32           1.7
    1.1  mrg dnl          64           2.0
    1.1  mrg dnl  Maximum possible with the current code is 64.
    1.1  mrg
    1.1  mrg deflit(UNROLL_COUNT, 16)
    1.1  mrg
    1.1  mrg
    1.1  mrg ifdef(`OPERATION_add_n', `
    1.1  mrg 	define(M4_inst,        adcl)
    1.1  mrg 	define(M4_function_n,  mpn_add_n)
    1.1  mrg 	define(M4_function_nc, mpn_add_nc)
    1.1  mrg 	define(M4_description, add)
    1.1  mrg ',`ifdef(`OPERATION_sub_n', `
    1.1  mrg 	define(M4_inst,        sbbl)
    1.1  mrg 	define(M4_function_n,  mpn_sub_n)
    1.1  mrg 	define(M4_function_nc, mpn_sub_nc)
    1.1  mrg 	define(M4_description, subtract)
    1.1  mrg ',`m4_error(`Need OPERATION_add_n or OPERATION_sub_n
    1.1  mrg ')')')
    1.1  mrg
    1.1  mrg MULFUNC_PROLOGUE(mpn_add_n mpn_add_nc mpn_sub_n mpn_sub_nc)
    1.1  mrg
    1.1  mrg
    1.1  mrg C mp_limb_t M4_function_n (mp_ptr dst, mp_srcptr src1, mp_srcptr src2,
    1.1  mrg C                         mp_size_t size);
    1.1  mrg C mp_limb_t M4_function_nc (mp_ptr dst, mp_srcptr src1, mp_srcptr src2,
    1.1  mrg C	                   mp_size_t size, mp_limb_t carry);
    1.1  mrg C
    1.1  mrg C Calculate src1,size M4_description src2,size, and store the result in
    1.1  mrg C dst,size.  The return value is the carry bit from the top of the result (1
    1.1  mrg C or 0).
    1.1  mrg C
    1.1  mrg C The _nc version accepts 1 or 0 for an initial carry into the low limb of
    1.1  mrg C the calculation.  Note values other than 1 or 0 here will lead to garbage
    1.1  mrg C results.
    1.1  mrg C
    1.1  mrg C This code runs at 1.64 cycles/limb, which might be the best possible with
    1.1  mrg C plain integer operations.  Each limb is 2 loads and 1 store, any 2 of
    1.1  mrg C which can be done each cycle, leading to 1.5 c/l.
    1.1  mrg
    1.1  mrg dnl  Must have UNROLL_THRESHOLD >= 2, since the unrolled loop can't handle 1.
    1.1  mrg ifdef(`PIC',`
    1.1  mrg deflit(UNROLL_THRESHOLD, 8)
    1.1  mrg ',`
    1.1  mrg deflit(UNROLL_THRESHOLD, 8)
    1.1  mrg ')
    1.1  mrg
    1.1  mrg defframe(PARAM_CARRY,20)
    1.1  mrg defframe(PARAM_SIZE, 16)
    1.1  mrg defframe(PARAM_SRC2, 12)
    1.1  mrg defframe(PARAM_SRC1, 8)
    1.1  mrg defframe(PARAM_DST,  4)
    1.1  mrg
    1.1  mrg defframe(SAVE_EBP, -4)
    1.1  mrg defframe(SAVE_ESI, -8)
    1.1  mrg defframe(SAVE_EBX, -12)
    1.1  mrg defframe(SAVE_EDI, -16)
    1.1  mrg deflit(STACK_SPACE, 16)
    1.1  mrg
    1.1  mrg 	TEXT
    1.1  mrg 	ALIGN(32)
    1.1  mrg deflit(`FRAME',0)
    1.1  mrg
    1.1  mrg PROLOGUE(M4_function_nc)
    1.1  mrg 	movl	PARAM_CARRY, %eax
    1.1  mrg 	jmp	L(start)
    1.1  mrg EPILOGUE()
    1.1  mrg
    1.1  mrg PROLOGUE(M4_function_n)
    1.1  mrg
    1.1  mrg 	xorl	%eax, %eax	C carry
    1.1  mrg L(start):
    1.1  mrg 	movl	PARAM_SIZE, %ecx
    1.1  mrg 	subl	$STACK_SPACE, %esp
    1.1  mrg deflit(`FRAME',STACK_SPACE)
    1.1  mrg
    1.1  mrg 	movl	%edi, SAVE_EDI
    1.1  mrg 	movl	%ebx, SAVE_EBX
    1.1  mrg 	cmpl	$UNROLL_THRESHOLD, %ecx
    1.1  mrg
    1.1  mrg 	movl	PARAM_SRC2, %edx
    1.1  mrg 	movl	PARAM_SRC1, %ebx
    1.1  mrg 	jae	L(unroll)
    1.1  mrg
    1.1  mrg 	movl	PARAM_DST, %edi
    1.1  mrg 	leal	(%ebx,%ecx,4), %ebx
    1.1  mrg 	leal	(%edx,%ecx,4), %edx
    1.1  mrg
    1.1  mrg 	leal	(%edi,%ecx,4), %edi
    1.1  mrg 	negl	%ecx
    1.1  mrg 	shrl	%eax
    1.1  mrg
    1.1  mrg 	C This loop in in a single 16 byte code block already, so no
    1.1  mrg 	C alignment necessary.
    1.1  mrg L(simple):
    1.1  mrg 	C eax	scratch
    1.1  mrg 	C ebx	src1
    1.1  mrg 	C ecx	counter
    1.1  mrg 	C edx	src2
    1.1  mrg 	C esi
    1.1  mrg 	C edi	dst
    1.1  mrg 	C ebp
    1.1  mrg
    1.1  mrg 	movl	(%ebx,%ecx,4), %eax
    1.1  mrg 	M4_inst	(%edx,%ecx,4), %eax
    1.1  mrg 	movl	%eax, (%edi,%ecx,4)
    1.1  mrg 	incl	%ecx
    1.1  mrg 	jnz	L(simple)
    1.1  mrg
    1.1  mrg 	movl	$0, %eax
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg 	setc	%al
    1.1  mrg 	addl	$STACK_SPACE, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg 	C This is at 0x55, close enough to aligned.
    1.1  mrg L(unroll):
    1.1  mrg deflit(`FRAME',STACK_SPACE)
    1.1  mrg 	movl	%ebp, SAVE_EBP
    1.1  mrg 	andl	$-2, %ecx		C size low bit masked out
    1.1  mrg 	andl	$1, PARAM_SIZE		C size low bit kept
    1.1  mrg
    1.1  mrg 	movl	%ecx, %edi
    1.1  mrg 	decl	%ecx
    1.1  mrg 	movl	PARAM_DST, %ebp
    1.1  mrg
    1.1  mrg 	shrl	$UNROLL_LOG2, %ecx
    1.1  mrg 	negl	%edi
    1.1  mrg 	movl	%esi, SAVE_ESI
    1.1  mrg
    1.1  mrg 	andl	$UNROLL_MASK, %edi
    1.1  mrg
    1.1  mrg ifdef(`PIC',`
    1.1  mrg 	call	L(pic_calc)
    1.1  mrg L(here):
    1.1  mrg ',`
    1.1  mrg 	leal	L(entry) (%edi,%edi,8), %esi	C 9 bytes per
    1.1  mrg ')
    1.1  mrg 	negl	%edi
    1.1  mrg 	shrl	%eax
    1.1  mrg
    1.1  mrg 	leal	ifelse(UNROLL_BYTES,256,128) (%ebx,%edi,4), %ebx
    1.1  mrg 	leal	ifelse(UNROLL_BYTES,256,128) (%edx,%edi,4), %edx
    1.1  mrg 	leal	ifelse(UNROLL_BYTES,256,128) (%ebp,%edi,4), %edi
    1.1  mrg
    1.1  mrg 	jmp	*%esi
    1.1  mrg
    1.1  mrg
    1.1  mrg ifdef(`PIC',`
    1.1  mrg L(pic_calc):
    1.1  mrg 	C See mpn/x86/README about old gas bugs
    1.1  mrg 	leal	(%edi,%edi,8), %esi
    1.1  mrg 	addl	$L(entry)-L(here), %esi
    1.1  mrg 	addl	(%esp), %esi
    1.1  mrg 	ret_internal
    1.1  mrg ')
    1.1  mrg
    1.1  mrg
    1.1  mrg C -----------------------------------------------------------------------------
    1.1  mrg 	ALIGN(32)
    1.1  mrg L(top):
    1.1  mrg 	C eax	zero
    1.1  mrg 	C ebx	src1
    1.1  mrg 	C ecx	counter
    1.1  mrg 	C edx	src2
    1.1  mrg 	C esi	scratch (was computed jump)
    1.1  mrg 	C edi	dst
    1.1  mrg 	C ebp	scratch
    1.1  mrg
    1.1  mrg 	leal	UNROLL_BYTES(%edx), %edx
    1.1  mrg
    1.1  mrg L(entry):
    1.1  mrg deflit(CHUNK_COUNT, 2)
    1.1  mrg forloop(i, 0, UNROLL_COUNT/CHUNK_COUNT-1, `
    1.1  mrg 	deflit(`disp0', eval(i*CHUNK_COUNT*4 ifelse(UNROLL_BYTES,256,-128)))
    1.1  mrg 	deflit(`disp1', eval(disp0 + 4))
    1.1  mrg
    1.1  mrg Zdisp(	movl,	disp0,(%ebx), %esi)
    1.1  mrg 	movl	disp1(%ebx), %ebp
    1.1  mrg Zdisp(	M4_inst,disp0,(%edx), %esi)
    1.1  mrg Zdisp(	movl,	%esi, disp0,(%edi))
    1.1  mrg 	M4_inst	disp1(%edx), %ebp
    1.1  mrg 	movl	%ebp, disp1(%edi)
    1.1  mrg ')
    1.1  mrg
    1.1  mrg 	decl	%ecx
    1.1  mrg 	leal	UNROLL_BYTES(%ebx), %ebx
    1.1  mrg 	leal	UNROLL_BYTES(%edi), %edi
    1.1  mrg 	jns	L(top)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	mov	PARAM_SIZE, %esi
    1.1  mrg 	movl	SAVE_EBP, %ebp
    1.1  mrg 	movl	$0, %eax
    1.1  mrg
    1.1  mrg 	decl	%esi
    1.1  mrg 	js	L(even)
    1.1  mrg
    1.1  mrg 	movl	(%ebx), %ecx
    1.1  mrg 	M4_inst	UNROLL_BYTES(%edx), %ecx
    1.1  mrg 	movl	%ecx, (%edi)
    1.1  mrg L(even):
    1.1  mrg
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg 	setc	%al
    1.1  mrg
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg 	addl	$STACK_SPACE, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg EPILOGUE()