x86/k7/dive_1.asm

    1.1  mrg dnl  AMD K7 mpn_divexact_1 -- mpn by limb exact division.
    1.1  mrg
    1.1  mrg dnl  Copyright 2001, 2002, 2004, 2007 Free Software Foundation, Inc.
1.1.1.2  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
    1.1  mrg dnl
1.1.1.2  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg dnl  it under the terms of either:
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg dnl      option) any later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.2  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg dnl      later version.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  or both in parallel, as here.
1.1.1.2  mrg dnl
1.1.1.2  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
1.1.1.2  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg dnl  for more details.
    1.1  mrg dnl
1.1.1.2  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.2  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg
    1.1  mrg C          cycles/limb
    1.1  mrg C Athlon:     11.0
    1.1  mrg C Hammer:      9.0
    1.1  mrg
    1.1  mrg
    1.1  mrg C void mpn_divexact_1 (mp_ptr dst, mp_srcptr src, mp_size_t size,
    1.1  mrg C                      mp_limb_t divisor);
    1.1  mrg C
    1.1  mrg C The dependent chain is mul+imul+sub for 11 cycles and that speed is
    1.1  mrg C achieved with no special effort.  The load and shrld latencies are hidden
    1.1  mrg C by out of order execution.
    1.1  mrg C
    1.1  mrg C It's a touch faster on size==1 to use the mul-by-inverse than divl.
    1.1  mrg
    1.1  mrg defframe(PARAM_DIVISOR,16)
    1.1  mrg defframe(PARAM_SIZE,   12)
    1.1  mrg defframe(PARAM_SRC,    8)
    1.1  mrg defframe(PARAM_DST,    4)
    1.1  mrg
    1.1  mrg defframe(SAVE_EBX,     -4)
    1.1  mrg defframe(SAVE_ESI,     -8)
    1.1  mrg defframe(SAVE_EDI,    -12)
    1.1  mrg defframe(SAVE_EBP,    -16)
    1.1  mrg defframe(VAR_INVERSE, -20)
    1.1  mrg defframe(VAR_DST_END, -24)
    1.1  mrg
    1.1  mrg deflit(STACK_SPACE, 24)
    1.1  mrg
    1.1  mrg 	TEXT
    1.1  mrg
    1.1  mrg 	ALIGN(16)
    1.1  mrg PROLOGUE(mpn_divexact_1)
    1.1  mrg deflit(`FRAME',0)
    1.1  mrg
    1.1  mrg 	movl	PARAM_DIVISOR, %eax
    1.1  mrg 	subl	$STACK_SPACE, %esp	deflit(`FRAME',STACK_SPACE)
    1.1  mrg 	movl	$-1, %ecx		C shift count
    1.1  mrg
    1.1  mrg 	movl	%ebp, SAVE_EBP
    1.1  mrg 	movl	PARAM_SIZE, %ebp
    1.1  mrg
    1.1  mrg 	movl	%esi, SAVE_ESI
    1.1  mrg 	movl	%edi, SAVE_EDI
    1.1  mrg
    1.1  mrg 	C If there's usually only one or two trailing zero bits then this
    1.1  mrg 	C should be faster than bsfl.
    1.1  mrg L(strip_twos):
    1.1  mrg 	incl	%ecx
    1.1  mrg 	shrl	%eax
    1.1  mrg 	jnc	L(strip_twos)
    1.1  mrg
    1.1  mrg 	movl	%ebx, SAVE_EBX
    1.1  mrg 	leal	1(%eax,%eax), %ebx	C d without twos
    1.1  mrg 	andl	$127, %eax		C d/2, 7 bits
    1.1  mrg
    1.1  mrg ifdef(`PIC',`
    1.1  mrg 	LEA(	binvert_limb_table, %edx)
    1.1  mrg 	movzbl	(%eax,%edx), %eax		C inv 8 bits
    1.1  mrg ',`
    1.1  mrg 	movzbl	binvert_limb_table(%eax), %eax	C inv 8 bits
    1.1  mrg ')
    1.1  mrg
    1.1  mrg 	leal	(%eax,%eax), %edx	C 2*inv
    1.1  mrg 	movl	%ebx, PARAM_DIVISOR	C d without twos
    1.1  mrg
    1.1  mrg 	imull	%eax, %eax		C inv*inv
    1.1  mrg
    1.1  mrg 	movl	PARAM_SRC, %esi
    1.1  mrg 	movl	PARAM_DST, %edi
    1.1  mrg
    1.1  mrg 	imull	%ebx, %eax		C inv*inv*d
    1.1  mrg
    1.1  mrg 	subl	%eax, %edx		C inv = 2*inv - inv*inv*d
    1.1  mrg 	leal	(%edx,%edx), %eax	C 2*inv
    1.1  mrg
    1.1  mrg 	imull	%edx, %edx		C inv*inv
    1.1  mrg
    1.1  mrg 	leal	(%esi,%ebp,4), %esi	C src end
    1.1  mrg 	leal	(%edi,%ebp,4), %edi	C dst end
    1.1  mrg 	negl	%ebp			C -size
    1.1  mrg
    1.1  mrg 	imull	%ebx, %edx		C inv*inv*d
    1.1  mrg
    1.1  mrg 	subl	%edx, %eax		C inv = 2*inv - inv*inv*d
    1.1  mrg
    1.1  mrg 	ASSERT(e,`	C expect d*inv == 1 mod 2^GMP_LIMB_BITS
    1.1  mrg 	pushl	%eax	FRAME_pushl()
    1.1  mrg 	imull	PARAM_DIVISOR, %eax
    1.1  mrg 	cmpl	$1, %eax
    1.1  mrg 	popl	%eax	FRAME_popl()')
    1.1  mrg
    1.1  mrg 	movl	%eax, VAR_INVERSE
    1.1  mrg 	movl	(%esi,%ebp,4), %eax	C src[0]
    1.1  mrg
    1.1  mrg 	incl	%ebp
    1.1  mrg 	jz	L(one)
    1.1  mrg
    1.1  mrg 	movl	(%esi,%ebp,4), %edx	C src[1]
    1.1  mrg
    1.1  mrg 	shrdl(	%cl, %edx, %eax)
    1.1  mrg
    1.1  mrg 	movl	%edi, VAR_DST_END
    1.1  mrg 	xorl	%ebx, %ebx
    1.1  mrg 	jmp	L(entry)
    1.1  mrg
    1.1  mrg 	ALIGN(8)
    1.1  mrg L(top):
    1.1  mrg 	C eax	q
    1.1  mrg 	C ebx	carry bit, 0 or 1
    1.1  mrg 	C ecx	shift
    1.1  mrg 	C edx
    1.1  mrg 	C esi	src end
    1.1  mrg 	C edi	dst end
    1.1  mrg 	C ebp	counter, limbs, negative
    1.1  mrg
    1.1  mrg 	mull	PARAM_DIVISOR		C carry limb in edx
    1.1  mrg
    1.1  mrg 	movl	-4(%esi,%ebp,4), %eax
    1.1  mrg 	movl	(%esi,%ebp,4), %edi
    1.1  mrg
    1.1  mrg 	shrdl(	%cl, %edi, %eax)
    1.1  mrg
    1.1  mrg 	subl	%ebx, %eax		C apply carry bit
    1.1  mrg 	setc	%bl
    1.1  mrg 	movl	VAR_DST_END, %edi
    1.1  mrg
    1.1  mrg 	subl	%edx, %eax		C apply carry limb
    1.1  mrg 	adcl	$0, %ebx
    1.1  mrg
    1.1  mrg L(entry):
    1.1  mrg 	imull	VAR_INVERSE, %eax
    1.1  mrg
    1.1  mrg 	movl	%eax, -4(%edi,%ebp,4)
    1.1  mrg 	incl	%ebp
    1.1  mrg 	jnz	L(top)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	mull	PARAM_DIVISOR		C carry limb in edx
    1.1  mrg
    1.1  mrg 	movl	-4(%esi), %eax		C src high limb
    1.1  mrg 	shrl	%cl, %eax
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg
    1.1  mrg 	subl	%ebx, %eax		C apply carry bit
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg 	movl	SAVE_EBP, %ebp
    1.1  mrg
    1.1  mrg 	subl	%edx, %eax		C apply carry limb
    1.1  mrg
    1.1  mrg 	imull	VAR_INVERSE, %eax
    1.1  mrg
    1.1  mrg 	movl	%eax, -4(%edi)
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg 	addl	$STACK_SPACE, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg
    1.1  mrg L(one):
    1.1  mrg 	shrl	%cl, %eax
    1.1  mrg 	movl	SAVE_ESI, %esi
    1.1  mrg 	movl	SAVE_EBX, %ebx
    1.1  mrg
    1.1  mrg 	imull	VAR_INVERSE, %eax
    1.1  mrg
    1.1  mrg 	movl	SAVE_EBP, %ebp
    1.1  mrg 	movl	%eax, -4(%edi)
    1.1  mrg
    1.1  mrg 	movl	SAVE_EDI, %edi
    1.1  mrg 	addl	$STACK_SPACE, %esp
    1.1  mrg
    1.1  mrg 	ret
    1.1  mrg
    1.1  mrg EPILOGUE()
1.1.1.2  mrg ASM_END()