mpn/x86_64/aorrlsh1_n.asm

    1.1  mrg dnl  AMD64 mpn_addlsh1_n -- rp[] = up[] + (vp[] << 1)
    1.1  mrg dnl  AMD64 mpn_rsblsh1_n -- rp[] = (vp[] << 1) - up[]
    1.1  mrg
1.1.1.3  mrg dnl  Copyright 2003, 2005-2009, 2011, 2012 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
1.1.1.3  mrg dnl
    1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.3  mrg dnl  it under the terms of either:
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl    * the GNU Lesser General Public License as published by the Free
1.1.1.3  mrg dnl      Software Foundation; either version 3 of the License, or (at your
1.1.1.3  mrg dnl      option) any later version.
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl  or
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl    * the GNU General Public License as published by the Free Software
1.1.1.3  mrg dnl      Foundation; either version 2 of the License, or (at your option) any
1.1.1.3  mrg dnl      later version.
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl  or both in parallel, as here.
1.1.1.3  mrg dnl
    1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.3  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.3  mrg dnl  for more details.
1.1.1.3  mrg dnl
1.1.1.3  mrg dnl  You should have received copies of the GNU General Public License and the
1.1.1.3  mrg dnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.3  mrg dnl  see https://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg
    1.1  mrg C	     cycles/limb
1.1.1.2  mrg C AMD K8,K9	 2
1.1.1.2  mrg C AMD K10	 2
1.1.1.3  mrg C AMD bd1	 ?
1.1.1.3  mrg C AMD bobcat	 ?
1.1.1.2  mrg C Intel P4	 13
1.1.1.2  mrg C Intel core2	 3.45
1.1.1.3  mrg C Intel NHM	 ?
1.1.1.3  mrg C Intel SBR	 ?
1.1.1.2  mrg C Intel atom	 ?
1.1.1.2  mrg C VIA nano	 ?
    1.1  mrg
    1.1  mrg
    1.1  mrg C Sometimes speed degenerates, supposedly related to that some operand
    1.1  mrg C alignments cause cache conflicts.
    1.1  mrg
    1.1  mrg C The speed is limited by decoding/issue bandwidth.  There are 22 instructions
    1.1  mrg C in the loop, which corresponds to ceil(22/3)/4 = 1.83 c/l.
    1.1  mrg
    1.1  mrg C INPUT PARAMETERS
    1.1  mrg define(`rp',`%rdi')
    1.1  mrg define(`up',`%rsi')
    1.1  mrg define(`vp',`%rdx')
    1.1  mrg define(`n', `%rcx')
    1.1  mrg
    1.1  mrg ifdef(`OPERATION_addlsh1_n', `
1.1.1.2  mrg   define(ADDSUB,	add)
1.1.1.2  mrg   define(ADCSBB,	adc)
1.1.1.2  mrg   define(func,		mpn_addlsh1_n)')
    1.1  mrg ifdef(`OPERATION_rsblsh1_n', `
1.1.1.2  mrg   define(ADDSUB,	sub)
1.1.1.2  mrg   define(ADCSBB,	sbb)
1.1.1.2  mrg   define(func,		mpn_rsblsh1_n)')
    1.1  mrg
    1.1  mrg MULFUNC_PROLOGUE(mpn_addlsh1_n mpn_rsblsh1_n)
    1.1  mrg
1.1.1.2  mrg ABI_SUPPORT(DOS64)
1.1.1.2  mrg ABI_SUPPORT(STD64)
1.1.1.2  mrg
    1.1  mrg ASM_START()
    1.1  mrg 	TEXT
    1.1  mrg 	ALIGN(16)
    1.1  mrg PROLOGUE(func)
1.1.1.2  mrg 	FUNC_ENTRY(4)
    1.1  mrg 	push	%rbp
    1.1  mrg
    1.1  mrg 	mov	(vp), %r8
    1.1  mrg 	mov	R32(n), R32(%rax)
    1.1  mrg 	lea	(rp,n,8), rp
    1.1  mrg 	lea	(up,n,8), up
    1.1  mrg 	lea	(vp,n,8), vp
    1.1  mrg 	neg	n
    1.1  mrg 	xor	R32(%rbp), R32(%rbp)
    1.1  mrg 	and	$3, R32(%rax)
    1.1  mrg 	je	L(b00)
    1.1  mrg 	cmp	$2, R32(%rax)
    1.1  mrg 	jc	L(b01)
    1.1  mrg 	je	L(b10)
    1.1  mrg
    1.1  mrg L(b11):	add	%r8, %r8
    1.1  mrg 	mov	8(vp,n,8), %r9
    1.1  mrg 	adc	%r9, %r9
    1.1  mrg 	mov	16(vp,n,8), %r10
    1.1  mrg 	adc	%r10, %r10
    1.1  mrg 	sbb	R32(%rax), R32(%rax)	C save scy
    1.1  mrg 	ADDSUB	(up,n,8), %r8
    1.1  mrg 	ADCSBB	8(up,n,8), %r9
    1.1  mrg 	mov	%r8, (rp,n,8)
    1.1  mrg 	mov	%r9, 8(rp,n,8)
    1.1  mrg 	ADCSBB	16(up,n,8), %r10
    1.1  mrg 	mov	%r10, 16(rp,n,8)
    1.1  mrg 	sbb	R32(%rbp), R32(%rbp)	C save acy
    1.1  mrg 	add	$3, n
    1.1  mrg 	jmp	L(ent)
    1.1  mrg
    1.1  mrg L(b10):	add	%r8, %r8
    1.1  mrg 	mov	8(vp,n,8), %r9
    1.1  mrg 	adc	%r9, %r9
    1.1  mrg 	sbb	R32(%rax), R32(%rax)	C save scy
    1.1  mrg 	ADDSUB	(up,n,8), %r8
    1.1  mrg 	ADCSBB	8(up,n,8), %r9
    1.1  mrg 	mov	%r8, (rp,n,8)
    1.1  mrg 	mov	%r9, 8(rp,n,8)
    1.1  mrg 	sbb	R32(%rbp), R32(%rbp)	C save acy
    1.1  mrg 	add	$2, n
    1.1  mrg 	jmp	L(ent)
    1.1  mrg
    1.1  mrg L(b01):	add	%r8, %r8
    1.1  mrg 	sbb	R32(%rax), R32(%rax)	C save scy
    1.1  mrg 	ADDSUB	(up,n,8), %r8
    1.1  mrg 	mov	%r8, (rp,n,8)
    1.1  mrg 	sbb	R32(%rbp), R32(%rbp)	C save acy
    1.1  mrg 	inc	n
    1.1  mrg L(ent):	jns	L(end)
    1.1  mrg
    1.1  mrg 	ALIGN(16)
    1.1  mrg L(top):	add	R32(%rax), R32(%rax)	C restore scy
    1.1  mrg
    1.1  mrg 	mov	(vp,n,8), %r8
    1.1  mrg L(b00):	adc	%r8, %r8
    1.1  mrg 	mov	8(vp,n,8), %r9
    1.1  mrg 	adc	%r9, %r9
    1.1  mrg 	mov	16(vp,n,8), %r10
    1.1  mrg 	adc	%r10, %r10
    1.1  mrg 	mov	24(vp,n,8), %r11
    1.1  mrg 	adc	%r11, %r11
    1.1  mrg
    1.1  mrg 	sbb	R32(%rax), R32(%rax)	C save scy
    1.1  mrg 	add	R32(%rbp), R32(%rbp)	C restore acy
    1.1  mrg
    1.1  mrg 	ADCSBB	(up,n,8), %r8
    1.1  mrg 	nop				C Hammer speedup!
    1.1  mrg 	ADCSBB	8(up,n,8), %r9
    1.1  mrg 	mov	%r8, (rp,n,8)
    1.1  mrg 	mov	%r9, 8(rp,n,8)
    1.1  mrg 	ADCSBB	16(up,n,8), %r10
    1.1  mrg 	ADCSBB	24(up,n,8), %r11
    1.1  mrg 	mov	%r10, 16(rp,n,8)
    1.1  mrg 	mov	%r11, 24(rp,n,8)
    1.1  mrg
    1.1  mrg 	sbb	R32(%rbp), R32(%rbp)	C save acy
    1.1  mrg 	add	$4, n
    1.1  mrg 	js	L(top)
    1.1  mrg
    1.1  mrg L(end):
    1.1  mrg ifdef(`OPERATION_addlsh1_n',`
    1.1  mrg 	add	R32(%rbp), R32(%rax)
    1.1  mrg 	neg	R32(%rax)')
    1.1  mrg ifdef(`OPERATION_rsblsh1_n',`
    1.1  mrg 	sub	R32(%rax), R32(%rbp)
    1.1  mrg 	movslq	R32(%rbp), %rax')
    1.1  mrg
    1.1  mrg 	pop	%rbp
1.1.1.2  mrg 	FUNC_EXIT()
    1.1  mrg 	ret
    1.1  mrg EPILOGUE()