libgcc/soft-fp/op-2.h

1.1  mrg /* Software floating-point emulation.
1.1  mrg    Basic two-word fraction declaration and manipulation.
1.1  mrg    Copyright (C) 1997,1998,1999,2006,2007 Free Software Foundation, Inc.
1.1  mrg    This file is part of the GNU C Library.
1.1  mrg    Contributed by Richard Henderson (rth (at) cygnus.com),
1.1  mrg 		  Jakub Jelinek (jj (at) ultra.linux.cz),
1.1  mrg 		  David S. Miller (davem (at) redhat.com) and
1.1  mrg 		  Peter Maydell (pmaydell (at) chiark.greenend.org.uk).
1.1  mrg
1.1  mrg    The GNU C Library is free software; you can redistribute it and/or
1.1  mrg    modify it under the terms of the GNU Lesser General Public
1.1  mrg    License as published by the Free Software Foundation; either
1.1  mrg    version 2.1 of the License, or (at your option) any later version.
1.1  mrg
1.1  mrg    In addition to the permissions in the GNU Lesser General Public
1.1  mrg    License, the Free Software Foundation gives you unlimited
1.1  mrg    permission to link the compiled version of this file into
1.1  mrg    combinations with other programs, and to distribute those
1.1  mrg    combinations without any restriction coming from the use of this
1.1  mrg    file.  (The Lesser General Public License restrictions do apply in
1.1  mrg    other respects; for example, they cover modification of the file,
1.1  mrg    and distribution when not linked into a combine executable.)
1.1  mrg
1.1  mrg    The GNU C Library is distributed in the hope that it will be useful,
1.1  mrg    but WITHOUT ANY WARRANTY; without even the implied warranty of
1.1  mrg    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
1.1  mrg    Lesser General Public License for more details.
1.1  mrg
1.1  mrg    You should have received a copy of the GNU Lesser General Public
1.1  mrg    License along with the GNU C Library; if not, see
1.1  mrg    <http://www.gnu.org/licenses/>.  */
1.1  mrg
1.1  mrg #define _FP_FRAC_DECL_2(X)	_FP_W_TYPE X##_f0, X##_f1
1.1  mrg #define _FP_FRAC_COPY_2(D,S)	(D##_f0 = S##_f0, D##_f1 = S##_f1)
1.1  mrg #define _FP_FRAC_SET_2(X,I)	__FP_FRAC_SET_2(X, I)
1.1  mrg #define _FP_FRAC_HIGH_2(X)	(X##_f1)
1.1  mrg #define _FP_FRAC_LOW_2(X)	(X##_f0)
1.1  mrg #define _FP_FRAC_WORD_2(X,w)	(X##_f##w)
1.1  mrg
1.1  mrg #define _FP_FRAC_SLL_2(X,N)						    \
1.1  mrg (void)(((N) < _FP_W_TYPE_SIZE)						    \
1.1  mrg        ? ({								    \
1.1  mrg 	    if (__builtin_constant_p(N) && (N) == 1)			    \
1.1  mrg 	      {								    \
1.1  mrg 		X##_f1 = X##_f1 + X##_f1 + (((_FP_WS_TYPE)(X##_f0)) < 0);   \
1.1  mrg 		X##_f0 += X##_f0;					    \
1.1  mrg 	      }								    \
1.1  mrg 	    else							    \
1.1  mrg 	      {								    \
1.1  mrg 		X##_f1 = X##_f1 << (N) | X##_f0 >> (_FP_W_TYPE_SIZE - (N)); \
1.1  mrg 		X##_f0 <<= (N);						    \
1.1  mrg 	      }								    \
1.1  mrg 	    0;								    \
1.1  mrg 	  })								    \
1.1  mrg        : ({								    \
1.1  mrg 	    X##_f1 = X##_f0 << ((N) - _FP_W_TYPE_SIZE);			    \
1.1  mrg 	    X##_f0 = 0;							    \
1.1  mrg 	  }))
1.1  mrg
1.1  mrg
1.1  mrg #define _FP_FRAC_SRL_2(X,N)						\
1.1  mrg (void)(((N) < _FP_W_TYPE_SIZE)						\
1.1  mrg        ? ({								\
1.1  mrg 	    X##_f0 = X##_f0 >> (N) | X##_f1 << (_FP_W_TYPE_SIZE - (N));	\
1.1  mrg 	    X##_f1 >>= (N);						\
1.1  mrg 	  })								\
1.1  mrg        : ({								\
1.1  mrg 	    X##_f0 = X##_f1 >> ((N) - _FP_W_TYPE_SIZE);			\
1.1  mrg 	    X##_f1 = 0;							\
1.1  mrg 	  }))
1.1  mrg
1.1  mrg /* Right shift with sticky-lsb.  */
1.1  mrg #define _FP_FRAC_SRST_2(X,S, N,sz)					  \
1.1  mrg (void)(((N) < _FP_W_TYPE_SIZE)						  \
1.1  mrg        ? ({								  \
1.1  mrg 	    S = (__builtin_constant_p(N) && (N) == 1			  \
1.1  mrg 		 ? X##_f0 & 1						  \
1.1  mrg 		 : (X##_f0 << (_FP_W_TYPE_SIZE - (N))) != 0);		  \
1.1  mrg 	    X##_f0 = (X##_f1 << (_FP_W_TYPE_SIZE - (N)) | X##_f0 >> (N)); \
1.1  mrg 	    X##_f1 >>= (N);						  \
1.1  mrg 	  })								  \
1.1  mrg        : ({								  \
1.1  mrg 	    S = ((((N) == _FP_W_TYPE_SIZE				  \
1.1  mrg 		   ? 0							  \
1.1  mrg 		   : (X##_f1 << (2*_FP_W_TYPE_SIZE - (N))))		  \
1.1  mrg 		  | X##_f0) != 0);					  \
1.1  mrg 	    X##_f0 = (X##_f1 >> ((N) - _FP_W_TYPE_SIZE));		  \
1.1  mrg 	    X##_f1 = 0;							  \
1.1  mrg 	  }))
1.1  mrg
1.1  mrg #define _FP_FRAC_SRS_2(X,N,sz)						  \
1.1  mrg (void)(((N) < _FP_W_TYPE_SIZE)						  \
1.1  mrg        ? ({								  \
1.1  mrg 	    X##_f0 = (X##_f1 << (_FP_W_TYPE_SIZE - (N)) | X##_f0 >> (N) | \
1.1  mrg 		      (__builtin_constant_p(N) && (N) == 1		  \
1.1  mrg 		       ? X##_f0 & 1					  \
1.1  mrg 		       : (X##_f0 << (_FP_W_TYPE_SIZE - (N))) != 0));	  \
1.1  mrg 	    X##_f1 >>= (N);						  \
1.1  mrg 	  })								  \
1.1  mrg        : ({								  \
1.1  mrg 	    X##_f0 = (X##_f1 >> ((N) - _FP_W_TYPE_SIZE) |		  \
1.1  mrg 		      ((((N) == _FP_W_TYPE_SIZE				  \
1.1  mrg 			 ? 0						  \
1.1  mrg 			 : (X##_f1 << (2*_FP_W_TYPE_SIZE - (N))))	  \
1.1  mrg 			| X##_f0) != 0));				  \
1.1  mrg 	    X##_f1 = 0;							  \
1.1  mrg 	  }))
1.1  mrg
1.1  mrg #define _FP_FRAC_ADDI_2(X,I)	\
1.1  mrg   __FP_FRAC_ADDI_2(X##_f1, X##_f0, I)
1.1  mrg
1.1  mrg #define _FP_FRAC_ADD_2(R,X,Y)	\
1.1  mrg   __FP_FRAC_ADD_2(R##_f1, R##_f0, X##_f1, X##_f0, Y##_f1, Y##_f0)
1.1  mrg
1.1  mrg #define _FP_FRAC_SUB_2(R,X,Y)	\
1.1  mrg   __FP_FRAC_SUB_2(R##_f1, R##_f0, X##_f1, X##_f0, Y##_f1, Y##_f0)
1.1  mrg
1.1  mrg #define _FP_FRAC_DEC_2(X,Y)	\
1.1  mrg   __FP_FRAC_DEC_2(X##_f1, X##_f0, Y##_f1, Y##_f0)
1.1  mrg
1.1  mrg #define _FP_FRAC_CLZ_2(R,X)	\
1.1  mrg   do {				\
1.1  mrg     if (X##_f1)			\
1.1  mrg       __FP_CLZ(R,X##_f1);	\
1.1  mrg     else 			\
1.1  mrg     {				\
1.1  mrg       __FP_CLZ(R,X##_f0);	\
1.1  mrg       R += _FP_W_TYPE_SIZE;	\
1.1  mrg     }				\
1.1  mrg   } while(0)
1.1  mrg
1.1  mrg /* Predicates */
1.1  mrg #define _FP_FRAC_NEGP_2(X)	((_FP_WS_TYPE)X##_f1 < 0)
1.1  mrg #define _FP_FRAC_ZEROP_2(X)	((X##_f1 | X##_f0) == 0)
1.1  mrg #define _FP_FRAC_OVERP_2(fs,X)	(_FP_FRAC_HIGH_##fs(X) & _FP_OVERFLOW_##fs)
1.1  mrg #define _FP_FRAC_CLEAR_OVERP_2(fs,X)	(_FP_FRAC_HIGH_##fs(X) &= ~_FP_OVERFLOW_##fs)
1.1  mrg #define _FP_FRAC_EQ_2(X, Y)	(X##_f1 == Y##_f1 && X##_f0 == Y##_f0)
1.1  mrg #define _FP_FRAC_GT_2(X, Y)	\
1.1  mrg   (X##_f1 > Y##_f1 || (X##_f1 == Y##_f1 && X##_f0 > Y##_f0))
1.1  mrg #define _FP_FRAC_GE_2(X, Y)	\
1.1  mrg   (X##_f1 > Y##_f1 || (X##_f1 == Y##_f1 && X##_f0 >= Y##_f0))
1.1  mrg
1.1  mrg #define _FP_ZEROFRAC_2		0, 0
1.1  mrg #define _FP_MINFRAC_2		0, 1
1.1  mrg #define _FP_MAXFRAC_2		(~(_FP_WS_TYPE)0), (~(_FP_WS_TYPE)0)
1.1  mrg
1.1  mrg /*
1.1  mrg  * Internals
1.1  mrg  */
1.1  mrg
1.1  mrg #define __FP_FRAC_SET_2(X,I1,I0)	(X##_f0 = I0, X##_f1 = I1)
1.1  mrg
1.1  mrg #define __FP_CLZ_2(R, xh, xl)	\
1.1  mrg   do {				\
1.1  mrg     if (xh)			\
1.1  mrg       __FP_CLZ(R,xh);		\
1.1  mrg     else 			\
1.1  mrg     {				\
1.1  mrg       __FP_CLZ(R,xl);		\
1.1  mrg       R += _FP_W_TYPE_SIZE;	\
1.1  mrg     }				\
1.1  mrg   } while(0)
1.1  mrg
1.1  mrg #if 0
1.1  mrg
1.1  mrg #ifndef __FP_FRAC_ADDI_2
1.1  mrg #define __FP_FRAC_ADDI_2(xh, xl, i)	\
1.1  mrg   (xh += ((xl += i) < i))
1.1  mrg #endif
1.1  mrg #ifndef __FP_FRAC_ADD_2
1.1  mrg #define __FP_FRAC_ADD_2(rh, rl, xh, xl, yh, yl)	\
1.1  mrg   (rh = xh + yh + ((rl = xl + yl) < xl))
1.1  mrg #endif
1.1  mrg #ifndef __FP_FRAC_SUB_2
1.1  mrg #define __FP_FRAC_SUB_2(rh, rl, xh, xl, yh, yl)	\
1.1  mrg   (rh = xh - yh - ((rl = xl - yl) > xl))
1.1  mrg #endif
1.1  mrg #ifndef __FP_FRAC_DEC_2
1.1  mrg #define __FP_FRAC_DEC_2(xh, xl, yh, yl)	\
1.1  mrg   do {					\
1.1  mrg     UWtype _t = xl;			\
1.1  mrg     xh -= yh + ((xl -= yl) > _t);	\
1.1  mrg   } while (0)
1.1  mrg #endif
1.1  mrg
1.1  mrg #else
1.1  mrg
1.1  mrg #undef __FP_FRAC_ADDI_2
1.1  mrg #define __FP_FRAC_ADDI_2(xh, xl, i)	add_ssaaaa(xh, xl, xh, xl, 0, i)
1.1  mrg #undef __FP_FRAC_ADD_2
1.1  mrg #define __FP_FRAC_ADD_2			add_ssaaaa
1.1  mrg #undef __FP_FRAC_SUB_2
1.1  mrg #define __FP_FRAC_SUB_2			sub_ddmmss
1.1  mrg #undef __FP_FRAC_DEC_2
1.1  mrg #define __FP_FRAC_DEC_2(xh, xl, yh, yl)	sub_ddmmss(xh, xl, xh, xl, yh, yl)
1.1  mrg
1.1  mrg #endif
1.1  mrg
1.1  mrg /*
1.1  mrg  * Unpack the raw bits of a native fp value.  Do not classify or
1.1  mrg  * normalize the data.
1.1  mrg  */
1.1  mrg
1.1  mrg #define _FP_UNPACK_RAW_2(fs, X, val)			\
1.1  mrg   do {							\
1.1  mrg     union _FP_UNION_##fs _flo; _flo.flt = (val);	\
1.1  mrg 							\
1.1  mrg     X##_f0 = _flo.bits.frac0;				\
1.1  mrg     X##_f1 = _flo.bits.frac1;				\
1.1  mrg     X##_e  = _flo.bits.exp;				\
1.1  mrg     X##_s  = _flo.bits.sign;				\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg #define _FP_UNPACK_RAW_2_P(fs, X, val)			\
1.1  mrg   do {							\
1.1  mrg     union _FP_UNION_##fs *_flo =			\
1.1  mrg       (union _FP_UNION_##fs *)(val);			\
1.1  mrg 							\
1.1  mrg     X##_f0 = _flo->bits.frac0;				\
1.1  mrg     X##_f1 = _flo->bits.frac1;				\
1.1  mrg     X##_e  = _flo->bits.exp;				\
1.1  mrg     X##_s  = _flo->bits.sign;				\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg
1.1  mrg /*
1.1  mrg  * Repack the raw bits of a native fp value.
1.1  mrg  */
1.1  mrg
1.1  mrg #define _FP_PACK_RAW_2(fs, val, X)			\
1.1  mrg   do {							\
1.1  mrg     union _FP_UNION_##fs _flo;				\
1.1  mrg 							\
1.1  mrg     _flo.bits.frac0 = X##_f0;				\
1.1  mrg     _flo.bits.frac1 = X##_f1;				\
1.1  mrg     _flo.bits.exp   = X##_e;				\
1.1  mrg     _flo.bits.sign  = X##_s;				\
1.1  mrg 							\
1.1  mrg     (val) = _flo.flt;					\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg #define _FP_PACK_RAW_2_P(fs, val, X)			\
1.1  mrg   do {							\
1.1  mrg     union _FP_UNION_##fs *_flo =			\
1.1  mrg       (union _FP_UNION_##fs *)(val);			\
1.1  mrg 							\
1.1  mrg     _flo->bits.frac0 = X##_f0;				\
1.1  mrg     _flo->bits.frac1 = X##_f1;				\
1.1  mrg     _flo->bits.exp   = X##_e;				\
1.1  mrg     _flo->bits.sign  = X##_s;				\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg
1.1  mrg /*
1.1  mrg  * Multiplication algorithms:
1.1  mrg  */
1.1  mrg
1.1  mrg /* Given a 1W * 1W => 2W primitive, do the extended multiplication.  */
1.1  mrg
1.1  mrg #define _FP_MUL_MEAT_2_wide(wfracbits, R, X, Y, doit)			\
1.1  mrg   do {									\
1.1  mrg     _FP_FRAC_DECL_4(_z); _FP_FRAC_DECL_2(_b); _FP_FRAC_DECL_2(_c);	\
1.1  mrg 									\
1.1  mrg     doit(_FP_FRAC_WORD_4(_z,1), _FP_FRAC_WORD_4(_z,0), X##_f0, Y##_f0);	\
1.1  mrg     doit(_b_f1, _b_f0, X##_f0, Y##_f1);					\
1.1  mrg     doit(_c_f1, _c_f0, X##_f1, Y##_f0);					\
1.1  mrg     doit(_FP_FRAC_WORD_4(_z,3), _FP_FRAC_WORD_4(_z,2), X##_f1, Y##_f1);	\
1.1  mrg 									\
1.1  mrg     __FP_FRAC_ADD_3(_FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,1), 0, _b_f1, _b_f0,		\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,1));				\
1.1  mrg     __FP_FRAC_ADD_3(_FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,1), 0, _c_f1, _c_f0,		\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,1));				\
1.1  mrg 									\
1.1  mrg     /* Normalize since we know where the msb of the multiplicands	\
1.1  mrg        were (bit B), we know that the msb of the of the product is	\
1.1  mrg        at either 2B or 2B-1.  */					\
1.1  mrg     _FP_FRAC_SRS_4(_z, wfracbits-1, 2*wfracbits);			\
1.1  mrg     R##_f0 = _FP_FRAC_WORD_4(_z,0);					\
1.1  mrg     R##_f1 = _FP_FRAC_WORD_4(_z,1);					\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg /* Given a 1W * 1W => 2W primitive, do the extended multiplication.
1.1  mrg    Do only 3 multiplications instead of four. This one is for machines
1.1  mrg    where multiplication is much more expensive than subtraction.  */
1.1  mrg
1.1  mrg #define _FP_MUL_MEAT_2_wide_3mul(wfracbits, R, X, Y, doit)		\
1.1  mrg   do {									\
1.1  mrg     _FP_FRAC_DECL_4(_z); _FP_FRAC_DECL_2(_b); _FP_FRAC_DECL_2(_c);	\
1.1  mrg     _FP_W_TYPE _d;							\
1.1  mrg     int _c1, _c2;							\
1.1  mrg 									\
1.1  mrg     _b_f0 = X##_f0 + X##_f1;						\
1.1  mrg     _c1 = _b_f0 < X##_f0;						\
1.1  mrg     _b_f1 = Y##_f0 + Y##_f1;						\
1.1  mrg     _c2 = _b_f1 < Y##_f0;						\
1.1  mrg     doit(_d, _FP_FRAC_WORD_4(_z,0), X##_f0, Y##_f0);			\
1.1  mrg     doit(_FP_FRAC_WORD_4(_z,2), _FP_FRAC_WORD_4(_z,1), _b_f0, _b_f1);	\
1.1  mrg     doit(_c_f1, _c_f0, X##_f1, Y##_f1);					\
1.1  mrg 									\
1.1  mrg     _b_f0 &= -_c2;							\
1.1  mrg     _b_f1 &= -_c1;							\
1.1  mrg     __FP_FRAC_ADD_3(_FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,1), (_c1 & _c2), 0, _d,		\
1.1  mrg 		    0, _FP_FRAC_WORD_4(_z,2), _FP_FRAC_WORD_4(_z,1));	\
1.1  mrg     __FP_FRAC_ADDI_2(_FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		     _b_f0);						\
1.1  mrg     __FP_FRAC_ADDI_2(_FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		     _b_f1);						\
1.1  mrg     __FP_FRAC_DEC_3(_FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,1),				\
1.1  mrg 		    0, _d, _FP_FRAC_WORD_4(_z,0));			\
1.1  mrg     __FP_FRAC_DEC_3(_FP_FRAC_WORD_4(_z,3),_FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,1), 0, _c_f1, _c_f0);		\
1.1  mrg     __FP_FRAC_ADD_2(_FP_FRAC_WORD_4(_z,3), _FP_FRAC_WORD_4(_z,2),	\
1.1  mrg 		    _c_f1, _c_f0,					\
1.1  mrg 		    _FP_FRAC_WORD_4(_z,3), _FP_FRAC_WORD_4(_z,2));	\
1.1  mrg 									\
1.1  mrg     /* Normalize since we know where the msb of the multiplicands	\
1.1  mrg        were (bit B), we know that the msb of the of the product is	\
1.1  mrg        at either 2B or 2B-1.  */					\
1.1  mrg     _FP_FRAC_SRS_4(_z, wfracbits-1, 2*wfracbits);			\
1.1  mrg     R##_f0 = _FP_FRAC_WORD_4(_z,0);					\
1.1  mrg     R##_f1 = _FP_FRAC_WORD_4(_z,1);					\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg #define _FP_MUL_MEAT_2_gmp(wfracbits, R, X, Y)				\
1.1  mrg   do {									\
1.1  mrg     _FP_FRAC_DECL_4(_z);						\
1.1  mrg     _FP_W_TYPE _x[2], _y[2];						\
1.1  mrg     _x[0] = X##_f0; _x[1] = X##_f1;					\
1.1  mrg     _y[0] = Y##_f0; _y[1] = Y##_f1;					\
1.1  mrg 									\
1.1  mrg     mpn_mul_n(_z_f, _x, _y, 2);						\
1.1  mrg 									\
1.1  mrg     /* Normalize since we know where the msb of the multiplicands	\
1.1  mrg        were (bit B), we know that the msb of the of the product is	\
1.1  mrg        at either 2B or 2B-1.  */					\
1.1  mrg     _FP_FRAC_SRS_4(_z, wfracbits-1, 2*wfracbits);			\
1.1  mrg     R##_f0 = _z_f[0];							\
1.1  mrg     R##_f1 = _z_f[1];							\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg /* Do at most 120x120=240 bits multiplication using double floating
1.1  mrg    point multiplication.  This is useful if floating point
1.1  mrg    multiplication has much bigger throughput than integer multiply.
1.1  mrg    It is supposed to work for _FP_W_TYPE_SIZE 64 and wfracbits
1.1  mrg    between 106 and 120 only.
1.1  mrg    Caller guarantees that X and Y has (1LLL << (wfracbits - 1)) set.
1.1  mrg    SETFETZ is a macro which will disable all FPU exceptions and set rounding
1.1  mrg    towards zero,  RESETFE should optionally reset it back.  */
1.1  mrg
1.1  mrg #define _FP_MUL_MEAT_2_120_240_double(wfracbits, R, X, Y, setfetz, resetfe)	\
1.1  mrg   do {										\
1.1  mrg     static const double _const[] = {						\
1.1  mrg       /* 2^-24 */ 5.9604644775390625e-08,					\
1.1  mrg       /* 2^-48 */ 3.5527136788005009e-15,					\
1.1  mrg       /* 2^-72 */ 2.1175823681357508e-22,					\
1.1  mrg       /* 2^-96 */ 1.2621774483536189e-29,					\
1.1  mrg       /* 2^28 */ 2.68435456e+08,						\
1.1  mrg       /* 2^4 */ 1.600000e+01,							\
1.1  mrg       /* 2^-20 */ 9.5367431640625e-07,						\
1.1  mrg       /* 2^-44 */ 5.6843418860808015e-14,					\
1.1  mrg       /* 2^-68 */ 3.3881317890172014e-21,					\
1.1  mrg       /* 2^-92 */ 2.0194839173657902e-28,					\
1.1  mrg       /* 2^-116 */ 1.2037062152420224e-35};					\
1.1  mrg     double _a240, _b240, _c240, _d240, _e240, _f240, 				\
1.1  mrg 	   _g240, _h240, _i240, _j240, _k240;					\
1.1  mrg     union { double d; UDItype i; } _l240, _m240, _n240, _o240,			\
1.1  mrg 				   _p240, _q240, _r240, _s240;			\
1.1  mrg     UDItype _t240, _u240, _v240, _w240, _x240, _y240 = 0;			\
1.1  mrg 										\
1.1  mrg     if (wfracbits < 106 || wfracbits > 120)					\
1.1  mrg       abort();									\
1.1  mrg 										\
1.1  mrg     setfetz;									\
1.1  mrg 										\
1.1  mrg     _e240 = (double)(long)(X##_f0 & 0xffffff);					\
1.1  mrg     _j240 = (double)(long)(Y##_f0 & 0xffffff);					\
1.1  mrg     _d240 = (double)(long)((X##_f0 >> 24) & 0xffffff);				\
1.1  mrg     _i240 = (double)(long)((Y##_f0 >> 24) & 0xffffff);				\
1.1  mrg     _c240 = (double)(long)(((X##_f1 << 16) & 0xffffff) | (X##_f0 >> 48));	\
1.1  mrg     _h240 = (double)(long)(((Y##_f1 << 16) & 0xffffff) | (Y##_f0 >> 48));	\
1.1  mrg     _b240 = (double)(long)((X##_f1 >> 8) & 0xffffff);				\
1.1  mrg     _g240 = (double)(long)((Y##_f1 >> 8) & 0xffffff);				\
1.1  mrg     _a240 = (double)(long)(X##_f1 >> 32);					\
1.1  mrg     _f240 = (double)(long)(Y##_f1 >> 32);					\
1.1  mrg     _e240 *= _const[3];								\
1.1  mrg     _j240 *= _const[3];								\
1.1  mrg     _d240 *= _const[2];								\
1.1  mrg     _i240 *= _const[2];								\
1.1  mrg     _c240 *= _const[1];								\
1.1  mrg     _h240 *= _const[1];								\
1.1  mrg     _b240 *= _const[0];								\
1.1  mrg     _g240 *= _const[0];								\
1.1  mrg     _s240.d =							      _e240*_j240;\
1.1  mrg     _r240.d =						_d240*_j240 + _e240*_i240;\
1.1  mrg     _q240.d =				  _c240*_j240 + _d240*_i240 + _e240*_h240;\
1.1  mrg     _p240.d =		    _b240*_j240 + _c240*_i240 + _d240*_h240 + _e240*_g240;\
1.1  mrg     _o240.d = _a240*_j240 + _b240*_i240 + _c240*_h240 + _d240*_g240 + _e240*_f240;\
1.1  mrg     _n240.d = _a240*_i240 + _b240*_h240 + _c240*_g240 + _d240*_f240;		\
1.1  mrg     _m240.d = _a240*_h240 + _b240*_g240 + _c240*_f240;				\
1.1  mrg     _l240.d = _a240*_g240 + _b240*_f240;					\
1.1  mrg     _k240 =   _a240*_f240;							\
1.1  mrg     _r240.d += _s240.d;								\
1.1  mrg     _q240.d += _r240.d;								\
1.1  mrg     _p240.d += _q240.d;								\
1.1  mrg     _o240.d += _p240.d;								\
1.1  mrg     _n240.d += _o240.d;								\
1.1  mrg     _m240.d += _n240.d;								\
1.1  mrg     _l240.d += _m240.d;								\
1.1  mrg     _k240 += _l240.d;								\
1.1  mrg     _s240.d -= ((_const[10]+_s240.d)-_const[10]);				\
1.1  mrg     _r240.d -= ((_const[9]+_r240.d)-_const[9]);					\
1.1  mrg     _q240.d -= ((_const[8]+_q240.d)-_const[8]);					\
1.1  mrg     _p240.d -= ((_const[7]+_p240.d)-_const[7]);					\
1.1  mrg     _o240.d += _const[7];							\
1.1  mrg     _n240.d += _const[6];							\
1.1  mrg     _m240.d += _const[5];							\
1.1  mrg     _l240.d += _const[4];							\
1.1  mrg     if (_s240.d != 0.0) _y240 = 1;						\
1.1  mrg     if (_r240.d != 0.0) _y240 = 1;						\
1.1  mrg     if (_q240.d != 0.0) _y240 = 1;						\
1.1  mrg     if (_p240.d != 0.0) _y240 = 1;						\
1.1  mrg     _t240 = (DItype)_k240;							\
1.1  mrg     _u240 = _l240.i;								\
1.1  mrg     _v240 = _m240.i;								\
1.1  mrg     _w240 = _n240.i;								\
1.1  mrg     _x240 = _o240.i;								\
1.1  mrg     R##_f1 = (_t240 << (128 - (wfracbits - 1)))					\
1.1  mrg 	     | ((_u240 & 0xffffff) >> ((wfracbits - 1) - 104));			\
1.1  mrg     R##_f0 = ((_u240 & 0xffffff) << (168 - (wfracbits - 1)))			\
1.1  mrg     	     | ((_v240 & 0xffffff) << (144 - (wfracbits - 1)))			\
1.1  mrg     	     | ((_w240 & 0xffffff) << (120 - (wfracbits - 1)))			\
1.1  mrg     	     | ((_x240 & 0xffffff) >> ((wfracbits - 1) - 96))			\
1.1  mrg     	     | _y240;								\
1.1  mrg     resetfe;									\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg /*
1.1  mrg  * Division algorithms:
1.1  mrg  */
1.1  mrg
1.1  mrg #define _FP_DIV_MEAT_2_udiv(fs, R, X, Y)				\
1.1  mrg   do {									\
1.1  mrg     _FP_W_TYPE _n_f2, _n_f1, _n_f0, _r_f1, _r_f0, _m_f1, _m_f0;		\
1.1  mrg     if (_FP_FRAC_GT_2(X, Y))						\
1.1  mrg       {									\
1.1  mrg 	_n_f2 = X##_f1 >> 1;						\
1.1  mrg 	_n_f1 = X##_f1 << (_FP_W_TYPE_SIZE - 1) | X##_f0 >> 1;		\
1.1  mrg 	_n_f0 = X##_f0 << (_FP_W_TYPE_SIZE - 1);			\
1.1  mrg       }									\
1.1  mrg     else								\
1.1  mrg       {									\
1.1  mrg 	R##_e--;							\
1.1  mrg 	_n_f2 = X##_f1;							\
1.1  mrg 	_n_f1 = X##_f0;							\
1.1  mrg 	_n_f0 = 0;							\
1.1  mrg       }									\
1.1  mrg 									\
1.1  mrg     /* Normalize, i.e. make the most significant bit of the 		\
1.1  mrg        denominator set. */						\
1.1  mrg     _FP_FRAC_SLL_2(Y, _FP_WFRACXBITS_##fs);				\
1.1  mrg 									\
1.1  mrg     udiv_qrnnd(R##_f1, _r_f1, _n_f2, _n_f1, Y##_f1);			\
1.1  mrg     umul_ppmm(_m_f1, _m_f0, R##_f1, Y##_f0);				\
1.1  mrg     _r_f0 = _n_f0;							\
1.1  mrg     if (_FP_FRAC_GT_2(_m, _r))						\
1.1  mrg       {									\
1.1  mrg 	R##_f1--;							\
1.1  mrg 	_FP_FRAC_ADD_2(_r, Y, _r);					\
1.1  mrg 	if (_FP_FRAC_GE_2(_r, Y) && _FP_FRAC_GT_2(_m, _r))		\
1.1  mrg 	  {								\
1.1  mrg 	    R##_f1--;							\
1.1  mrg 	    _FP_FRAC_ADD_2(_r, Y, _r);					\
1.1  mrg 	  }								\
1.1  mrg       }									\
1.1  mrg     _FP_FRAC_DEC_2(_r, _m);						\
1.1  mrg 									\
1.1  mrg     if (_r_f1 == Y##_f1)						\
1.1  mrg       {									\
1.1  mrg 	/* This is a special case, not an optimization			\
1.1  mrg 	   (_r/Y##_f1 would not fit into UWtype).			\
1.1  mrg 	   As _r is guaranteed to be < Y,  R##_f0 can be either		\
1.1  mrg 	   (UWtype)-1 or (UWtype)-2.  But as we know what kind		\
1.1  mrg 	   of bits it is (sticky, guard, round),  we don't care.	\
1.1  mrg 	   We also don't care what the reminder is,  because the	\
1.1  mrg 	   guard bit will be set anyway.  -jj */			\
1.1  mrg 	R##_f0 = -1;							\
1.1  mrg       }									\
1.1  mrg     else								\
1.1  mrg       {									\
1.1  mrg 	udiv_qrnnd(R##_f0, _r_f1, _r_f1, _r_f0, Y##_f1);		\
1.1  mrg 	umul_ppmm(_m_f1, _m_f0, R##_f0, Y##_f0);			\
1.1  mrg 	_r_f0 = 0;							\
1.1  mrg 	if (_FP_FRAC_GT_2(_m, _r))					\
1.1  mrg 	  {								\
1.1  mrg 	    R##_f0--;							\
1.1  mrg 	    _FP_FRAC_ADD_2(_r, Y, _r);					\
1.1  mrg 	    if (_FP_FRAC_GE_2(_r, Y) && _FP_FRAC_GT_2(_m, _r))		\
1.1  mrg 	      {								\
1.1  mrg 		R##_f0--;						\
1.1  mrg 		_FP_FRAC_ADD_2(_r, Y, _r);				\
1.1  mrg 	      }								\
1.1  mrg 	  }								\
1.1  mrg 	if (!_FP_FRAC_EQ_2(_r, _m))					\
1.1  mrg 	  R##_f0 |= _FP_WORK_STICKY;					\
1.1  mrg       }									\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg
1.1  mrg #define _FP_DIV_MEAT_2_gmp(fs, R, X, Y)					\
1.1  mrg   do {									\
1.1  mrg     _FP_W_TYPE _x[4], _y[2], _z[4];					\
1.1  mrg     _y[0] = Y##_f0; _y[1] = Y##_f1;					\
1.1  mrg     _x[0] = _x[3] = 0;							\
1.1  mrg     if (_FP_FRAC_GT_2(X, Y))						\
1.1  mrg       {									\
1.1  mrg 	R##_e++;							\
1.1  mrg 	_x[1] = (X##_f0 << (_FP_WFRACBITS_##fs-1 - _FP_W_TYPE_SIZE) |	\
1.1  mrg 		 X##_f1 >> (_FP_W_TYPE_SIZE -				\
1.1  mrg 			    (_FP_WFRACBITS_##fs-1 - _FP_W_TYPE_SIZE)));	\
1.1  mrg 	_x[2] = X##_f1 << (_FP_WFRACBITS_##fs-1 - _FP_W_TYPE_SIZE);	\
1.1  mrg       }									\
1.1  mrg     else								\
1.1  mrg       {									\
1.1  mrg 	_x[1] = (X##_f0 << (_FP_WFRACBITS_##fs - _FP_W_TYPE_SIZE) |	\
1.1  mrg 		 X##_f1 >> (_FP_W_TYPE_SIZE -				\
1.1  mrg 			    (_FP_WFRACBITS_##fs - _FP_W_TYPE_SIZE)));	\
1.1  mrg 	_x[2] = X##_f1 << (_FP_WFRACBITS_##fs - _FP_W_TYPE_SIZE);	\
1.1  mrg       }									\
1.1  mrg 									\
1.1  mrg     (void) mpn_divrem (_z, 0, _x, 4, _y, 2);				\
1.1  mrg     R##_f1 = _z[1];							\
1.1  mrg     R##_f0 = _z[0] | ((_x[0] | _x[1]) != 0);				\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg
1.1  mrg /*
1.1  mrg  * Square root algorithms:
1.1  mrg  * We have just one right now, maybe Newton approximation
1.1  mrg  * should be added for those machines where division is fast.
1.1  mrg  */
1.1  mrg
1.1  mrg #define _FP_SQRT_MEAT_2(R, S, T, X, q)			\
1.1  mrg   do {							\
1.1  mrg     while (q)						\
1.1  mrg       {							\
1.1  mrg 	T##_f1 = S##_f1 + q;				\
1.1  mrg 	if (T##_f1 <= X##_f1)				\
1.1  mrg 	  {						\
1.1  mrg 	    S##_f1 = T##_f1 + q;			\
1.1  mrg 	    X##_f1 -= T##_f1;				\
1.1  mrg 	    R##_f1 += q;				\
1.1  mrg 	  }						\
1.1  mrg 	_FP_FRAC_SLL_2(X, 1);				\
1.1  mrg 	q >>= 1;					\
1.1  mrg       }							\
1.1  mrg     q = (_FP_W_TYPE)1 << (_FP_W_TYPE_SIZE - 1);		\
1.1  mrg     while (q != _FP_WORK_ROUND)				\
1.1  mrg       {							\
1.1  mrg 	T##_f0 = S##_f0 + q;				\
1.1  mrg 	T##_f1 = S##_f1;				\
1.1  mrg 	if (T##_f1 < X##_f1 || 				\
1.1  mrg 	    (T##_f1 == X##_f1 && T##_f0 <= X##_f0))	\
1.1  mrg 	  {						\
1.1  mrg 	    S##_f0 = T##_f0 + q;			\
1.1  mrg 	    S##_f1 += (T##_f0 > S##_f0);		\
1.1  mrg 	    _FP_FRAC_DEC_2(X, T);			\
1.1  mrg 	    R##_f0 += q;				\
1.1  mrg 	  }						\
1.1  mrg 	_FP_FRAC_SLL_2(X, 1);				\
1.1  mrg 	q >>= 1;					\
1.1  mrg       }							\
1.1  mrg     if (X##_f0 | X##_f1)				\
1.1  mrg       {							\
1.1  mrg 	if (S##_f1 < X##_f1 || 				\
1.1  mrg 	    (S##_f1 == X##_f1 && S##_f0 < X##_f0))	\
1.1  mrg 	  R##_f0 |= _FP_WORK_ROUND;			\
1.1  mrg 	R##_f0 |= _FP_WORK_STICKY;			\
1.1  mrg       }							\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg
1.1  mrg /*
1.1  mrg  * Assembly/disassembly for converting to/from integral types.
1.1  mrg  * No shifting or overflow handled here.
1.1  mrg  */
1.1  mrg
1.1  mrg #define _FP_FRAC_ASSEMBLE_2(r, X, rsize)	\
1.1  mrg (void)((rsize <= _FP_W_TYPE_SIZE)		\
1.1  mrg        ? ({ r = X##_f0; })			\
1.1  mrg        : ({					\
1.1  mrg 	    r = X##_f1;				\
1.1  mrg 	    r <<= _FP_W_TYPE_SIZE;		\
1.1  mrg 	    r += X##_f0;			\
1.1  mrg 	  }))
1.1  mrg
1.1  mrg #define _FP_FRAC_DISASSEMBLE_2(X, r, rsize)				\
1.1  mrg   do {									\
1.1  mrg     X##_f0 = r;								\
1.1  mrg     X##_f1 = (rsize <= _FP_W_TYPE_SIZE ? 0 : r >> _FP_W_TYPE_SIZE);	\
1.1  mrg   } while (0)
1.1  mrg
1.1  mrg /*
1.1  mrg  * Convert FP values between word sizes
1.1  mrg  */
1.1  mrg
1.1  mrg #define _FP_FRAC_COPY_1_2(D, S)		(D##_f = S##_f0)
1.1  mrg
1.1  mrg #define _FP_FRAC_COPY_2_1(D, S)		((D##_f0 = S##_f), (D##_f1 = 0))
1.1  mrg
1.1  mrg #define _FP_FRAC_COPY_2_2(D,S)		_FP_FRAC_COPY_2(D,S)