dist/mpz/oddfac_1.c

    1.1  mrg /* mpz_oddfac_1(RESULT, N) -- Set RESULT to the odd factor of N!.
    1.1  mrg
    1.1  mrg Contributed to the GNU project by Marco Bodrato.
    1.1  mrg
    1.1  mrg THE FUNCTION IN THIS FILE IS INTERNAL WITH A MUTABLE INTERFACE.
    1.1  mrg IT IS ONLY SAFE TO REACH IT THROUGH DOCUMENTED INTERFACES.
    1.1  mrg IN FACT, IT IS ALMOST GUARANTEED THAT IT WILL CHANGE OR
    1.1  mrg DISAPPEAR IN A FUTURE GNU MP RELEASE.
    1.1  mrg
1.1.1.2  mrg Copyright 2010-2012 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg This file is part of the GNU MP Library.
    1.1  mrg
    1.1  mrg The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg it under the terms of either:
1.1.1.2  mrg
1.1.1.2  mrg   * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg     Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg     option) any later version.
1.1.1.2  mrg
1.1.1.2  mrg or
1.1.1.2  mrg
1.1.1.2  mrg   * the GNU General Public License as published by the Free Software
1.1.1.2  mrg     Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg     later version.
1.1.1.2  mrg
1.1.1.2  mrg or both in parallel, as here.
    1.1  mrg
    1.1  mrg The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg for more details.
    1.1  mrg
1.1.1.2  mrg You should have received copies of the GNU General Public License and the
1.1.1.2  mrg GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg see https://www.gnu.org/licenses/.  */
    1.1  mrg
    1.1  mrg #include "gmp.h"
    1.1  mrg #include "gmp-impl.h"
    1.1  mrg #include "longlong.h"
    1.1  mrg
    1.1  mrg /* TODO:
    1.1  mrg    - split this file in smaller parts with functions that can be recycled for different computations.
    1.1  mrg  */
    1.1  mrg
    1.1  mrg /**************************************************************/
    1.1  mrg /* Section macros: common macros, for mswing/fac/bin (&sieve) */
    1.1  mrg /**************************************************************/
    1.1  mrg
    1.1  mrg #define FACTOR_LIST_APPEND(PR, MAX_PR, VEC, I)			\
    1.1  mrg   if ((PR) > (MAX_PR)) {					\
    1.1  mrg     (VEC)[(I)++] = (PR);					\
    1.1  mrg     (PR) = 1;							\
    1.1  mrg   }
    1.1  mrg
    1.1  mrg #define FACTOR_LIST_STORE(P, PR, MAX_PR, VEC, I)		\
    1.1  mrg   do {								\
    1.1  mrg     if ((PR) > (MAX_PR)) {					\
    1.1  mrg       (VEC)[(I)++] = (PR);					\
    1.1  mrg       (PR) = (P);						\
    1.1  mrg     } else							\
    1.1  mrg       (PR) *= (P);						\
    1.1  mrg   } while (0)
    1.1  mrg
    1.1  mrg #define LOOP_ON_SIEVE_CONTINUE(prime,end,sieve)			\
    1.1  mrg     __max_i = (end);						\
    1.1  mrg 								\
    1.1  mrg     do {							\
    1.1  mrg       ++__i;							\
    1.1  mrg       if (((sieve)[__index] & __mask) == 0)			\
    1.1  mrg 	{							\
    1.1  mrg 	  (prime) = id_to_n(__i)
    1.1  mrg
    1.1  mrg #define LOOP_ON_SIEVE_BEGIN(prime,start,end,off,sieve)		\
    1.1  mrg   do {								\
    1.1  mrg     mp_limb_t __mask, __index, __max_i, __i;			\
    1.1  mrg 								\
    1.1  mrg     __i = (start)-(off);					\
    1.1  mrg     __index = __i / GMP_LIMB_BITS;				\
    1.1  mrg     __mask = CNST_LIMB(1) << (__i % GMP_LIMB_BITS);		\
    1.1  mrg     __i += (off);						\
    1.1  mrg 								\
    1.1  mrg     LOOP_ON_SIEVE_CONTINUE(prime,end,sieve)
    1.1  mrg
    1.1  mrg #define LOOP_ON_SIEVE_STOP					\
    1.1  mrg 	}							\
    1.1  mrg       __mask = __mask << 1 | __mask >> (GMP_LIMB_BITS-1);	\
    1.1  mrg       __index += __mask & 1;					\
    1.1  mrg     }  while (__i <= __max_i)					\
    1.1  mrg
    1.1  mrg #define LOOP_ON_SIEVE_END					\
    1.1  mrg     LOOP_ON_SIEVE_STOP;						\
    1.1  mrg   } while (0)
    1.1  mrg
    1.1  mrg /*********************************************************/
    1.1  mrg /* Section sieve: sieving functions and tools for primes */
    1.1  mrg /*********************************************************/
    1.1  mrg
    1.1  mrg #if WANT_ASSERT
    1.1  mrg static mp_limb_t
    1.1  mrg bit_to_n (mp_limb_t bit) { return (bit*3+4)|1; }
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg /* id_to_n (x) = bit_to_n (x-1) = (id*3+1)|1*/
    1.1  mrg static mp_limb_t
    1.1  mrg id_to_n  (mp_limb_t id)  { return id*3+1+(id&1); }
    1.1  mrg
    1.1  mrg /* n_to_bit (n) = ((n-1)&(-CNST_LIMB(2)))/3U-1 */
    1.1  mrg static mp_limb_t
    1.1  mrg n_to_bit (mp_limb_t n) { return ((n-5)|1)/3U; }
    1.1  mrg
    1.1  mrg #if WANT_ASSERT
    1.1  mrg static mp_size_t
    1.1  mrg primesieve_size (mp_limb_t n) { return n_to_bit(n) / GMP_LIMB_BITS + 1; }
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg /*********************************************************/
    1.1  mrg /* Section mswing: 2-multiswing factorial                 */
    1.1  mrg /*********************************************************/
    1.1  mrg
    1.1  mrg /* Returns an approximation of the sqare root of x.  *
    1.1  mrg  * It gives: x <= limb_apprsqrt (x) ^ 2 < x * 9/4    */
    1.1  mrg static mp_limb_t
    1.1  mrg limb_apprsqrt (mp_limb_t x)
    1.1  mrg {
    1.1  mrg   int s;
    1.1  mrg
    1.1  mrg   ASSERT (x > 2);
    1.1  mrg   count_leading_zeros (s, x - 1);
    1.1  mrg   s = GMP_LIMB_BITS - 1 - s;
    1.1  mrg   return (CNST_LIMB(1) << (s >> 1)) + (CNST_LIMB(1) << ((s - 1) >> 1));
    1.1  mrg }
    1.1  mrg
    1.1  mrg #if 0
    1.1  mrg /* A count-then-exponentiate variant for SWING_A_PRIME */
    1.1  mrg #define SWING_A_PRIME(P, N, PR, MAX_PR, VEC, I)		\
    1.1  mrg   do {							\
    1.1  mrg     mp_limb_t __q, __prime;				\
    1.1  mrg     int __exp;						\
    1.1  mrg     __prime = (P);					\
    1.1  mrg     __exp = 0;						\
    1.1  mrg     __q = (N);						\
    1.1  mrg     do {						\
    1.1  mrg       __q /= __prime;					\
    1.1  mrg       __exp += __q & 1;					\
    1.1  mrg     } while (__q >= __prime);				\
    1.1  mrg     if (__exp) { /* Store $prime^{exp}$ */		\
    1.1  mrg       for (__q = __prime; --__exp; __q *= __prime);	\
    1.1  mrg       FACTOR_LIST_STORE(__q, PR, MAX_PR, VEC, I);	\
    1.1  mrg     };							\
    1.1  mrg   } while (0)
    1.1  mrg #else
    1.1  mrg #define SWING_A_PRIME(P, N, PR, MAX_PR, VEC, I)	\
    1.1  mrg   do {						\
    1.1  mrg     mp_limb_t __q, __prime;			\
    1.1  mrg     __prime = (P);				\
    1.1  mrg     FACTOR_LIST_APPEND(PR, MAX_PR, VEC, I);	\
    1.1  mrg     __q = (N);					\
    1.1  mrg     do {					\
    1.1  mrg       __q /= __prime;				\
    1.1  mrg       if ((__q & 1) != 0) (PR) *= __prime;	\
    1.1  mrg     } while (__q >= __prime);			\
    1.1  mrg   } while (0)
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg #define SH_SWING_A_PRIME(P, N, PR, MAX_PR, VEC, I)	\
    1.1  mrg   do {							\
    1.1  mrg     mp_limb_t __prime;					\
    1.1  mrg     __prime = (P);					\
    1.1  mrg     if ((((N) / __prime) & 1) != 0)			\
    1.1  mrg       FACTOR_LIST_STORE(__prime, PR, MAX_PR, VEC, I);	\
    1.1  mrg   } while (0)
    1.1  mrg
    1.1  mrg /* mpz_2multiswing_1 computes the odd part of the 2-multiswing
    1.1  mrg    factorial of the parameter n.  The result x is an odd positive
    1.1  mrg    integer so that multiswing(n,2) = x 2^a.
    1.1  mrg
    1.1  mrg    Uses the algorithm described by Peter Luschny in "Divide, Swing and
    1.1  mrg    Conquer the Factorial!".
    1.1  mrg
    1.1  mrg    The pointer sieve points to primesieve_size(n) limbs containing a
    1.1  mrg    bit-array where primes are marked as 0.
    1.1  mrg    Enough (FIXME: explain :-) limbs must be pointed by factors.
    1.1  mrg  */
    1.1  mrg
    1.1  mrg static void
    1.1  mrg mpz_2multiswing_1 (mpz_ptr x, mp_limb_t n, mp_ptr sieve, mp_ptr factors)
    1.1  mrg {
    1.1  mrg   mp_limb_t prod, max_prod;
    1.1  mrg   mp_size_t j;
    1.1  mrg
    1.1  mrg   ASSERT (n >= 26);
    1.1  mrg
    1.1  mrg   j = 0;
    1.1  mrg   prod  = -(n & 1);
    1.1  mrg   n &= ~ CNST_LIMB(1); /* n-1, if n is odd */
    1.1  mrg
    1.1  mrg   prod = (prod & n) + 1; /* the original n, if it was odd, 1 otherwise */
    1.1  mrg   max_prod = GMP_NUMB_MAX / (n-1);
    1.1  mrg
    1.1  mrg   /* Handle prime = 3 separately. */
    1.1  mrg   SWING_A_PRIME (3, n, prod, max_prod, factors, j);
    1.1  mrg
    1.1  mrg   /* Swing primes from 5 to n/3 */
    1.1  mrg   {
    1.1  mrg     mp_limb_t s;
    1.1  mrg
    1.1  mrg     {
    1.1  mrg       mp_limb_t prime;
    1.1  mrg
    1.1  mrg       s = limb_apprsqrt(n);
    1.1  mrg       ASSERT (s >= 5);
    1.1  mrg       s = n_to_bit (s);
    1.1  mrg       LOOP_ON_SIEVE_BEGIN (prime, n_to_bit (5), s, 0,sieve);
    1.1  mrg       SWING_A_PRIME (prime, n, prod, max_prod, factors, j);
    1.1  mrg       LOOP_ON_SIEVE_END;
    1.1  mrg       s++;
    1.1  mrg     }
    1.1  mrg
    1.1  mrg     ASSERT (max_prod <= GMP_NUMB_MAX / 3);
    1.1  mrg     ASSERT (bit_to_n (s) * bit_to_n (s) > n);
    1.1  mrg     ASSERT (s <= n_to_bit (n / 3));
    1.1  mrg     {
    1.1  mrg       mp_limb_t prime;
    1.1  mrg       mp_limb_t l_max_prod = max_prod * 3;
    1.1  mrg
    1.1  mrg       LOOP_ON_SIEVE_BEGIN (prime, s, n_to_bit (n/3), 0, sieve);
    1.1  mrg       SH_SWING_A_PRIME (prime, n, prod, l_max_prod, factors, j);
    1.1  mrg       LOOP_ON_SIEVE_END;
    1.1  mrg     }
    1.1  mrg   }
    1.1  mrg
    1.1  mrg   /* Store primes from (n+1)/2 to n */
    1.1  mrg   {
    1.1  mrg     mp_limb_t prime;
    1.1  mrg     LOOP_ON_SIEVE_BEGIN (prime, n_to_bit (n >> 1) + 1, n_to_bit (n), 0,sieve);
    1.1  mrg     FACTOR_LIST_STORE (prime, prod, max_prod, factors, j);
    1.1  mrg     LOOP_ON_SIEVE_END;
    1.1  mrg   }
    1.1  mrg
    1.1  mrg   if (LIKELY (j != 0))
    1.1  mrg     {
    1.1  mrg       factors[j++] = prod;
    1.1  mrg       mpz_prodlimbs (x, factors, j);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       PTR (x)[0] = prod;
    1.1  mrg       SIZ (x) = 1;
    1.1  mrg     }
    1.1  mrg }
    1.1  mrg
    1.1  mrg #undef SWING_A_PRIME
    1.1  mrg #undef SH_SWING_A_PRIME
    1.1  mrg #undef LOOP_ON_SIEVE_END
    1.1  mrg #undef LOOP_ON_SIEVE_STOP
    1.1  mrg #undef LOOP_ON_SIEVE_BEGIN
    1.1  mrg #undef LOOP_ON_SIEVE_CONTINUE
    1.1  mrg #undef FACTOR_LIST_APPEND
    1.1  mrg
    1.1  mrg /*********************************************************/
    1.1  mrg /* Section oddfac: odd factorial, needed also by binomial*/
    1.1  mrg /*********************************************************/
    1.1  mrg
    1.1  mrg #if TUNE_PROGRAM_BUILD
    1.1  mrg #define FACTORS_PER_LIMB (GMP_NUMB_BITS / (LOG2C(FAC_DSC_THRESHOLD_LIMIT-1)+1))
    1.1  mrg #else
    1.1  mrg #define FACTORS_PER_LIMB (GMP_NUMB_BITS / (LOG2C(FAC_DSC_THRESHOLD-1)+1))
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg /* mpz_oddfac_1 computes the odd part of the factorial of the
    1.1  mrg    parameter n.  I.e. n! = x 2^a, where x is the returned value: an
    1.1  mrg    odd positive integer.
    1.1  mrg
    1.1  mrg    If flag != 0 a square is skipped in the DSC part, e.g.
    1.1  mrg    if n is odd, n > FAC_DSC_THRESHOLD and flag = 1, x is set to n!!.
    1.1  mrg
    1.1  mrg    If n is too small, flag is ignored, and an ASSERT can be triggered.
    1.1  mrg
    1.1  mrg    TODO: FAC_DSC_THRESHOLD is used here with two different roles:
    1.1  mrg     - to decide when prime factorisation is needed,
    1.1  mrg     - to stop the recursion, once sieving is done.
    1.1  mrg    Maybe two thresholds can do a better job.
    1.1  mrg  */
    1.1  mrg void
    1.1  mrg mpz_oddfac_1 (mpz_ptr x, mp_limb_t n, unsigned flag)
    1.1  mrg {
    1.1  mrg   ASSERT (n <= GMP_NUMB_MAX);
    1.1  mrg   ASSERT (flag == 0 || (flag == 1 && n > ODD_FACTORIAL_TABLE_LIMIT && ABOVE_THRESHOLD (n, FAC_DSC_THRESHOLD)));
    1.1  mrg
    1.1  mrg   if (n <= ODD_FACTORIAL_TABLE_LIMIT)
    1.1  mrg     {
    1.1  mrg       PTR (x)[0] = __gmp_oddfac_table[n];
    1.1  mrg       SIZ (x) = 1;
    1.1  mrg     }
    1.1  mrg   else if (n <= ODD_DOUBLEFACTORIAL_TABLE_LIMIT + 1)
    1.1  mrg     {
    1.1  mrg       mp_ptr   px;
    1.1  mrg
    1.1  mrg       px = MPZ_NEWALLOC (x, 2);
    1.1  mrg       umul_ppmm (px[1], px[0], __gmp_odd2fac_table[(n - 1) >> 1], __gmp_oddfac_table[n >> 1]);
    1.1  mrg       SIZ (x) = 2;
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       unsigned s;
    1.1  mrg       mp_ptr   factors;
    1.1  mrg
    1.1  mrg       s = 0;
    1.1  mrg       {
    1.1  mrg 	mp_limb_t tn;
    1.1  mrg 	mp_limb_t prod, max_prod, i;
    1.1  mrg 	mp_size_t j;
    1.1  mrg 	TMP_SDECL;
    1.1  mrg
    1.1  mrg #if TUNE_PROGRAM_BUILD
    1.1  mrg 	ASSERT (FAC_DSC_THRESHOLD_LIMIT >= FAC_DSC_THRESHOLD);
    1.1  mrg 	ASSERT (FAC_DSC_THRESHOLD >= 2 * (ODD_DOUBLEFACTORIAL_TABLE_LIMIT + 2));
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg 	/* Compute the number of recursive steps for the DSC algorithm. */
    1.1  mrg 	for (tn = n; ABOVE_THRESHOLD (tn, FAC_DSC_THRESHOLD); s++)
    1.1  mrg 	  tn >>= 1;
    1.1  mrg
    1.1  mrg 	j = 0;
    1.1  mrg
    1.1  mrg 	TMP_SMARK;
    1.1  mrg 	factors = TMP_SALLOC_LIMBS (1 + tn / FACTORS_PER_LIMB);
    1.1  mrg 	ASSERT (tn >= FACTORS_PER_LIMB);
    1.1  mrg
    1.1  mrg 	prod = 1;
    1.1  mrg #if TUNE_PROGRAM_BUILD
    1.1  mrg 	max_prod = GMP_NUMB_MAX / FAC_DSC_THRESHOLD_LIMIT;
    1.1  mrg #else
    1.1  mrg 	max_prod = GMP_NUMB_MAX / FAC_DSC_THRESHOLD;
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg 	ASSERT (tn > ODD_DOUBLEFACTORIAL_TABLE_LIMIT + 1);
    1.1  mrg 	do {
    1.1  mrg 	  i = ODD_DOUBLEFACTORIAL_TABLE_LIMIT + 2;
    1.1  mrg 	  factors[j++] = ODD_DOUBLEFACTORIAL_TABLE_MAX;
    1.1  mrg 	  do {
    1.1  mrg 	    FACTOR_LIST_STORE (i, prod, max_prod, factors, j);
    1.1  mrg 	    i += 2;
    1.1  mrg 	  } while (i <= tn);
    1.1  mrg 	  max_prod <<= 1;
    1.1  mrg 	  tn >>= 1;
    1.1  mrg 	} while (tn > ODD_DOUBLEFACTORIAL_TABLE_LIMIT + 1);
    1.1  mrg
    1.1  mrg 	factors[j++] = prod;
    1.1  mrg 	factors[j++] = __gmp_odd2fac_table[(tn - 1) >> 1];
    1.1  mrg 	factors[j++] = __gmp_oddfac_table[tn >> 1];
    1.1  mrg 	mpz_prodlimbs (x, factors, j);
    1.1  mrg
    1.1  mrg 	TMP_SFREE;
    1.1  mrg       }
    1.1  mrg
    1.1  mrg       if (s != 0)
    1.1  mrg 	/* Use the algorithm described by Peter Luschny in "Divide,
    1.1  mrg 	   Swing and Conquer the Factorial!".
    1.1  mrg
    1.1  mrg 	   Improvement: there are two temporary buffers, factors and
    1.1  mrg 	   square, that are never used together; with a good estimate
    1.1  mrg 	   of the maximal needed size, they could share a single
    1.1  mrg 	   allocation.
    1.1  mrg 	*/
    1.1  mrg 	{
    1.1  mrg 	  mpz_t mswing;
    1.1  mrg 	  mp_ptr sieve;
    1.1  mrg 	  mp_size_t size;
    1.1  mrg 	  TMP_DECL;
    1.1  mrg
    1.1  mrg 	  TMP_MARK;
    1.1  mrg
    1.1  mrg 	  flag--;
    1.1  mrg 	  size = n / GMP_NUMB_BITS + 4;
    1.1  mrg 	  ASSERT (primesieve_size (n - 1) <= size - (size / 2 + 1));
    1.1  mrg 	  /* 2-multiswing(n) < 2^(n-1)*sqrt(n/pi) < 2^(n+GMP_NUMB_BITS);
    1.1  mrg 	     one more can be overwritten by mul, another for the sieve */
    1.1  mrg 	  MPZ_TMP_INIT (mswing, size);
    1.1  mrg 	  /* Initialize size, so that ASSERT can check it correctly. */
    1.1  mrg 	  ASSERT_CODE (SIZ (mswing) = 0);
    1.1  mrg
    1.1  mrg 	  /* Put the sieve on the second half, it will be overwritten by the last mswing. */
    1.1  mrg 	  sieve = PTR (mswing) + size / 2 + 1;
    1.1  mrg
    1.1  mrg 	  size = (gmp_primesieve (sieve, n - 1) + 1) / log_n_max (n) + 1;
    1.1  mrg
    1.1  mrg 	  factors = TMP_ALLOC_LIMBS (size);
    1.1  mrg 	  do {
    1.1  mrg 	    mp_ptr    square, px;
    1.1  mrg 	    mp_size_t nx, ns;
    1.1  mrg 	    mp_limb_t cy;
    1.1  mrg 	    TMP_DECL;
    1.1  mrg
    1.1  mrg 	    s--;
    1.1  mrg 	    ASSERT (ABSIZ (mswing) < ALLOC (mswing) / 2); /* Check: sieve has not been overwritten */
    1.1  mrg 	    mpz_2multiswing_1 (mswing, n >> s, sieve, factors);
    1.1  mrg
    1.1  mrg 	    TMP_MARK;
    1.1  mrg 	    nx = SIZ (x);
    1.1  mrg 	    if (s == flag) {
    1.1  mrg 	      size = nx;
    1.1  mrg 	      square = TMP_ALLOC_LIMBS (size);
    1.1  mrg 	      MPN_COPY (square, PTR (x), nx);
    1.1  mrg 	    } else {
    1.1  mrg 	      size = nx << 1;
    1.1  mrg 	      square = TMP_ALLOC_LIMBS (size);
    1.1  mrg 	      mpn_sqr (square, PTR (x), nx);
    1.1  mrg 	      size -= (square[size - 1] == 0);
    1.1  mrg 	    }
    1.1  mrg 	    ns = SIZ (mswing);
    1.1  mrg 	    nx = size + ns;
    1.1  mrg 	    px = MPZ_NEWALLOC (x, nx);
    1.1  mrg 	    ASSERT (ns <= size);
    1.1  mrg 	    cy = mpn_mul (px, square, size, PTR(mswing), ns); /* n!= n$ * floor(n/2)!^2 */
    1.1  mrg
    1.1  mrg 	    TMP_FREE;
    1.1  mrg 	    SIZ(x) = nx - (cy == 0);
    1.1  mrg 	  } while (s != 0);
    1.1  mrg 	  TMP_FREE;
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg }
    1.1  mrg
    1.1  mrg #undef FACTORS_PER_LIMB
    1.1  mrg #undef FACTOR_LIST_STORE