mpn/generic/toom43_mul.c

    1.1  mrg /* mpn_toom43_mul -- Multiply {ap,an} and {bp,bn} where an is nominally 4/3
    1.1  mrg    times as large as bn.  Or more accurately, bn < an < 2 bn.
    1.1  mrg
    1.1  mrg    Contributed to the GNU project by Marco Bodrato.
    1.1  mrg
    1.1  mrg    The idea of applying toom to unbalanced multiplication is due to Marco
    1.1  mrg    Bodrato and Alberto Zanoni.
    1.1  mrg
    1.1  mrg    THE FUNCTION IN THIS FILE IS INTERNAL WITH A MUTABLE INTERFACE.  IT IS ONLY
    1.1  mrg    SAFE TO REACH IT THROUGH DOCUMENTED INTERFACES.  IN FACT, IT IS ALMOST
    1.1  mrg    GUARANTEED THAT IT WILL CHANGE OR DISAPPEAR IN A FUTURE GNU MP RELEASE.
    1.1  mrg
    1.1  mrg Copyright 2009 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg This file is part of the GNU MP Library.
    1.1  mrg
    1.1  mrg The GNU MP Library is free software; you can redistribute it and/or modify
    1.1  mrg it under the terms of the GNU Lesser General Public License as published by
    1.1  mrg the Free Software Foundation; either version 3 of the License, or (at your
    1.1  mrg option) any later version.
    1.1  mrg
    1.1  mrg The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
    1.1  mrg or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
    1.1  mrg License for more details.
    1.1  mrg
    1.1  mrg You should have received a copy of the GNU Lesser General Public License
    1.1  mrg along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
    1.1  mrg
    1.1  mrg
    1.1  mrg #include "gmp.h"
    1.1  mrg #include "gmp-impl.h"
    1.1  mrg
    1.1  mrg /* Evaluate in: -2, -1, 0, +1, +2, +inf
    1.1  mrg
    1.1  mrg   <-s-><--n--><--n--><--n-->
    1.1  mrg    ___ ______ ______ ______
    1.1  mrg   |a3_|___a2_|___a1_|___a0_|
    1.1  mrg 	|_b2_|___b1_|___b0_|
    1.1  mrg 	<-t--><--n--><--n-->
    1.1  mrg
    1.1  mrg   v0  =  a0             * b0          #   A(0)*B(0)
    1.1  mrg   v1  = (a0+ a1+ a2+ a3)*(b0+ b1+ b2) #   A(1)*B(1)      ah  <= 3  bh <= 2
    1.1  mrg   vm1 = (a0- a1+ a2- a3)*(b0- b1+ b2) #  A(-1)*B(-1)    |ah| <= 1 |bh|<= 1
    1.1  mrg   v2  = (a0+2a1+4a2+8a3)*(b0+2b1+4b2) #   A(2)*B(2)      ah  <= 14 bh <= 6
    1.1  mrg   vm2 = (a0-2a1+4a2-8a3)*(b0-2b1+4b2) #  A(-2)*B(-2)    |ah| <= 9 |bh|<= 4
    1.1  mrg   vinf=              a3 *         b2  # A(inf)*B(inf)
    1.1  mrg */
    1.1  mrg
    1.1  mrg void
    1.1  mrg mpn_toom43_mul (mp_ptr pp,
    1.1  mrg 		mp_srcptr ap, mp_size_t an,
    1.1  mrg 		mp_srcptr bp, mp_size_t bn, mp_ptr scratch)
    1.1  mrg {
    1.1  mrg   mp_size_t n, s, t;
    1.1  mrg   enum toom6_flags flags;
    1.1  mrg   mp_limb_t cy;
    1.1  mrg
    1.1  mrg #define a0  ap
    1.1  mrg #define a1  (ap + n)
    1.1  mrg #define a2  (ap + 2 * n)
    1.1  mrg #define a3  (ap + 3 * n)
    1.1  mrg #define b0  bp
    1.1  mrg #define b1  (bp + n)
    1.1  mrg #define b2  (bp + 2 * n)
    1.1  mrg
    1.1  mrg   n = 1 + (3 * an >= 4 * bn ? (an - 1) >> 2 : (bn - 1) / (size_t) 3);
    1.1  mrg
    1.1  mrg   s = an - 3 * n;
    1.1  mrg   t = bn - 2 * n;
    1.1  mrg
    1.1  mrg   ASSERT (0 < s && s <= n);
    1.1  mrg   ASSERT (0 < t && t <= n);
    1.1  mrg
    1.1  mrg   /* This is true whenever an >= 25 or bn >= 19, I think. It
    1.1  mrg      guarantees that we can fit 5 values of size n+1 in the product
    1.1  mrg      area. */
    1.1  mrg   ASSERT (s+t >= 5);
    1.1  mrg
    1.1  mrg #define v0    pp				/* 2n */
    1.1  mrg #define vm1   (scratch)				/* 2n+1 */
    1.1  mrg #define v1    (pp + 2*n)			/* 2n+1 */
    1.1  mrg #define vm2   (scratch + 2 * n + 1)		/* 2n+1 */
    1.1  mrg #define v2    (scratch + 4 * n + 2)		/* 2n+1 */
    1.1  mrg #define vinf  (pp + 5 * n)			/* s+t */
    1.1  mrg #define bs1    pp				/* n+1 */
    1.1  mrg #define bsm1  (scratch + 2 * n + 2)		/* n+1 */
    1.1  mrg #define asm1  (scratch + 3 * n + 3)		/* n+1 */
    1.1  mrg #define asm2  (scratch + 4 * n + 4)		/* n+1 */
    1.1  mrg #define bsm2  (pp + n + 1)			/* n+1 */
    1.1  mrg #define bs2   (pp + 2 * n + 2)			/* n+1 */
    1.1  mrg #define as2   (pp + 3 * n + 3)			/* n+1 */
    1.1  mrg #define as1   (pp + 4 * n + 4)			/* n+1 */
    1.1  mrg
    1.1  mrg   /* Total sccratch need is 6 * n + 3 + 1; we allocate one extra
    1.1  mrg      limb, because products will overwrite 2n+2 limbs. */
    1.1  mrg
    1.1  mrg #define a0a2  scratch
    1.1  mrg #define b0b2  scratch
    1.1  mrg #define a1a3  asm1
    1.1  mrg #define b1d   bsm1
    1.1  mrg
    1.1  mrg   /* Compute as2 and asm2.  */
1.1.1.2  mrg   flags = (enum toom6_flags) (toom6_vm2_neg & mpn_toom_eval_dgr3_pm2 (as2, asm2, ap, n, s, a1a3));
    1.1  mrg
    1.1  mrg   /* Compute bs2 and bsm2.  */
    1.1  mrg   b1d[n] = mpn_lshift (b1d, b1, n, 1);			/*       2b1      */
    1.1  mrg   cy  = mpn_lshift (b0b2, b2, t, 2);			/*  4b2           */
    1.1  mrg   cy += mpn_add_n (b0b2, b0b2, b0, t);			/*  4b2      + b0 */
    1.1  mrg   if (t != n)
    1.1  mrg     cy = mpn_add_1 (b0b2 + t, b0 + t, n - t, cy);
    1.1  mrg   b0b2[n] = cy;
    1.1  mrg
    1.1  mrg #if HAVE_NATIVE_mpn_add_n_sub_n
    1.1  mrg   if (mpn_cmp (b0b2, b1d, n+1) < 0)
    1.1  mrg     {
    1.1  mrg       mpn_add_n_sub_n (bs2, bsm2, b1d, b0b2, n+1);
1.1.1.2  mrg       flags = (enum toom6_flags) (flags ^ toom6_vm2_neg);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       mpn_add_n_sub_n (bs2, bsm2, b0b2, b1d, n+1);
    1.1  mrg     }
    1.1  mrg #else
    1.1  mrg   mpn_add_n (bs2, b0b2, b1d, n+1);
    1.1  mrg   if (mpn_cmp (b0b2, b1d, n+1) < 0)
    1.1  mrg     {
    1.1  mrg       mpn_sub_n (bsm2, b1d, b0b2, n+1);
1.1.1.2  mrg       flags = (enum toom6_flags) (flags ^ toom6_vm2_neg);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       mpn_sub_n (bsm2, b0b2, b1d, n+1);
    1.1  mrg     }
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg   /* Compute as1 and asm1.  */
1.1.1.2  mrg   flags = (enum toom6_flags) (flags ^ toom6_vm1_neg & mpn_toom_eval_dgr3_pm1 (as1, asm1, ap, n, s, a0a2));
    1.1  mrg
    1.1  mrg   /* Compute bs1 and bsm1.  */
    1.1  mrg   bsm1[n] = mpn_add (bsm1, b0, n, b2, t);
    1.1  mrg #if HAVE_NATIVE_mpn_add_n_sub_n
    1.1  mrg   if (bsm1[n] == 0 && mpn_cmp (bsm1, b1, n) < 0)
    1.1  mrg     {
    1.1  mrg       cy = mpn_add_n_sub_n (bs1, bsm1, b1, bsm1, n);
    1.1  mrg       bs1[n] = cy >> 1;
1.1.1.2  mrg       flags = (enum toom6_flags) (flags ^ toom6_vm1_neg);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       cy = mpn_add_n_sub_n (bs1, bsm1, bsm1, b1, n);
    1.1  mrg       bs1[n] = bsm1[n] + (cy >> 1);
    1.1  mrg       bsm1[n]-= cy & 1;
    1.1  mrg     }
    1.1  mrg #else
    1.1  mrg   bs1[n] = bsm1[n] + mpn_add_n (bs1, bsm1, b1, n);
    1.1  mrg   if (bsm1[n] == 0 && mpn_cmp (bsm1, b1, n) < 0)
    1.1  mrg     {
    1.1  mrg       mpn_sub_n (bsm1, b1, bsm1, n);
1.1.1.2  mrg       flags = (enum toom6_flags) (flags ^ toom6_vm1_neg);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       bsm1[n] -= mpn_sub_n (bsm1, bsm1, b1, n);
    1.1  mrg     }
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg   ASSERT (as1[n] <= 3);
    1.1  mrg   ASSERT (bs1[n] <= 2);
    1.1  mrg   ASSERT (asm1[n] <= 1);
    1.1  mrg   ASSERT (bsm1[n] <= 1);
    1.1  mrg   ASSERT (as2[n] <=14);
    1.1  mrg   ASSERT (bs2[n] <= 6);
    1.1  mrg   ASSERT (asm2[n] <= 9);
    1.1  mrg   ASSERT (bsm2[n] <= 4);
    1.1  mrg
    1.1  mrg   /* vm1, 2n+1 limbs */
    1.1  mrg   mpn_mul_n (vm1, asm1, bsm1, n+1);  /* W4 */
    1.1  mrg
    1.1  mrg   /* vm2, 2n+1 limbs */
    1.1  mrg   mpn_mul_n (vm2, asm2, bsm2, n+1);  /* W2 */
    1.1  mrg
    1.1  mrg   /* v2, 2n+1 limbs */
    1.1  mrg   mpn_mul_n (v2, as2, bs2, n+1);  /* W1 */
    1.1  mrg
    1.1  mrg   /* v1, 2n+1 limbs */
    1.1  mrg   mpn_mul_n (v1, as1, bs1, n+1);  /* W3 */
    1.1  mrg
    1.1  mrg   /* vinf, s+t limbs */   /* W0 */
    1.1  mrg   if (s > t)  mpn_mul (vinf, a3, s, b2, t);
    1.1  mrg   else        mpn_mul (vinf, b2, t, a3, s);
    1.1  mrg
    1.1  mrg   /* v0, 2n limbs */
    1.1  mrg   mpn_mul_n (v0, ap, bp, n);  /* W5 */
    1.1  mrg
    1.1  mrg   mpn_toom_interpolate_6pts (pp, n, flags, vm1, vm2, v2, t + s);
    1.1  mrg
    1.1  mrg #undef v0
    1.1  mrg #undef vm1
    1.1  mrg #undef v1
    1.1  mrg #undef vm2
    1.1  mrg #undef v2
    1.1  mrg #undef vinf
    1.1  mrg #undef bs1
    1.1  mrg #undef bs2
    1.1  mrg #undef bsm1
    1.1  mrg #undef bsm2
    1.1  mrg #undef asm1
    1.1  mrg #undef asm2
    1.1  mrg /* #undef as1 */
    1.1  mrg /* #undef as2 */
    1.1  mrg #undef a0a2
    1.1  mrg #undef b0b2
    1.1  mrg #undef a1a3
    1.1  mrg #undef b1d
    1.1  mrg #undef a0
    1.1  mrg #undef a1
    1.1  mrg #undef a2
    1.1  mrg #undef a3
    1.1  mrg #undef b0
    1.1  mrg #undef b1
    1.1  mrg #undef b2
    1.1  mrg }