libgfortran/generated/matmulavx128_r10.c

    1.1  mrg /* Implementation of the MATMUL intrinsic
1.1.1.4  mrg    Copyright (C) 2002-2024 Free Software Foundation, Inc.
    1.1  mrg    Contributed by Thomas Koenig <tkoenig (at) gcc.gnu.org>.
    1.1  mrg
    1.1  mrg This file is part of the GNU Fortran runtime library (libgfortran).
    1.1  mrg
    1.1  mrg Libgfortran is free software; you can redistribute it and/or
    1.1  mrg modify it under the terms of the GNU General Public
    1.1  mrg License as published by the Free Software Foundation; either
    1.1  mrg version 3 of the License, or (at your option) any later version.
    1.1  mrg
    1.1  mrg Libgfortran is distributed in the hope that it will be useful,
    1.1  mrg but WITHOUT ANY WARRANTY; without even the implied warranty of
    1.1  mrg MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
    1.1  mrg GNU General Public License for more details.
    1.1  mrg
    1.1  mrg Under Section 7 of GPL version 3, you are granted additional
    1.1  mrg permissions described in the GCC Runtime Library Exception, version
    1.1  mrg 3.1, as published by the Free Software Foundation.
    1.1  mrg
    1.1  mrg You should have received a copy of the GNU General Public License and
    1.1  mrg a copy of the GCC Runtime Library Exception along with this program;
    1.1  mrg see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
    1.1  mrg <http://www.gnu.org/licenses/>.  */
    1.1  mrg
    1.1  mrg #include "libgfortran.h"
    1.1  mrg #include <string.h>
    1.1  mrg #include <assert.h>
    1.1  mrg
    1.1  mrg
    1.1  mrg /* These are the specific versions of matmul with -mprefer-avx128.  */
    1.1  mrg
    1.1  mrg #if defined (HAVE_GFC_REAL_10)
    1.1  mrg
    1.1  mrg /* Prototype for the BLAS ?gemm subroutine, a pointer to which can be
    1.1  mrg    passed to us by the front-end, in which case we call it for large
    1.1  mrg    matrices.  */
    1.1  mrg
    1.1  mrg typedef void (*blas_call)(const char *, const char *, const int *, const int *,
    1.1  mrg                           const int *, const GFC_REAL_10 *, const GFC_REAL_10 *,
    1.1  mrg                           const int *, const GFC_REAL_10 *, const int *,
    1.1  mrg                           const GFC_REAL_10 *, GFC_REAL_10 *, const int *,
    1.1  mrg                           int, int);
    1.1  mrg
    1.1  mrg #if defined(HAVE_AVX) && defined(HAVE_FMA3) && defined(HAVE_AVX128)
    1.1  mrg void
    1.1  mrg matmul_r10_avx128_fma3 (gfc_array_r10 * const restrict retarray,
    1.1  mrg 	gfc_array_r10 * const restrict a, gfc_array_r10 * const restrict b, int try_blas,
    1.1  mrg 	int blas_limit, blas_call gemm) __attribute__((__target__("avx,fma")));
    1.1  mrg internal_proto(matmul_r10_avx128_fma3);
    1.1  mrg void
    1.1  mrg matmul_r10_avx128_fma3 (gfc_array_r10 * const restrict retarray,
    1.1  mrg 	gfc_array_r10 * const restrict a, gfc_array_r10 * const restrict b, int try_blas,
    1.1  mrg 	int blas_limit, blas_call gemm)
    1.1  mrg {
    1.1  mrg   const GFC_REAL_10 * restrict abase;
    1.1  mrg   const GFC_REAL_10 * restrict bbase;
    1.1  mrg   GFC_REAL_10 * restrict dest;
    1.1  mrg
    1.1  mrg   index_type rxstride, rystride, axstride, aystride, bxstride, bystride;
    1.1  mrg   index_type x, y, n, count, xcount, ycount;
    1.1  mrg
    1.1  mrg   assert (GFC_DESCRIPTOR_RANK (a) == 2
    1.1  mrg           || GFC_DESCRIPTOR_RANK (b) == 2);
    1.1  mrg
    1.1  mrg /* C[xcount,ycount] = A[xcount, count] * B[count,ycount]
    1.1  mrg
    1.1  mrg    Either A or B (but not both) can be rank 1:
    1.1  mrg
    1.1  mrg    o One-dimensional argument A is implicitly treated as a row matrix
    1.1  mrg      dimensioned [1,count], so xcount=1.
    1.1  mrg
    1.1  mrg    o One-dimensional argument B is implicitly treated as a column matrix
    1.1  mrg      dimensioned [count, 1], so ycount=1.
    1.1  mrg */
    1.1  mrg
    1.1  mrg   if (retarray->base_addr == NULL)
    1.1  mrg     {
    1.1  mrg       if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg         {
    1.1  mrg 	  GFC_DIMENSION_SET(retarray->dim[0], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(b,1) - 1, 1);
    1.1  mrg         }
    1.1  mrg       else if (GFC_DESCRIPTOR_RANK (b) == 1)
    1.1  mrg         {
    1.1  mrg 	  GFC_DIMENSION_SET(retarray->dim[0], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(a,0) - 1, 1);
    1.1  mrg         }
    1.1  mrg       else
    1.1  mrg         {
    1.1  mrg 	  GFC_DIMENSION_SET(retarray->dim[0], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(a,0) - 1, 1);
    1.1  mrg
    1.1  mrg           GFC_DIMENSION_SET(retarray->dim[1], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(b,1) - 1,
    1.1  mrg 			    GFC_DESCRIPTOR_EXTENT(retarray,0));
    1.1  mrg         }
    1.1  mrg
    1.1  mrg       retarray->base_addr
    1.1  mrg 	= xmallocarray (size0 ((array_t *) retarray), sizeof (GFC_REAL_10));
    1.1  mrg       retarray->offset = 0;
    1.1  mrg     }
    1.1  mrg   else if (unlikely (compile_options.bounds_check))
    1.1  mrg     {
    1.1  mrg       index_type ret_extent, arg_extent;
    1.1  mrg
    1.1  mrg       if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg 	{
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(b,1);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,0);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 1 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg 	}
    1.1  mrg       else if (GFC_DESCRIPTOR_RANK (b) == 1)
    1.1  mrg 	{
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,0);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 1 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg 	}
    1.1  mrg       else
    1.1  mrg 	{
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,0);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 1 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(b,1);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,1);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 2 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg
    1.1  mrg
    1.1  mrg   if (GFC_DESCRIPTOR_RANK (retarray) == 1)
    1.1  mrg     {
    1.1  mrg       /* One-dimensional result may be addressed in the code below
    1.1  mrg 	 either as a row or a column matrix. We want both cases to
    1.1  mrg 	 work. */
    1.1  mrg       rxstride = rystride = GFC_DESCRIPTOR_STRIDE(retarray,0);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       rxstride = GFC_DESCRIPTOR_STRIDE(retarray,0);
    1.1  mrg       rystride = GFC_DESCRIPTOR_STRIDE(retarray,1);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg
    1.1  mrg   if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg     {
    1.1  mrg       /* Treat it as a a row matrix A[1,count]. */
    1.1  mrg       axstride = GFC_DESCRIPTOR_STRIDE(a,0);
    1.1  mrg       aystride = 1;
    1.1  mrg
    1.1  mrg       xcount = 1;
    1.1  mrg       count = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       axstride = GFC_DESCRIPTOR_STRIDE(a,0);
    1.1  mrg       aystride = GFC_DESCRIPTOR_STRIDE(a,1);
    1.1  mrg
    1.1  mrg       count = GFC_DESCRIPTOR_EXTENT(a,1);
    1.1  mrg       xcount = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   if (count != GFC_DESCRIPTOR_EXTENT(b,0))
    1.1  mrg     {
    1.1  mrg       if (count > 0 || GFC_DESCRIPTOR_EXTENT(b,0) > 0)
    1.1  mrg 	runtime_error ("Incorrect extent in argument B in MATMUL intrinsic "
    1.1  mrg 		       "in dimension 1: is %ld, should be %ld",
    1.1  mrg 		       (long int) GFC_DESCRIPTOR_EXTENT(b,0), (long int) count);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   if (GFC_DESCRIPTOR_RANK (b) == 1)
    1.1  mrg     {
    1.1  mrg       /* Treat it as a column matrix B[count,1] */
    1.1  mrg       bxstride = GFC_DESCRIPTOR_STRIDE(b,0);
    1.1  mrg
    1.1  mrg       /* bystride should never be used for 1-dimensional b.
    1.1  mrg          The value is only used for calculation of the
    1.1  mrg          memory by the buffer.  */
    1.1  mrg       bystride = 256;
    1.1  mrg       ycount = 1;
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       bxstride = GFC_DESCRIPTOR_STRIDE(b,0);
    1.1  mrg       bystride = GFC_DESCRIPTOR_STRIDE(b,1);
    1.1  mrg       ycount = GFC_DESCRIPTOR_EXTENT(b,1);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   abase = a->base_addr;
    1.1  mrg   bbase = b->base_addr;
    1.1  mrg   dest = retarray->base_addr;
    1.1  mrg
    1.1  mrg   /* Now that everything is set up, we perform the multiplication
    1.1  mrg      itself.  */
    1.1  mrg
    1.1  mrg #define POW3(x) (((float) (x)) * ((float) (x)) * ((float) (x)))
    1.1  mrg #define min(a,b) ((a) <= (b) ? (a) : (b))
    1.1  mrg #define max(a,b) ((a) >= (b) ? (a) : (b))
    1.1  mrg
    1.1  mrg   if (try_blas && rxstride == 1 && (axstride == 1 || aystride == 1)
    1.1  mrg       && (bxstride == 1 || bystride == 1)
    1.1  mrg       && (((float) xcount) * ((float) ycount) * ((float) count)
    1.1  mrg           > POW3(blas_limit)))
    1.1  mrg     {
    1.1  mrg       const int m = xcount, n = ycount, k = count, ldc = rystride;
    1.1  mrg       const GFC_REAL_10 one = 1, zero = 0;
    1.1  mrg       const int lda = (axstride == 1) ? aystride : axstride,
    1.1  mrg 		ldb = (bxstride == 1) ? bystride : bxstride;
    1.1  mrg
    1.1  mrg       if (lda > 0 && ldb > 0 && ldc > 0 && m > 1 && n > 1 && k > 1)
    1.1  mrg 	{
    1.1  mrg 	  assert (gemm != NULL);
    1.1  mrg 	  const char *transa, *transb;
    1.1  mrg 	  if (try_blas & 2)
    1.1  mrg 	    transa = "C";
    1.1  mrg 	  else
    1.1  mrg 	    transa = axstride == 1 ? "N" : "T";
    1.1  mrg
    1.1  mrg 	  if (try_blas & 4)
    1.1  mrg 	    transb = "C";
    1.1  mrg 	  else
    1.1  mrg 	    transb = bxstride == 1 ? "N" : "T";
    1.1  mrg
    1.1  mrg 	  gemm (transa, transb , &m,
    1.1  mrg 		&n, &k,	&one, abase, &lda, bbase, &ldb, &zero, dest,
    1.1  mrg 		&ldc, 1, 1);
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg
1.1.1.2  mrg   if (rxstride == 1 && axstride == 1 && bxstride == 1
1.1.1.2  mrg       && GFC_DESCRIPTOR_RANK (b) != 1)
    1.1  mrg     {
    1.1  mrg       /* This block of code implements a tuned matmul, derived from
    1.1  mrg          Superscalar GEMM-based level 3 BLAS,  Beta version 0.1
    1.1  mrg
    1.1  mrg                Bo Kagstrom and Per Ling
    1.1  mrg                Department of Computing Science
    1.1  mrg                Umea University
    1.1  mrg                S-901 87 Umea, Sweden
    1.1  mrg
    1.1  mrg 	 from netlib.org, translated to C, and modified for matmul.m4.  */
    1.1  mrg
    1.1  mrg       const GFC_REAL_10 *a, *b;
    1.1  mrg       GFC_REAL_10 *c;
    1.1  mrg       const index_type m = xcount, n = ycount, k = count;
    1.1  mrg
    1.1  mrg       /* System generated locals */
    1.1  mrg       index_type a_dim1, a_offset, b_dim1, b_offset, c_dim1, c_offset,
    1.1  mrg 		 i1, i2, i3, i4, i5, i6;
    1.1  mrg
    1.1  mrg       /* Local variables */
    1.1  mrg       GFC_REAL_10 f11, f12, f21, f22, f31, f32, f41, f42,
    1.1  mrg 		 f13, f14, f23, f24, f33, f34, f43, f44;
    1.1  mrg       index_type i, j, l, ii, jj, ll;
    1.1  mrg       index_type isec, jsec, lsec, uisec, ujsec, ulsec;
    1.1  mrg       GFC_REAL_10 *t1;
    1.1  mrg
    1.1  mrg       a = abase;
    1.1  mrg       b = bbase;
    1.1  mrg       c = retarray->base_addr;
    1.1  mrg
    1.1  mrg       /* Parameter adjustments */
    1.1  mrg       c_dim1 = rystride;
    1.1  mrg       c_offset = 1 + c_dim1;
    1.1  mrg       c -= c_offset;
    1.1  mrg       a_dim1 = aystride;
    1.1  mrg       a_offset = 1 + a_dim1;
    1.1  mrg       a -= a_offset;
    1.1  mrg       b_dim1 = bystride;
    1.1  mrg       b_offset = 1 + b_dim1;
    1.1  mrg       b -= b_offset;
    1.1  mrg
    1.1  mrg       /* Empty c first.  */
    1.1  mrg       for (j=1; j<=n; j++)
    1.1  mrg 	for (i=1; i<=m; i++)
    1.1  mrg 	  c[i + j * c_dim1] = (GFC_REAL_10)0;
    1.1  mrg
    1.1  mrg       /* Early exit if possible */
    1.1  mrg       if (m == 0 || n == 0 || k == 0)
    1.1  mrg 	return;
    1.1  mrg
    1.1  mrg       /* Adjust size of t1 to what is needed.  */
    1.1  mrg       index_type t1_dim, a_sz;
    1.1  mrg       if (aystride == 1)
    1.1  mrg         a_sz = rystride;
    1.1  mrg       else
    1.1  mrg         a_sz = a_dim1;
    1.1  mrg
    1.1  mrg       t1_dim = a_sz * 256 + b_dim1;
    1.1  mrg       if (t1_dim > 65536)
    1.1  mrg 	t1_dim = 65536;
    1.1  mrg
    1.1  mrg       t1 = malloc (t1_dim * sizeof(GFC_REAL_10));
    1.1  mrg
    1.1  mrg       /* Start turning the crank. */
    1.1  mrg       i1 = n;
    1.1  mrg       for (jj = 1; jj <= i1; jj += 512)
    1.1  mrg 	{
    1.1  mrg 	  /* Computing MIN */
    1.1  mrg 	  i2 = 512;
    1.1  mrg 	  i3 = n - jj + 1;
    1.1  mrg 	  jsec = min(i2,i3);
    1.1  mrg 	  ujsec = jsec - jsec % 4;
    1.1  mrg 	  i2 = k;
    1.1  mrg 	  for (ll = 1; ll <= i2; ll += 256)
    1.1  mrg 	    {
    1.1  mrg 	      /* Computing MIN */
    1.1  mrg 	      i3 = 256;
    1.1  mrg 	      i4 = k - ll + 1;
    1.1  mrg 	      lsec = min(i3,i4);
    1.1  mrg 	      ulsec = lsec - lsec % 2;
    1.1  mrg
    1.1  mrg 	      i3 = m;
    1.1  mrg 	      for (ii = 1; ii <= i3; ii += 256)
    1.1  mrg 		{
    1.1  mrg 		  /* Computing MIN */
    1.1  mrg 		  i4 = 256;
    1.1  mrg 		  i5 = m - ii + 1;
    1.1  mrg 		  isec = min(i4,i5);
    1.1  mrg 		  uisec = isec - isec % 2;
    1.1  mrg 		  i4 = ll + ulsec - 1;
    1.1  mrg 		  for (l = ll; l <= i4; l += 2)
    1.1  mrg 		    {
    1.1  mrg 		      i5 = ii + uisec - 1;
    1.1  mrg 		      for (i = ii; i <= i5; i += 2)
    1.1  mrg 			{
    1.1  mrg 			  t1[l - ll + 1 + ((i - ii + 1) << 8) - 257] =
    1.1  mrg 					a[i + l * a_dim1];
    1.1  mrg 			  t1[l - ll + 2 + ((i - ii + 1) << 8) - 257] =
    1.1  mrg 					a[i + (l + 1) * a_dim1];
    1.1  mrg 			  t1[l - ll + 1 + ((i - ii + 2) << 8) - 257] =
    1.1  mrg 					a[i + 1 + l * a_dim1];
    1.1  mrg 			  t1[l - ll + 2 + ((i - ii + 2) << 8) - 257] =
    1.1  mrg 					a[i + 1 + (l + 1) * a_dim1];
    1.1  mrg 			}
    1.1  mrg 		      if (uisec < isec)
    1.1  mrg 			{
    1.1  mrg 			  t1[l - ll + 1 + (isec << 8) - 257] =
    1.1  mrg 				    a[ii + isec - 1 + l * a_dim1];
    1.1  mrg 			  t1[l - ll + 2 + (isec << 8) - 257] =
    1.1  mrg 				    a[ii + isec - 1 + (l + 1) * a_dim1];
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg 		  if (ulsec < lsec)
    1.1  mrg 		    {
    1.1  mrg 		      i4 = ii + isec - 1;
    1.1  mrg 		      for (i = ii; i<= i4; ++i)
    1.1  mrg 			{
    1.1  mrg 			  t1[lsec + ((i - ii + 1) << 8) - 257] =
    1.1  mrg 				    a[i + (ll + lsec - 1) * a_dim1];
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg
    1.1  mrg 		  uisec = isec - isec % 4;
    1.1  mrg 		  i4 = jj + ujsec - 1;
    1.1  mrg 		  for (j = jj; j <= i4; j += 4)
    1.1  mrg 		    {
    1.1  mrg 		      i5 = ii + uisec - 1;
    1.1  mrg 		      for (i = ii; i <= i5; i += 4)
    1.1  mrg 			{
    1.1  mrg 			  f11 = c[i + j * c_dim1];
    1.1  mrg 			  f21 = c[i + 1 + j * c_dim1];
    1.1  mrg 			  f12 = c[i + (j + 1) * c_dim1];
    1.1  mrg 			  f22 = c[i + 1 + (j + 1) * c_dim1];
    1.1  mrg 			  f13 = c[i + (j + 2) * c_dim1];
    1.1  mrg 			  f23 = c[i + 1 + (j + 2) * c_dim1];
    1.1  mrg 			  f14 = c[i + (j + 3) * c_dim1];
    1.1  mrg 			  f24 = c[i + 1 + (j + 3) * c_dim1];
    1.1  mrg 			  f31 = c[i + 2 + j * c_dim1];
    1.1  mrg 			  f41 = c[i + 3 + j * c_dim1];
    1.1  mrg 			  f32 = c[i + 2 + (j + 1) * c_dim1];
    1.1  mrg 			  f42 = c[i + 3 + (j + 1) * c_dim1];
    1.1  mrg 			  f33 = c[i + 2 + (j + 2) * c_dim1];
    1.1  mrg 			  f43 = c[i + 3 + (j + 2) * c_dim1];
    1.1  mrg 			  f34 = c[i + 2 + (j + 3) * c_dim1];
    1.1  mrg 			  f44 = c[i + 3 + (j + 3) * c_dim1];
    1.1  mrg 			  i6 = ll + lsec - 1;
    1.1  mrg 			  for (l = ll; l <= i6; ++l)
    1.1  mrg 			    {
    1.1  mrg 			      f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f21 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f12 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f22 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f13 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f23 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f14 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			      f24 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			      f31 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f41 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f32 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f42 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f33 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f43 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f34 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			      f44 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			    }
    1.1  mrg 			  c[i + j * c_dim1] = f11;
    1.1  mrg 			  c[i + 1 + j * c_dim1] = f21;
    1.1  mrg 			  c[i + (j + 1) * c_dim1] = f12;
    1.1  mrg 			  c[i + 1 + (j + 1) * c_dim1] = f22;
    1.1  mrg 			  c[i + (j + 2) * c_dim1] = f13;
    1.1  mrg 			  c[i + 1 + (j + 2) * c_dim1] = f23;
    1.1  mrg 			  c[i + (j + 3) * c_dim1] = f14;
    1.1  mrg 			  c[i + 1 + (j + 3) * c_dim1] = f24;
    1.1  mrg 			  c[i + 2 + j * c_dim1] = f31;
    1.1  mrg 			  c[i + 3 + j * c_dim1] = f41;
    1.1  mrg 			  c[i + 2 + (j + 1) * c_dim1] = f32;
    1.1  mrg 			  c[i + 3 + (j + 1) * c_dim1] = f42;
    1.1  mrg 			  c[i + 2 + (j + 2) * c_dim1] = f33;
    1.1  mrg 			  c[i + 3 + (j + 2) * c_dim1] = f43;
    1.1  mrg 			  c[i + 2 + (j + 3) * c_dim1] = f34;
    1.1  mrg 			  c[i + 3 + (j + 3) * c_dim1] = f44;
    1.1  mrg 			}
    1.1  mrg 		      if (uisec < isec)
    1.1  mrg 			{
    1.1  mrg 			  i5 = ii + isec - 1;
    1.1  mrg 			  for (i = ii + uisec; i <= i5; ++i)
    1.1  mrg 			    {
    1.1  mrg 			      f11 = c[i + j * c_dim1];
    1.1  mrg 			      f12 = c[i + (j + 1) * c_dim1];
    1.1  mrg 			      f13 = c[i + (j + 2) * c_dim1];
    1.1  mrg 			      f14 = c[i + (j + 3) * c_dim1];
    1.1  mrg 			      i6 = ll + lsec - 1;
    1.1  mrg 			      for (l = ll; l <= i6; ++l)
    1.1  mrg 				{
    1.1  mrg 				  f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f12 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + (j + 1) * b_dim1];
    1.1  mrg 				  f13 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + (j + 2) * b_dim1];
    1.1  mrg 				  f14 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + (j + 3) * b_dim1];
    1.1  mrg 				}
    1.1  mrg 			      c[i + j * c_dim1] = f11;
    1.1  mrg 			      c[i + (j + 1) * c_dim1] = f12;
    1.1  mrg 			      c[i + (j + 2) * c_dim1] = f13;
    1.1  mrg 			      c[i + (j + 3) * c_dim1] = f14;
    1.1  mrg 			    }
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg 		  if (ujsec < jsec)
    1.1  mrg 		    {
    1.1  mrg 		      i4 = jj + jsec - 1;
    1.1  mrg 		      for (j = jj + ujsec; j <= i4; ++j)
    1.1  mrg 			{
    1.1  mrg 			  i5 = ii + uisec - 1;
    1.1  mrg 			  for (i = ii; i <= i5; i += 4)
    1.1  mrg 			    {
    1.1  mrg 			      f11 = c[i + j * c_dim1];
    1.1  mrg 			      f21 = c[i + 1 + j * c_dim1];
    1.1  mrg 			      f31 = c[i + 2 + j * c_dim1];
    1.1  mrg 			      f41 = c[i + 3 + j * c_dim1];
    1.1  mrg 			      i6 = ll + lsec - 1;
    1.1  mrg 			      for (l = ll; l <= i6; ++l)
    1.1  mrg 				{
    1.1  mrg 				  f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f21 += t1[l - ll + 1 + ((i - ii + 2) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f31 += t1[l - ll + 1 + ((i - ii + 3) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f41 += t1[l - ll + 1 + ((i - ii + 4) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				}
    1.1  mrg 			      c[i + j * c_dim1] = f11;
    1.1  mrg 			      c[i + 1 + j * c_dim1] = f21;
    1.1  mrg 			      c[i + 2 + j * c_dim1] = f31;
    1.1  mrg 			      c[i + 3 + j * c_dim1] = f41;
    1.1  mrg 			    }
    1.1  mrg 			  i5 = ii + isec - 1;
    1.1  mrg 			  for (i = ii + uisec; i <= i5; ++i)
    1.1  mrg 			    {
    1.1  mrg 			      f11 = c[i + j * c_dim1];
    1.1  mrg 			      i6 = ll + lsec - 1;
    1.1  mrg 			      for (l = ll; l <= i6; ++l)
    1.1  mrg 				{
    1.1  mrg 				  f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				}
    1.1  mrg 			      c[i + j * c_dim1] = f11;
    1.1  mrg 			    }
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg 		}
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg       free(t1);
    1.1  mrg       return;
    1.1  mrg     }
    1.1  mrg   else if (rxstride == 1 && aystride == 1 && bxstride == 1)
    1.1  mrg     {
    1.1  mrg       if (GFC_DESCRIPTOR_RANK (a) != 1)
    1.1  mrg 	{
    1.1  mrg 	  const GFC_REAL_10 *restrict abase_x;
    1.1  mrg 	  const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg 	  GFC_REAL_10 *restrict dest_y;
    1.1  mrg 	  GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg 	  for (y = 0; y < ycount; y++)
    1.1  mrg 	    {
    1.1  mrg 	      bbase_y = &bbase[y*bystride];
    1.1  mrg 	      dest_y = &dest[y*rystride];
    1.1  mrg 	      for (x = 0; x < xcount; x++)
    1.1  mrg 		{
    1.1  mrg 		  abase_x = &abase[x*axstride];
    1.1  mrg 		  s = (GFC_REAL_10) 0;
    1.1  mrg 		  for (n = 0; n < count; n++)
    1.1  mrg 		    s += abase_x[n] * bbase_y[n];
    1.1  mrg 		  dest_y[x] = s;
    1.1  mrg 		}
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg       else
    1.1  mrg 	{
    1.1  mrg 	  const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg 	  GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg 	  for (y = 0; y < ycount; y++)
    1.1  mrg 	    {
    1.1  mrg 	      bbase_y = &bbase[y*bystride];
    1.1  mrg 	      s = (GFC_REAL_10) 0;
    1.1  mrg 	      for (n = 0; n < count; n++)
    1.1  mrg 		s += abase[n*axstride] * bbase_y[n];
    1.1  mrg 	      dest[y*rystride] = s;
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg   else if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg     {
    1.1  mrg       const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg       GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg       for (y = 0; y < ycount; y++)
    1.1  mrg 	{
    1.1  mrg 	  bbase_y = &bbase[y*bystride];
    1.1  mrg 	  s = (GFC_REAL_10) 0;
    1.1  mrg 	  for (n = 0; n < count; n++)
    1.1  mrg 	    s += abase[n*axstride] * bbase_y[n*bxstride];
    1.1  mrg 	  dest[y*rxstride] = s;
    1.1  mrg 	}
    1.1  mrg     }
1.1.1.2  mrg   else if (axstride < aystride)
1.1.1.2  mrg     {
1.1.1.2  mrg       for (y = 0; y < ycount; y++)
1.1.1.2  mrg 	for (x = 0; x < xcount; x++)
1.1.1.2  mrg 	  dest[x*rxstride + y*rystride] = (GFC_REAL_10)0;
1.1.1.2  mrg
1.1.1.2  mrg       for (y = 0; y < ycount; y++)
1.1.1.2  mrg 	for (n = 0; n < count; n++)
1.1.1.2  mrg 	  for (x = 0; x < xcount; x++)
1.1.1.2  mrg 	    /* dest[x,y] += a[x,n] * b[n,y] */
1.1.1.2  mrg 	    dest[x*rxstride + y*rystride] +=
1.1.1.2  mrg 					abase[x*axstride + n*aystride] *
1.1.1.2  mrg 					bbase[n*bxstride + y*bystride];
1.1.1.2  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       const GFC_REAL_10 *restrict abase_x;
    1.1  mrg       const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg       GFC_REAL_10 *restrict dest_y;
    1.1  mrg       GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg       for (y = 0; y < ycount; y++)
    1.1  mrg 	{
    1.1  mrg 	  bbase_y = &bbase[y*bystride];
    1.1  mrg 	  dest_y = &dest[y*rystride];
    1.1  mrg 	  for (x = 0; x < xcount; x++)
    1.1  mrg 	    {
    1.1  mrg 	      abase_x = &abase[x*axstride];
    1.1  mrg 	      s = (GFC_REAL_10) 0;
    1.1  mrg 	      for (n = 0; n < count; n++)
    1.1  mrg 		s += abase_x[n*aystride] * bbase_y[n*bxstride];
    1.1  mrg 	      dest_y[x*rxstride] = s;
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg }
    1.1  mrg #undef POW3
    1.1  mrg #undef min
    1.1  mrg #undef max
    1.1  mrg
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg #if defined(HAVE_AVX) && defined(HAVE_FMA4) && defined(HAVE_AVX128)
    1.1  mrg void
    1.1  mrg matmul_r10_avx128_fma4 (gfc_array_r10 * const restrict retarray,
    1.1  mrg 	gfc_array_r10 * const restrict a, gfc_array_r10 * const restrict b, int try_blas,
    1.1  mrg 	int blas_limit, blas_call gemm) __attribute__((__target__("avx,fma4")));
    1.1  mrg internal_proto(matmul_r10_avx128_fma4);
    1.1  mrg void
    1.1  mrg matmul_r10_avx128_fma4 (gfc_array_r10 * const restrict retarray,
    1.1  mrg 	gfc_array_r10 * const restrict a, gfc_array_r10 * const restrict b, int try_blas,
    1.1  mrg 	int blas_limit, blas_call gemm)
    1.1  mrg {
    1.1  mrg   const GFC_REAL_10 * restrict abase;
    1.1  mrg   const GFC_REAL_10 * restrict bbase;
    1.1  mrg   GFC_REAL_10 * restrict dest;
    1.1  mrg
    1.1  mrg   index_type rxstride, rystride, axstride, aystride, bxstride, bystride;
    1.1  mrg   index_type x, y, n, count, xcount, ycount;
    1.1  mrg
    1.1  mrg   assert (GFC_DESCRIPTOR_RANK (a) == 2
    1.1  mrg           || GFC_DESCRIPTOR_RANK (b) == 2);
    1.1  mrg
    1.1  mrg /* C[xcount,ycount] = A[xcount, count] * B[count,ycount]
    1.1  mrg
    1.1  mrg    Either A or B (but not both) can be rank 1:
    1.1  mrg
    1.1  mrg    o One-dimensional argument A is implicitly treated as a row matrix
    1.1  mrg      dimensioned [1,count], so xcount=1.
    1.1  mrg
    1.1  mrg    o One-dimensional argument B is implicitly treated as a column matrix
    1.1  mrg      dimensioned [count, 1], so ycount=1.
    1.1  mrg */
    1.1  mrg
    1.1  mrg   if (retarray->base_addr == NULL)
    1.1  mrg     {
    1.1  mrg       if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg         {
    1.1  mrg 	  GFC_DIMENSION_SET(retarray->dim[0], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(b,1) - 1, 1);
    1.1  mrg         }
    1.1  mrg       else if (GFC_DESCRIPTOR_RANK (b) == 1)
    1.1  mrg         {
    1.1  mrg 	  GFC_DIMENSION_SET(retarray->dim[0], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(a,0) - 1, 1);
    1.1  mrg         }
    1.1  mrg       else
    1.1  mrg         {
    1.1  mrg 	  GFC_DIMENSION_SET(retarray->dim[0], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(a,0) - 1, 1);
    1.1  mrg
    1.1  mrg           GFC_DIMENSION_SET(retarray->dim[1], 0,
    1.1  mrg 	                    GFC_DESCRIPTOR_EXTENT(b,1) - 1,
    1.1  mrg 			    GFC_DESCRIPTOR_EXTENT(retarray,0));
    1.1  mrg         }
    1.1  mrg
    1.1  mrg       retarray->base_addr
    1.1  mrg 	= xmallocarray (size0 ((array_t *) retarray), sizeof (GFC_REAL_10));
    1.1  mrg       retarray->offset = 0;
    1.1  mrg     }
    1.1  mrg   else if (unlikely (compile_options.bounds_check))
    1.1  mrg     {
    1.1  mrg       index_type ret_extent, arg_extent;
    1.1  mrg
    1.1  mrg       if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg 	{
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(b,1);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,0);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 1 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg 	}
    1.1  mrg       else if (GFC_DESCRIPTOR_RANK (b) == 1)
    1.1  mrg 	{
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,0);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 1 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg 	}
    1.1  mrg       else
    1.1  mrg 	{
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,0);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 1 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg
    1.1  mrg 	  arg_extent = GFC_DESCRIPTOR_EXTENT(b,1);
    1.1  mrg 	  ret_extent = GFC_DESCRIPTOR_EXTENT(retarray,1);
    1.1  mrg 	  if (arg_extent != ret_extent)
    1.1  mrg 	    runtime_error ("Array bound mismatch for dimension 2 of "
    1.1  mrg 	    		   "array (%ld/%ld) ",
    1.1  mrg 			   (long int) ret_extent, (long int) arg_extent);
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg
    1.1  mrg
    1.1  mrg   if (GFC_DESCRIPTOR_RANK (retarray) == 1)
    1.1  mrg     {
    1.1  mrg       /* One-dimensional result may be addressed in the code below
    1.1  mrg 	 either as a row or a column matrix. We want both cases to
    1.1  mrg 	 work. */
    1.1  mrg       rxstride = rystride = GFC_DESCRIPTOR_STRIDE(retarray,0);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       rxstride = GFC_DESCRIPTOR_STRIDE(retarray,0);
    1.1  mrg       rystride = GFC_DESCRIPTOR_STRIDE(retarray,1);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg
    1.1  mrg   if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg     {
    1.1  mrg       /* Treat it as a a row matrix A[1,count]. */
    1.1  mrg       axstride = GFC_DESCRIPTOR_STRIDE(a,0);
    1.1  mrg       aystride = 1;
    1.1  mrg
    1.1  mrg       xcount = 1;
    1.1  mrg       count = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       axstride = GFC_DESCRIPTOR_STRIDE(a,0);
    1.1  mrg       aystride = GFC_DESCRIPTOR_STRIDE(a,1);
    1.1  mrg
    1.1  mrg       count = GFC_DESCRIPTOR_EXTENT(a,1);
    1.1  mrg       xcount = GFC_DESCRIPTOR_EXTENT(a,0);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   if (count != GFC_DESCRIPTOR_EXTENT(b,0))
    1.1  mrg     {
    1.1  mrg       if (count > 0 || GFC_DESCRIPTOR_EXTENT(b,0) > 0)
    1.1  mrg 	runtime_error ("Incorrect extent in argument B in MATMUL intrinsic "
    1.1  mrg 		       "in dimension 1: is %ld, should be %ld",
    1.1  mrg 		       (long int) GFC_DESCRIPTOR_EXTENT(b,0), (long int) count);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   if (GFC_DESCRIPTOR_RANK (b) == 1)
    1.1  mrg     {
    1.1  mrg       /* Treat it as a column matrix B[count,1] */
    1.1  mrg       bxstride = GFC_DESCRIPTOR_STRIDE(b,0);
    1.1  mrg
    1.1  mrg       /* bystride should never be used for 1-dimensional b.
    1.1  mrg          The value is only used for calculation of the
    1.1  mrg          memory by the buffer.  */
    1.1  mrg       bystride = 256;
    1.1  mrg       ycount = 1;
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       bxstride = GFC_DESCRIPTOR_STRIDE(b,0);
    1.1  mrg       bystride = GFC_DESCRIPTOR_STRIDE(b,1);
    1.1  mrg       ycount = GFC_DESCRIPTOR_EXTENT(b,1);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   abase = a->base_addr;
    1.1  mrg   bbase = b->base_addr;
    1.1  mrg   dest = retarray->base_addr;
    1.1  mrg
    1.1  mrg   /* Now that everything is set up, we perform the multiplication
    1.1  mrg      itself.  */
    1.1  mrg
    1.1  mrg #define POW3(x) (((float) (x)) * ((float) (x)) * ((float) (x)))
    1.1  mrg #define min(a,b) ((a) <= (b) ? (a) : (b))
    1.1  mrg #define max(a,b) ((a) >= (b) ? (a) : (b))
    1.1  mrg
    1.1  mrg   if (try_blas && rxstride == 1 && (axstride == 1 || aystride == 1)
    1.1  mrg       && (bxstride == 1 || bystride == 1)
    1.1  mrg       && (((float) xcount) * ((float) ycount) * ((float) count)
    1.1  mrg           > POW3(blas_limit)))
    1.1  mrg     {
    1.1  mrg       const int m = xcount, n = ycount, k = count, ldc = rystride;
    1.1  mrg       const GFC_REAL_10 one = 1, zero = 0;
    1.1  mrg       const int lda = (axstride == 1) ? aystride : axstride,
    1.1  mrg 		ldb = (bxstride == 1) ? bystride : bxstride;
    1.1  mrg
    1.1  mrg       if (lda > 0 && ldb > 0 && ldc > 0 && m > 1 && n > 1 && k > 1)
    1.1  mrg 	{
    1.1  mrg 	  assert (gemm != NULL);
    1.1  mrg 	  const char *transa, *transb;
    1.1  mrg 	  if (try_blas & 2)
    1.1  mrg 	    transa = "C";
    1.1  mrg 	  else
    1.1  mrg 	    transa = axstride == 1 ? "N" : "T";
    1.1  mrg
    1.1  mrg 	  if (try_blas & 4)
    1.1  mrg 	    transb = "C";
    1.1  mrg 	  else
    1.1  mrg 	    transb = bxstride == 1 ? "N" : "T";
    1.1  mrg
    1.1  mrg 	  gemm (transa, transb , &m,
    1.1  mrg 		&n, &k,	&one, abase, &lda, bbase, &ldb, &zero, dest,
    1.1  mrg 		&ldc, 1, 1);
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg
1.1.1.2  mrg   if (rxstride == 1 && axstride == 1 && bxstride == 1
1.1.1.2  mrg       && GFC_DESCRIPTOR_RANK (b) != 1)
    1.1  mrg     {
    1.1  mrg       /* This block of code implements a tuned matmul, derived from
    1.1  mrg          Superscalar GEMM-based level 3 BLAS,  Beta version 0.1
    1.1  mrg
    1.1  mrg                Bo Kagstrom and Per Ling
    1.1  mrg                Department of Computing Science
    1.1  mrg                Umea University
    1.1  mrg                S-901 87 Umea, Sweden
    1.1  mrg
    1.1  mrg 	 from netlib.org, translated to C, and modified for matmul.m4.  */
    1.1  mrg
    1.1  mrg       const GFC_REAL_10 *a, *b;
    1.1  mrg       GFC_REAL_10 *c;
    1.1  mrg       const index_type m = xcount, n = ycount, k = count;
    1.1  mrg
    1.1  mrg       /* System generated locals */
    1.1  mrg       index_type a_dim1, a_offset, b_dim1, b_offset, c_dim1, c_offset,
    1.1  mrg 		 i1, i2, i3, i4, i5, i6;
    1.1  mrg
    1.1  mrg       /* Local variables */
    1.1  mrg       GFC_REAL_10 f11, f12, f21, f22, f31, f32, f41, f42,
    1.1  mrg 		 f13, f14, f23, f24, f33, f34, f43, f44;
    1.1  mrg       index_type i, j, l, ii, jj, ll;
    1.1  mrg       index_type isec, jsec, lsec, uisec, ujsec, ulsec;
    1.1  mrg       GFC_REAL_10 *t1;
    1.1  mrg
    1.1  mrg       a = abase;
    1.1  mrg       b = bbase;
    1.1  mrg       c = retarray->base_addr;
    1.1  mrg
    1.1  mrg       /* Parameter adjustments */
    1.1  mrg       c_dim1 = rystride;
    1.1  mrg       c_offset = 1 + c_dim1;
    1.1  mrg       c -= c_offset;
    1.1  mrg       a_dim1 = aystride;
    1.1  mrg       a_offset = 1 + a_dim1;
    1.1  mrg       a -= a_offset;
    1.1  mrg       b_dim1 = bystride;
    1.1  mrg       b_offset = 1 + b_dim1;
    1.1  mrg       b -= b_offset;
    1.1  mrg
    1.1  mrg       /* Empty c first.  */
    1.1  mrg       for (j=1; j<=n; j++)
    1.1  mrg 	for (i=1; i<=m; i++)
    1.1  mrg 	  c[i + j * c_dim1] = (GFC_REAL_10)0;
    1.1  mrg
    1.1  mrg       /* Early exit if possible */
    1.1  mrg       if (m == 0 || n == 0 || k == 0)
    1.1  mrg 	return;
    1.1  mrg
    1.1  mrg       /* Adjust size of t1 to what is needed.  */
    1.1  mrg       index_type t1_dim, a_sz;
    1.1  mrg       if (aystride == 1)
    1.1  mrg         a_sz = rystride;
    1.1  mrg       else
    1.1  mrg         a_sz = a_dim1;
    1.1  mrg
    1.1  mrg       t1_dim = a_sz * 256 + b_dim1;
    1.1  mrg       if (t1_dim > 65536)
    1.1  mrg 	t1_dim = 65536;
    1.1  mrg
    1.1  mrg       t1 = malloc (t1_dim * sizeof(GFC_REAL_10));
    1.1  mrg
    1.1  mrg       /* Start turning the crank. */
    1.1  mrg       i1 = n;
    1.1  mrg       for (jj = 1; jj <= i1; jj += 512)
    1.1  mrg 	{
    1.1  mrg 	  /* Computing MIN */
    1.1  mrg 	  i2 = 512;
    1.1  mrg 	  i3 = n - jj + 1;
    1.1  mrg 	  jsec = min(i2,i3);
    1.1  mrg 	  ujsec = jsec - jsec % 4;
    1.1  mrg 	  i2 = k;
    1.1  mrg 	  for (ll = 1; ll <= i2; ll += 256)
    1.1  mrg 	    {
    1.1  mrg 	      /* Computing MIN */
    1.1  mrg 	      i3 = 256;
    1.1  mrg 	      i4 = k - ll + 1;
    1.1  mrg 	      lsec = min(i3,i4);
    1.1  mrg 	      ulsec = lsec - lsec % 2;
    1.1  mrg
    1.1  mrg 	      i3 = m;
    1.1  mrg 	      for (ii = 1; ii <= i3; ii += 256)
    1.1  mrg 		{
    1.1  mrg 		  /* Computing MIN */
    1.1  mrg 		  i4 = 256;
    1.1  mrg 		  i5 = m - ii + 1;
    1.1  mrg 		  isec = min(i4,i5);
    1.1  mrg 		  uisec = isec - isec % 2;
    1.1  mrg 		  i4 = ll + ulsec - 1;
    1.1  mrg 		  for (l = ll; l <= i4; l += 2)
    1.1  mrg 		    {
    1.1  mrg 		      i5 = ii + uisec - 1;
    1.1  mrg 		      for (i = ii; i <= i5; i += 2)
    1.1  mrg 			{
    1.1  mrg 			  t1[l - ll + 1 + ((i - ii + 1) << 8) - 257] =
    1.1  mrg 					a[i + l * a_dim1];
    1.1  mrg 			  t1[l - ll + 2 + ((i - ii + 1) << 8) - 257] =
    1.1  mrg 					a[i + (l + 1) * a_dim1];
    1.1  mrg 			  t1[l - ll + 1 + ((i - ii + 2) << 8) - 257] =
    1.1  mrg 					a[i + 1 + l * a_dim1];
    1.1  mrg 			  t1[l - ll + 2 + ((i - ii + 2) << 8) - 257] =
    1.1  mrg 					a[i + 1 + (l + 1) * a_dim1];
    1.1  mrg 			}
    1.1  mrg 		      if (uisec < isec)
    1.1  mrg 			{
    1.1  mrg 			  t1[l - ll + 1 + (isec << 8) - 257] =
    1.1  mrg 				    a[ii + isec - 1 + l * a_dim1];
    1.1  mrg 			  t1[l - ll + 2 + (isec << 8) - 257] =
    1.1  mrg 				    a[ii + isec - 1 + (l + 1) * a_dim1];
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg 		  if (ulsec < lsec)
    1.1  mrg 		    {
    1.1  mrg 		      i4 = ii + isec - 1;
    1.1  mrg 		      for (i = ii; i<= i4; ++i)
    1.1  mrg 			{
    1.1  mrg 			  t1[lsec + ((i - ii + 1) << 8) - 257] =
    1.1  mrg 				    a[i + (ll + lsec - 1) * a_dim1];
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg
    1.1  mrg 		  uisec = isec - isec % 4;
    1.1  mrg 		  i4 = jj + ujsec - 1;
    1.1  mrg 		  for (j = jj; j <= i4; j += 4)
    1.1  mrg 		    {
    1.1  mrg 		      i5 = ii + uisec - 1;
    1.1  mrg 		      for (i = ii; i <= i5; i += 4)
    1.1  mrg 			{
    1.1  mrg 			  f11 = c[i + j * c_dim1];
    1.1  mrg 			  f21 = c[i + 1 + j * c_dim1];
    1.1  mrg 			  f12 = c[i + (j + 1) * c_dim1];
    1.1  mrg 			  f22 = c[i + 1 + (j + 1) * c_dim1];
    1.1  mrg 			  f13 = c[i + (j + 2) * c_dim1];
    1.1  mrg 			  f23 = c[i + 1 + (j + 2) * c_dim1];
    1.1  mrg 			  f14 = c[i + (j + 3) * c_dim1];
    1.1  mrg 			  f24 = c[i + 1 + (j + 3) * c_dim1];
    1.1  mrg 			  f31 = c[i + 2 + j * c_dim1];
    1.1  mrg 			  f41 = c[i + 3 + j * c_dim1];
    1.1  mrg 			  f32 = c[i + 2 + (j + 1) * c_dim1];
    1.1  mrg 			  f42 = c[i + 3 + (j + 1) * c_dim1];
    1.1  mrg 			  f33 = c[i + 2 + (j + 2) * c_dim1];
    1.1  mrg 			  f43 = c[i + 3 + (j + 2) * c_dim1];
    1.1  mrg 			  f34 = c[i + 2 + (j + 3) * c_dim1];
    1.1  mrg 			  f44 = c[i + 3 + (j + 3) * c_dim1];
    1.1  mrg 			  i6 = ll + lsec - 1;
    1.1  mrg 			  for (l = ll; l <= i6; ++l)
    1.1  mrg 			    {
    1.1  mrg 			      f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f21 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f12 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f22 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f13 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f23 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f14 += t1[l - ll + 1 + ((i - ii + 1) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			      f24 += t1[l - ll + 1 + ((i - ii + 2) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			      f31 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f41 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + j * b_dim1];
    1.1  mrg 			      f32 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f42 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 1) * b_dim1];
    1.1  mrg 			      f33 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f43 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 2) * b_dim1];
    1.1  mrg 			      f34 += t1[l - ll + 1 + ((i - ii + 3) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			      f44 += t1[l - ll + 1 + ((i - ii + 4) << 8) - 257]
    1.1  mrg 				      * b[l + (j + 3) * b_dim1];
    1.1  mrg 			    }
    1.1  mrg 			  c[i + j * c_dim1] = f11;
    1.1  mrg 			  c[i + 1 + j * c_dim1] = f21;
    1.1  mrg 			  c[i + (j + 1) * c_dim1] = f12;
    1.1  mrg 			  c[i + 1 + (j + 1) * c_dim1] = f22;
    1.1  mrg 			  c[i + (j + 2) * c_dim1] = f13;
    1.1  mrg 			  c[i + 1 + (j + 2) * c_dim1] = f23;
    1.1  mrg 			  c[i + (j + 3) * c_dim1] = f14;
    1.1  mrg 			  c[i + 1 + (j + 3) * c_dim1] = f24;
    1.1  mrg 			  c[i + 2 + j * c_dim1] = f31;
    1.1  mrg 			  c[i + 3 + j * c_dim1] = f41;
    1.1  mrg 			  c[i + 2 + (j + 1) * c_dim1] = f32;
    1.1  mrg 			  c[i + 3 + (j + 1) * c_dim1] = f42;
    1.1  mrg 			  c[i + 2 + (j + 2) * c_dim1] = f33;
    1.1  mrg 			  c[i + 3 + (j + 2) * c_dim1] = f43;
    1.1  mrg 			  c[i + 2 + (j + 3) * c_dim1] = f34;
    1.1  mrg 			  c[i + 3 + (j + 3) * c_dim1] = f44;
    1.1  mrg 			}
    1.1  mrg 		      if (uisec < isec)
    1.1  mrg 			{
    1.1  mrg 			  i5 = ii + isec - 1;
    1.1  mrg 			  for (i = ii + uisec; i <= i5; ++i)
    1.1  mrg 			    {
    1.1  mrg 			      f11 = c[i + j * c_dim1];
    1.1  mrg 			      f12 = c[i + (j + 1) * c_dim1];
    1.1  mrg 			      f13 = c[i + (j + 2) * c_dim1];
    1.1  mrg 			      f14 = c[i + (j + 3) * c_dim1];
    1.1  mrg 			      i6 = ll + lsec - 1;
    1.1  mrg 			      for (l = ll; l <= i6; ++l)
    1.1  mrg 				{
    1.1  mrg 				  f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f12 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + (j + 1) * b_dim1];
    1.1  mrg 				  f13 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + (j + 2) * b_dim1];
    1.1  mrg 				  f14 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + (j + 3) * b_dim1];
    1.1  mrg 				}
    1.1  mrg 			      c[i + j * c_dim1] = f11;
    1.1  mrg 			      c[i + (j + 1) * c_dim1] = f12;
    1.1  mrg 			      c[i + (j + 2) * c_dim1] = f13;
    1.1  mrg 			      c[i + (j + 3) * c_dim1] = f14;
    1.1  mrg 			    }
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg 		  if (ujsec < jsec)
    1.1  mrg 		    {
    1.1  mrg 		      i4 = jj + jsec - 1;
    1.1  mrg 		      for (j = jj + ujsec; j <= i4; ++j)
    1.1  mrg 			{
    1.1  mrg 			  i5 = ii + uisec - 1;
    1.1  mrg 			  for (i = ii; i <= i5; i += 4)
    1.1  mrg 			    {
    1.1  mrg 			      f11 = c[i + j * c_dim1];
    1.1  mrg 			      f21 = c[i + 1 + j * c_dim1];
    1.1  mrg 			      f31 = c[i + 2 + j * c_dim1];
    1.1  mrg 			      f41 = c[i + 3 + j * c_dim1];
    1.1  mrg 			      i6 = ll + lsec - 1;
    1.1  mrg 			      for (l = ll; l <= i6; ++l)
    1.1  mrg 				{
    1.1  mrg 				  f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f21 += t1[l - ll + 1 + ((i - ii + 2) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f31 += t1[l - ll + 1 + ((i - ii + 3) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				  f41 += t1[l - ll + 1 + ((i - ii + 4) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				}
    1.1  mrg 			      c[i + j * c_dim1] = f11;
    1.1  mrg 			      c[i + 1 + j * c_dim1] = f21;
    1.1  mrg 			      c[i + 2 + j * c_dim1] = f31;
    1.1  mrg 			      c[i + 3 + j * c_dim1] = f41;
    1.1  mrg 			    }
    1.1  mrg 			  i5 = ii + isec - 1;
    1.1  mrg 			  for (i = ii + uisec; i <= i5; ++i)
    1.1  mrg 			    {
    1.1  mrg 			      f11 = c[i + j * c_dim1];
    1.1  mrg 			      i6 = ll + lsec - 1;
    1.1  mrg 			      for (l = ll; l <= i6; ++l)
    1.1  mrg 				{
    1.1  mrg 				  f11 += t1[l - ll + 1 + ((i - ii + 1) << 8) -
    1.1  mrg 					  257] * b[l + j * b_dim1];
    1.1  mrg 				}
    1.1  mrg 			      c[i + j * c_dim1] = f11;
    1.1  mrg 			    }
    1.1  mrg 			}
    1.1  mrg 		    }
    1.1  mrg 		}
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg       free(t1);
    1.1  mrg       return;
    1.1  mrg     }
    1.1  mrg   else if (rxstride == 1 && aystride == 1 && bxstride == 1)
    1.1  mrg     {
    1.1  mrg       if (GFC_DESCRIPTOR_RANK (a) != 1)
    1.1  mrg 	{
    1.1  mrg 	  const GFC_REAL_10 *restrict abase_x;
    1.1  mrg 	  const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg 	  GFC_REAL_10 *restrict dest_y;
    1.1  mrg 	  GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg 	  for (y = 0; y < ycount; y++)
    1.1  mrg 	    {
    1.1  mrg 	      bbase_y = &bbase[y*bystride];
    1.1  mrg 	      dest_y = &dest[y*rystride];
    1.1  mrg 	      for (x = 0; x < xcount; x++)
    1.1  mrg 		{
    1.1  mrg 		  abase_x = &abase[x*axstride];
    1.1  mrg 		  s = (GFC_REAL_10) 0;
    1.1  mrg 		  for (n = 0; n < count; n++)
    1.1  mrg 		    s += abase_x[n] * bbase_y[n];
    1.1  mrg 		  dest_y[x] = s;
    1.1  mrg 		}
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg       else
    1.1  mrg 	{
    1.1  mrg 	  const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg 	  GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg 	  for (y = 0; y < ycount; y++)
    1.1  mrg 	    {
    1.1  mrg 	      bbase_y = &bbase[y*bystride];
    1.1  mrg 	      s = (GFC_REAL_10) 0;
    1.1  mrg 	      for (n = 0; n < count; n++)
    1.1  mrg 		s += abase[n*axstride] * bbase_y[n];
    1.1  mrg 	      dest[y*rystride] = s;
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg   else if (GFC_DESCRIPTOR_RANK (a) == 1)
    1.1  mrg     {
    1.1  mrg       const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg       GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg       for (y = 0; y < ycount; y++)
    1.1  mrg 	{
    1.1  mrg 	  bbase_y = &bbase[y*bystride];
    1.1  mrg 	  s = (GFC_REAL_10) 0;
    1.1  mrg 	  for (n = 0; n < count; n++)
    1.1  mrg 	    s += abase[n*axstride] * bbase_y[n*bxstride];
    1.1  mrg 	  dest[y*rxstride] = s;
    1.1  mrg 	}
    1.1  mrg     }
1.1.1.2  mrg   else if (axstride < aystride)
1.1.1.2  mrg     {
1.1.1.2  mrg       for (y = 0; y < ycount; y++)
1.1.1.2  mrg 	for (x = 0; x < xcount; x++)
1.1.1.2  mrg 	  dest[x*rxstride + y*rystride] = (GFC_REAL_10)0;
1.1.1.2  mrg
1.1.1.2  mrg       for (y = 0; y < ycount; y++)
1.1.1.2  mrg 	for (n = 0; n < count; n++)
1.1.1.2  mrg 	  for (x = 0; x < xcount; x++)
1.1.1.2  mrg 	    /* dest[x,y] += a[x,n] * b[n,y] */
1.1.1.2  mrg 	    dest[x*rxstride + y*rystride] +=
1.1.1.2  mrg 					abase[x*axstride + n*aystride] *
1.1.1.2  mrg 					bbase[n*bxstride + y*bystride];
1.1.1.2  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       const GFC_REAL_10 *restrict abase_x;
    1.1  mrg       const GFC_REAL_10 *restrict bbase_y;
    1.1  mrg       GFC_REAL_10 *restrict dest_y;
    1.1  mrg       GFC_REAL_10 s;
    1.1  mrg
    1.1  mrg       for (y = 0; y < ycount; y++)
    1.1  mrg 	{
    1.1  mrg 	  bbase_y = &bbase[y*bystride];
    1.1  mrg 	  dest_y = &dest[y*rystride];
    1.1  mrg 	  for (x = 0; x < xcount; x++)
    1.1  mrg 	    {
    1.1  mrg 	      abase_x = &abase[x*axstride];
    1.1  mrg 	      s = (GFC_REAL_10) 0;
    1.1  mrg 	      for (n = 0; n < count; n++)
    1.1  mrg 		s += abase_x[n*aystride] * bbase_y[n*bxstride];
    1.1  mrg 	      dest_y[x*rxstride] = s;
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg }
    1.1  mrg #undef POW3
    1.1  mrg #undef min
    1.1  mrg #undef max
    1.1  mrg
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg #endif
    1.1  mrg