freedreno/ir3/ir3_postsched.c

7ec681f3Smrg/*
7ec681f3Smrg * Copyright (C) 2019 Google, Inc.
7ec681f3Smrg *
7ec681f3Smrg * Permission is hereby granted, free of charge, to any person obtaining a
7ec681f3Smrg * copy of this software and associated documentation files (the "Software"),
7ec681f3Smrg * to deal in the Software without restriction, including without limitation
7ec681f3Smrg * the rights to use, copy, modify, merge, publish, distribute, sublicense,
7ec681f3Smrg * and/or sell copies of the Software, and to permit persons to whom the
7ec681f3Smrg * Software is furnished to do so, subject to the following conditions:
7ec681f3Smrg *
7ec681f3Smrg * The above copyright notice and this permission notice (including the next
7ec681f3Smrg * paragraph) shall be included in all copies or substantial portions of the
7ec681f3Smrg * Software.
7ec681f3Smrg *
7ec681f3Smrg * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
7ec681f3Smrg * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
7ec681f3Smrg * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
7ec681f3Smrg * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
7ec681f3Smrg * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
7ec681f3Smrg * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
7ec681f3Smrg * SOFTWARE.
7ec681f3Smrg *
7ec681f3Smrg * Authors:
7ec681f3Smrg *    Rob Clark <robclark@freedesktop.org>
7ec681f3Smrg */
7ec681f3Smrg
7ec681f3Smrg#include "util/dag.h"
7ec681f3Smrg#include "util/u_math.h"
7ec681f3Smrg
7ec681f3Smrg#include "ir3.h"
7ec681f3Smrg#include "ir3_compiler.h"
7ec681f3Smrg#include "ir3_context.h"
7ec681f3Smrg
7ec681f3Smrg#ifdef DEBUG
7ec681f3Smrg#define SCHED_DEBUG (ir3_shader_debug & IR3_DBG_SCHEDMSGS)
7ec681f3Smrg#else
7ec681f3Smrg#define SCHED_DEBUG 0
7ec681f3Smrg#endif
7ec681f3Smrg#define d(fmt, ...)                                                            \
7ec681f3Smrg   do {                                                                        \
7ec681f3Smrg      if (SCHED_DEBUG) {                                                       \
7ec681f3Smrg         mesa_logi("PSCHED: " fmt, ##__VA_ARGS__);                             \
7ec681f3Smrg      }                                                                        \
7ec681f3Smrg   } while (0)
7ec681f3Smrg
7ec681f3Smrg#define di(instr, fmt, ...)                                                    \
7ec681f3Smrg   do {                                                                        \
7ec681f3Smrg      if (SCHED_DEBUG) {                                                       \
7ec681f3Smrg         struct log_stream *stream = mesa_log_streami();                       \
7ec681f3Smrg         mesa_log_stream_printf(stream, "PSCHED: " fmt ": ", ##__VA_ARGS__);   \
7ec681f3Smrg         ir3_print_instr_stream(stream, instr);                                \
7ec681f3Smrg         mesa_log_stream_destroy(stream);                                      \
7ec681f3Smrg      }                                                                        \
7ec681f3Smrg   } while (0)
7ec681f3Smrg
7ec681f3Smrg/*
7ec681f3Smrg * Post RA Instruction Scheduling
7ec681f3Smrg */
7ec681f3Smrg
7ec681f3Smrgstruct ir3_postsched_ctx {
7ec681f3Smrg   struct ir3 *ir;
7ec681f3Smrg
7ec681f3Smrg   struct ir3_shader_variant *v;
7ec681f3Smrg
7ec681f3Smrg   void *mem_ctx;
7ec681f3Smrg   struct ir3_block *block; /* the current block */
7ec681f3Smrg   struct dag *dag;
7ec681f3Smrg
7ec681f3Smrg   struct list_head unscheduled_list; /* unscheduled instructions */
7ec681f3Smrg
7ec681f3Smrg   int sfu_delay;
7ec681f3Smrg   int tex_delay;
7ec681f3Smrg};
7ec681f3Smrg
7ec681f3Smrgstruct ir3_postsched_node {
7ec681f3Smrg   struct dag_node dag; /* must be first for util_dynarray_foreach */
7ec681f3Smrg   struct ir3_instruction *instr;
7ec681f3Smrg   bool partially_evaluated_path;
7ec681f3Smrg
7ec681f3Smrg   bool has_tex_src, has_sfu_src;
7ec681f3Smrg
7ec681f3Smrg   unsigned delay;
7ec681f3Smrg   unsigned max_delay;
7ec681f3Smrg};
7ec681f3Smrg
7ec681f3Smrg#define foreach_sched_node(__n, __list)                                        \
7ec681f3Smrg   list_for_each_entry (struct ir3_postsched_node, __n, __list, dag.link)
7ec681f3Smrg
7ec681f3Smrgstatic bool
7ec681f3Smrghas_tex_src(struct ir3_instruction *instr)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_node *node = instr->data;
7ec681f3Smrg   return node->has_tex_src;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic bool
7ec681f3Smrghas_sfu_src(struct ir3_instruction *instr)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_node *node = instr->data;
7ec681f3Smrg   return node->has_sfu_src;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgschedule(struct ir3_postsched_ctx *ctx, struct ir3_instruction *instr)
7ec681f3Smrg{
7ec681f3Smrg   debug_assert(ctx->block == instr->block);
7ec681f3Smrg
7ec681f3Smrg   /* remove from unscheduled_list:
7ec681f3Smrg    */
7ec681f3Smrg   list_delinit(&instr->node);
7ec681f3Smrg
7ec681f3Smrg   di(instr, "schedule");
7ec681f3Smrg
7ec681f3Smrg   list_addtail(&instr->node, &instr->block->instr_list);
7ec681f3Smrg
7ec681f3Smrg   struct ir3_postsched_node *n = instr->data;
7ec681f3Smrg   dag_prune_head(ctx->dag, &n->dag);
7ec681f3Smrg
7ec681f3Smrg   if (is_meta(instr) && (instr->opc != OPC_META_TEX_PREFETCH))
7ec681f3Smrg      return;
7ec681f3Smrg
7ec681f3Smrg   if (is_sfu(instr)) {
7ec681f3Smrg      ctx->sfu_delay = 8;
7ec681f3Smrg   } else if (has_sfu_src(instr)) {
7ec681f3Smrg      ctx->sfu_delay = 0;
7ec681f3Smrg   } else if (ctx->sfu_delay > 0) {
7ec681f3Smrg      ctx->sfu_delay--;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (is_tex_or_prefetch(instr)) {
7ec681f3Smrg      ctx->tex_delay = 10;
7ec681f3Smrg   } else if (has_tex_src(instr)) {
7ec681f3Smrg      ctx->tex_delay = 0;
7ec681f3Smrg   } else if (ctx->tex_delay > 0) {
7ec681f3Smrg      ctx->tex_delay--;
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgdump_state(struct ir3_postsched_ctx *ctx)
7ec681f3Smrg{
7ec681f3Smrg   if (!SCHED_DEBUG)
7ec681f3Smrg      return;
7ec681f3Smrg
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      di(n->instr, "maxdel=%3d    ", n->max_delay);
7ec681f3Smrg
7ec681f3Smrg      util_dynarray_foreach (&n->dag.edges, struct dag_edge, edge) {
7ec681f3Smrg         struct ir3_postsched_node *child =
7ec681f3Smrg            (struct ir3_postsched_node *)edge->child;
7ec681f3Smrg
7ec681f3Smrg         di(child->instr, " -> (%d parents) ", child->dag.parent_count);
7ec681f3Smrg      }
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/* Determine if this is an instruction that we'd prefer not to schedule
7ec681f3Smrg * yet, in order to avoid an (ss) sync.  This is limited by the sfu_delay
7ec681f3Smrg * counter, ie. the more cycles it has been since the last SFU, the less
7ec681f3Smrg * costly a sync would be.
7ec681f3Smrg */
7ec681f3Smrgstatic bool
7ec681f3Smrgwould_sync(struct ir3_postsched_ctx *ctx, struct ir3_instruction *instr)
7ec681f3Smrg{
7ec681f3Smrg   if (ctx->sfu_delay) {
7ec681f3Smrg      if (has_sfu_src(instr))
7ec681f3Smrg         return true;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (ctx->tex_delay) {
7ec681f3Smrg      if (has_tex_src(instr))
7ec681f3Smrg         return true;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   return false;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/* find instruction to schedule: */
7ec681f3Smrgstatic struct ir3_instruction *
7ec681f3Smrgchoose_instr(struct ir3_postsched_ctx *ctx)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_node *chosen = NULL;
7ec681f3Smrg
7ec681f3Smrg   dump_state(ctx);
7ec681f3Smrg
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      if (!is_meta(n->instr))
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!chosen || (chosen->max_delay < n->max_delay))
7ec681f3Smrg         chosen = n;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (chosen) {
7ec681f3Smrg      di(chosen->instr, "prio: chose (meta)");
7ec681f3Smrg      return chosen->instr;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /* Try to schedule inputs with a higher priority, if possible, as
7ec681f3Smrg    * the last bary.f unlocks varying storage to unblock more VS
7ec681f3Smrg    * warps.
7ec681f3Smrg    */
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      if (!is_input(n->instr))
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!chosen || (chosen->max_delay < n->max_delay))
7ec681f3Smrg         chosen = n;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (chosen) {
7ec681f3Smrg      di(chosen->instr, "prio: chose (input)");
7ec681f3Smrg      return chosen->instr;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /* Next prioritize discards: */
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      unsigned d =
7ec681f3Smrg         ir3_delay_calc_postra(ctx->block, n->instr, false, ctx->v->mergedregs);
7ec681f3Smrg
7ec681f3Smrg      if (d > 0)
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!is_kill_or_demote(n->instr))
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!chosen || (chosen->max_delay < n->max_delay))
7ec681f3Smrg         chosen = n;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (chosen) {
7ec681f3Smrg      di(chosen->instr, "csp: chose (kill, hard ready)");
7ec681f3Smrg      return chosen->instr;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /* Next prioritize expensive instructions: */
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      unsigned d =
7ec681f3Smrg         ir3_delay_calc_postra(ctx->block, n->instr, false, ctx->v->mergedregs);
7ec681f3Smrg
7ec681f3Smrg      if (d > 0)
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!(is_sfu(n->instr) || is_tex(n->instr)))
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!chosen || (chosen->max_delay < n->max_delay))
7ec681f3Smrg         chosen = n;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (chosen) {
7ec681f3Smrg      di(chosen->instr, "csp: chose (sfu/tex, hard ready)");
7ec681f3Smrg      return chosen->instr;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /*
7ec681f3Smrg    * Sometimes be better to take a nop, rather than scheduling an
7ec681f3Smrg    * instruction that would require an (ss) shortly after another
7ec681f3Smrg    * SFU..  ie. if last SFU was just one or two instr ago, and we
7ec681f3Smrg    * could choose between taking a nop and then scheduling
7ec681f3Smrg    * something else, vs scheduling the immed avail instruction that
7ec681f3Smrg    * would require (ss), we are better with the nop.
7ec681f3Smrg    */
7ec681f3Smrg   for (unsigned delay = 0; delay < 4; delay++) {
7ec681f3Smrg      foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg         if (would_sync(ctx, n->instr))
7ec681f3Smrg            continue;
7ec681f3Smrg
7ec681f3Smrg         unsigned d = ir3_delay_calc_postra(ctx->block, n->instr, true,
7ec681f3Smrg                                            ctx->v->mergedregs);
7ec681f3Smrg
7ec681f3Smrg         if (d > delay)
7ec681f3Smrg            continue;
7ec681f3Smrg
7ec681f3Smrg         if (!chosen || (chosen->max_delay < n->max_delay))
7ec681f3Smrg            chosen = n;
7ec681f3Smrg      }
7ec681f3Smrg
7ec681f3Smrg      if (chosen) {
7ec681f3Smrg         di(chosen->instr, "csp: chose (soft ready, delay=%u)", delay);
7ec681f3Smrg         return chosen->instr;
7ec681f3Smrg      }
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /* Next try to find a ready leader w/ soft delay (ie. including extra
7ec681f3Smrg    * delay for things like tex fetch which can be synchronized w/ sync
7ec681f3Smrg    * bit (but we probably do want to schedule some other instructions
7ec681f3Smrg    * while we wait)
7ec681f3Smrg    */
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      unsigned d =
7ec681f3Smrg         ir3_delay_calc_postra(ctx->block, n->instr, true, ctx->v->mergedregs);
7ec681f3Smrg
7ec681f3Smrg      if (d > 0)
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!chosen || (chosen->max_delay < n->max_delay))
7ec681f3Smrg         chosen = n;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (chosen) {
7ec681f3Smrg      di(chosen->instr, "csp: chose (soft ready)");
7ec681f3Smrg      return chosen->instr;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /* Next try to find a ready leader that can be scheduled without nop's,
7ec681f3Smrg    * which in the case of things that need (sy)/(ss) could result in
7ec681f3Smrg    * stalls.. but we've already decided there is not a better option.
7ec681f3Smrg    */
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      unsigned d =
7ec681f3Smrg         ir3_delay_calc_postra(ctx->block, n->instr, false, ctx->v->mergedregs);
7ec681f3Smrg
7ec681f3Smrg      if (d > 0)
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (!chosen || (chosen->max_delay < n->max_delay))
7ec681f3Smrg         chosen = n;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (chosen) {
7ec681f3Smrg      di(chosen->instr, "csp: chose (hard ready)");
7ec681f3Smrg      return chosen->instr;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /* Otherwise choose leader with maximum cost:
7ec681f3Smrg    *
7ec681f3Smrg    * TODO should we try to balance cost and delays?  I guess it is
7ec681f3Smrg    * a balance between now-nop's and future-nop's?
7ec681f3Smrg    */
7ec681f3Smrg   foreach_sched_node (n, &ctx->dag->heads) {
7ec681f3Smrg      if (!chosen || chosen->max_delay < n->max_delay)
7ec681f3Smrg         chosen = n;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   if (chosen) {
7ec681f3Smrg      di(chosen->instr, "csp: chose (leader)");
7ec681f3Smrg      return chosen->instr;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   return NULL;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstruct ir3_postsched_deps_state {
7ec681f3Smrg   struct ir3_postsched_ctx *ctx;
7ec681f3Smrg
7ec681f3Smrg   enum { F, R } direction;
7ec681f3Smrg
7ec681f3Smrg   bool merged;
7ec681f3Smrg
7ec681f3Smrg   /* Track the mapping between sched node (instruction) that last
7ec681f3Smrg    * wrote a given register (in whichever direction we are iterating
7ec681f3Smrg    * the block)
7ec681f3Smrg    *
7ec681f3Smrg    * Note, this table is twice as big as the # of regs, to deal with
7ec681f3Smrg    * half-precision regs.  The approach differs depending on whether
7ec681f3Smrg    * the half and full precision register files are "merged" (conflict,
7ec681f3Smrg    * ie. a6xx+) in which case we consider each full precision dep
7ec681f3Smrg    * as two half-precision dependencies, vs older separate (non-
7ec681f3Smrg    * conflicting) in which case the first half of the table is used
7ec681f3Smrg    * for full precision and 2nd half for half-precision.
7ec681f3Smrg    */
7ec681f3Smrg   struct ir3_postsched_node *regs[2 * 256];
7ec681f3Smrg};
7ec681f3Smrg
7ec681f3Smrg/* bounds checking read/write accessors, since OoB access to stuff on
7ec681f3Smrg * the stack is gonna cause a bad day.
7ec681f3Smrg */
7ec681f3Smrg#define dep_reg(state, idx)                                                    \
7ec681f3Smrg   *({                                                                         \
7ec681f3Smrg      assert((idx) < ARRAY_SIZE((state)->regs));                               \
7ec681f3Smrg      &(state)->regs[(idx)];                                                   \
7ec681f3Smrg   })
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgadd_dep(struct ir3_postsched_deps_state *state,
7ec681f3Smrg        struct ir3_postsched_node *before, struct ir3_postsched_node *after)
7ec681f3Smrg{
7ec681f3Smrg   if (!before || !after)
7ec681f3Smrg      return;
7ec681f3Smrg
7ec681f3Smrg   assert(before != after);
7ec681f3Smrg
7ec681f3Smrg   if (state->direction == F) {
7ec681f3Smrg      dag_add_edge(&before->dag, &after->dag, NULL);
7ec681f3Smrg   } else {
7ec681f3Smrg      dag_add_edge(&after->dag, &before->dag, NULL);
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgadd_single_reg_dep(struct ir3_postsched_deps_state *state,
7ec681f3Smrg                   struct ir3_postsched_node *node, unsigned num, int src_n)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_node *dep = dep_reg(state, num);
7ec681f3Smrg
7ec681f3Smrg   if (src_n >= 0 && dep && state->direction == F) {
7ec681f3Smrg      unsigned d = ir3_delayslots(dep->instr, node->instr, src_n, true);
7ec681f3Smrg      node->delay = MAX2(node->delay, d);
7ec681f3Smrg      if (is_tex_or_prefetch(dep->instr))
7ec681f3Smrg         node->has_tex_src = true;
7ec681f3Smrg      if (is_tex_or_prefetch(dep->instr))
7ec681f3Smrg         node->has_sfu_src = true;
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   add_dep(state, dep, node);
7ec681f3Smrg   if (src_n < 0) {
7ec681f3Smrg      dep_reg(state, num) = node;
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/* This is where we handled full vs half-precision, and potential conflicts
7ec681f3Smrg * between half and full precision that result in additional dependencies.
7ec681f3Smrg * The 'reg' arg is really just to know half vs full precision.
7ec681f3Smrg *
7ec681f3Smrg * If non-negative, then this adds a dependency on a source register, and
7ec681f3Smrg * src_n is the index passed into ir3_delayslots() for calculating the delay:
7ec681f3Smrg * If positive, corresponds to node->instr->regs[src_n]. If negative, then
7ec681f3Smrg * this is for a destination register.
7ec681f3Smrg */
7ec681f3Smrgstatic void
7ec681f3Smrgadd_reg_dep(struct ir3_postsched_deps_state *state,
7ec681f3Smrg            struct ir3_postsched_node *node, const struct ir3_register *reg,
7ec681f3Smrg            unsigned num, int src_n)
7ec681f3Smrg{
7ec681f3Smrg   if (state->merged) {
7ec681f3Smrg      /* Make sure that special registers like a0.x that are written as
7ec681f3Smrg       * half-registers don't alias random full registers by pretending that
7ec681f3Smrg       * they're full registers:
7ec681f3Smrg       */
7ec681f3Smrg      if ((reg->flags & IR3_REG_HALF) && !is_reg_special(reg)) {
7ec681f3Smrg         /* single conflict in half-reg space: */
7ec681f3Smrg         add_single_reg_dep(state, node, num, src_n);
7ec681f3Smrg      } else {
7ec681f3Smrg         /* two conflicts in half-reg space: */
7ec681f3Smrg         add_single_reg_dep(state, node, 2 * num + 0, src_n);
7ec681f3Smrg         add_single_reg_dep(state, node, 2 * num + 1, src_n);
7ec681f3Smrg      }
7ec681f3Smrg   } else {
7ec681f3Smrg      if (reg->flags & IR3_REG_HALF)
7ec681f3Smrg         num += ARRAY_SIZE(state->regs) / 2;
7ec681f3Smrg      add_single_reg_dep(state, node, num, src_n);
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgcalculate_deps(struct ir3_postsched_deps_state *state,
7ec681f3Smrg               struct ir3_postsched_node *node)
7ec681f3Smrg{
7ec681f3Smrg   /* Add dependencies on instructions that previously (or next,
7ec681f3Smrg    * in the reverse direction) wrote any of our src registers:
7ec681f3Smrg    */
7ec681f3Smrg   foreach_src_n (reg, i, node->instr) {
7ec681f3Smrg      if (reg->flags & (IR3_REG_CONST | IR3_REG_IMMED))
7ec681f3Smrg         continue;
7ec681f3Smrg
7ec681f3Smrg      if (reg->flags & IR3_REG_RELATIV) {
7ec681f3Smrg         /* mark entire array as read: */
7ec681f3Smrg         for (unsigned j = 0; j < reg->size; j++) {
7ec681f3Smrg            add_reg_dep(state, node, reg, reg->array.base + j, i);
7ec681f3Smrg         }
7ec681f3Smrg      } else {
7ec681f3Smrg         assert(reg->wrmask >= 1);
7ec681f3Smrg         u_foreach_bit (b, reg->wrmask) {
7ec681f3Smrg            add_reg_dep(state, node, reg, reg->num + b, i);
7ec681f3Smrg         }
7ec681f3Smrg      }
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   /* And then after we update the state for what this instruction
7ec681f3Smrg    * wrote:
7ec681f3Smrg    */
7ec681f3Smrg   foreach_dst (reg, node->instr) {
7ec681f3Smrg      if (reg->wrmask == 0)
7ec681f3Smrg         continue;
7ec681f3Smrg      if (reg->flags & IR3_REG_RELATIV) {
7ec681f3Smrg         /* mark the entire array as written: */
7ec681f3Smrg         for (unsigned i = 0; i < reg->size; i++) {
7ec681f3Smrg            add_reg_dep(state, node, reg, reg->array.base + i, -1);
7ec681f3Smrg         }
7ec681f3Smrg      } else {
7ec681f3Smrg         assert(reg->wrmask >= 1);
7ec681f3Smrg         u_foreach_bit (b, reg->wrmask) {
7ec681f3Smrg            add_reg_dep(state, node, reg, reg->num + b, -1);
7ec681f3Smrg         }
7ec681f3Smrg      }
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgcalculate_forward_deps(struct ir3_postsched_ctx *ctx)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_deps_state state = {
7ec681f3Smrg      .ctx = ctx,
7ec681f3Smrg      .direction = F,
7ec681f3Smrg      .merged = ctx->v->mergedregs,
7ec681f3Smrg   };
7ec681f3Smrg
7ec681f3Smrg   foreach_instr (instr, &ctx->unscheduled_list) {
7ec681f3Smrg      calculate_deps(&state, instr->data);
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgcalculate_reverse_deps(struct ir3_postsched_ctx *ctx)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_deps_state state = {
7ec681f3Smrg      .ctx = ctx,
7ec681f3Smrg      .direction = R,
7ec681f3Smrg      .merged = ctx->v->mergedregs,
7ec681f3Smrg   };
7ec681f3Smrg
7ec681f3Smrg   foreach_instr_rev (instr, &ctx->unscheduled_list) {
7ec681f3Smrg      calculate_deps(&state, instr->data);
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgsched_node_init(struct ir3_postsched_ctx *ctx, struct ir3_instruction *instr)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_node *n =
7ec681f3Smrg      rzalloc(ctx->mem_ctx, struct ir3_postsched_node);
7ec681f3Smrg
7ec681f3Smrg   dag_init_node(ctx->dag, &n->dag);
7ec681f3Smrg
7ec681f3Smrg   n->instr = instr;
7ec681f3Smrg   instr->data = n;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgsched_dag_max_delay_cb(struct dag_node *node, void *state)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_node *n = (struct ir3_postsched_node *)node;
7ec681f3Smrg   uint32_t max_delay = 0;
7ec681f3Smrg
7ec681f3Smrg   util_dynarray_foreach (&n->dag.edges, struct dag_edge, edge) {
7ec681f3Smrg      struct ir3_postsched_node *child =
7ec681f3Smrg         (struct ir3_postsched_node *)edge->child;
7ec681f3Smrg      max_delay = MAX2(child->max_delay, max_delay);
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   n->max_delay = MAX2(n->max_delay, max_delay + n->delay);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgsched_dag_init(struct ir3_postsched_ctx *ctx)
7ec681f3Smrg{
7ec681f3Smrg   ctx->mem_ctx = ralloc_context(NULL);
7ec681f3Smrg
7ec681f3Smrg   ctx->dag = dag_create(ctx->mem_ctx);
7ec681f3Smrg
7ec681f3Smrg   foreach_instr (instr, &ctx->unscheduled_list)
7ec681f3Smrg      sched_node_init(ctx, instr);
7ec681f3Smrg
7ec681f3Smrg   calculate_forward_deps(ctx);
7ec681f3Smrg   calculate_reverse_deps(ctx);
7ec681f3Smrg
7ec681f3Smrg   /*
7ec681f3Smrg    * To avoid expensive texture fetches, etc, from being moved ahead
7ec681f3Smrg    * of kills, track the kills we've seen so far, so we can add an
7ec681f3Smrg    * extra dependency on them for tex/mem instructions
7ec681f3Smrg    */
7ec681f3Smrg   struct util_dynarray kills;
7ec681f3Smrg   util_dynarray_init(&kills, ctx->mem_ctx);
7ec681f3Smrg
7ec681f3Smrg   /* The last bary.f with the (ei) flag must be scheduled before any kills,
7ec681f3Smrg    * or the hw gets angry. Keep track of inputs here so we can add the
7ec681f3Smrg    * false dep on the kill instruction.
7ec681f3Smrg    */
7ec681f3Smrg   struct util_dynarray inputs;
7ec681f3Smrg   util_dynarray_init(&inputs, ctx->mem_ctx);
7ec681f3Smrg
7ec681f3Smrg   /*
7ec681f3Smrg    * Normal srcs won't be in SSA at this point, those are dealt with in
7ec681f3Smrg    * calculate_forward_deps() and calculate_reverse_deps().  But we still
7ec681f3Smrg    * have the false-dep information in SSA form, so go ahead and add
7ec681f3Smrg    * dependencies for that here:
7ec681f3Smrg    */
7ec681f3Smrg   foreach_instr (instr, &ctx->unscheduled_list) {
7ec681f3Smrg      struct ir3_postsched_node *n = instr->data;
7ec681f3Smrg
7ec681f3Smrg      foreach_ssa_src_n (src, i, instr) {
7ec681f3Smrg         if (src->block != instr->block)
7ec681f3Smrg            continue;
7ec681f3Smrg
7ec681f3Smrg         /* we can end up with unused false-deps.. just skip them: */
7ec681f3Smrg         if (src->flags & IR3_INSTR_UNUSED)
7ec681f3Smrg            continue;
7ec681f3Smrg
7ec681f3Smrg         struct ir3_postsched_node *sn = src->data;
7ec681f3Smrg
7ec681f3Smrg         /* don't consider dependencies in other blocks: */
7ec681f3Smrg         if (src->block != instr->block)
7ec681f3Smrg            continue;
7ec681f3Smrg
7ec681f3Smrg         dag_add_edge(&sn->dag, &n->dag, NULL);
7ec681f3Smrg      }
7ec681f3Smrg
7ec681f3Smrg      if (is_input(instr)) {
7ec681f3Smrg         util_dynarray_append(&inputs, struct ir3_instruction *, instr);
7ec681f3Smrg      } else if (is_kill_or_demote(instr)) {
7ec681f3Smrg         util_dynarray_foreach (&inputs, struct ir3_instruction *, instrp) {
7ec681f3Smrg            struct ir3_instruction *input = *instrp;
7ec681f3Smrg            struct ir3_postsched_node *in = input->data;
7ec681f3Smrg            dag_add_edge(&in->dag, &n->dag, NULL);
7ec681f3Smrg         }
7ec681f3Smrg         util_dynarray_append(&kills, struct ir3_instruction *, instr);
7ec681f3Smrg      } else if (is_tex(instr) || is_mem(instr)) {
7ec681f3Smrg         util_dynarray_foreach (&kills, struct ir3_instruction *, instrp) {
7ec681f3Smrg            struct ir3_instruction *kill = *instrp;
7ec681f3Smrg            struct ir3_postsched_node *kn = kill->data;
7ec681f3Smrg            dag_add_edge(&kn->dag, &n->dag, NULL);
7ec681f3Smrg         }
7ec681f3Smrg      }
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   // TODO do we want to do this after reverse-dependencies?
7ec681f3Smrg   dag_traverse_bottom_up(ctx->dag, sched_dag_max_delay_cb, NULL);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgsched_dag_destroy(struct ir3_postsched_ctx *ctx)
7ec681f3Smrg{
7ec681f3Smrg   ralloc_free(ctx->mem_ctx);
7ec681f3Smrg   ctx->mem_ctx = NULL;
7ec681f3Smrg   ctx->dag = NULL;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic void
7ec681f3Smrgsched_block(struct ir3_postsched_ctx *ctx, struct ir3_block *block)
7ec681f3Smrg{
7ec681f3Smrg   ctx->block = block;
7ec681f3Smrg   ctx->tex_delay = 0;
7ec681f3Smrg   ctx->sfu_delay = 0;
7ec681f3Smrg
7ec681f3Smrg   /* move all instructions to the unscheduled list, and
7ec681f3Smrg    * empty the block's instruction list (to which we will
7ec681f3Smrg    * be inserting).
7ec681f3Smrg    */
7ec681f3Smrg   list_replace(&block->instr_list, &ctx->unscheduled_list);
7ec681f3Smrg   list_inithead(&block->instr_list);
7ec681f3Smrg
7ec681f3Smrg   // TODO once we are using post-sched for everything we can
7ec681f3Smrg   // just not stick in NOP's prior to post-sched, and drop this.
7ec681f3Smrg   // for now keep this, since it makes post-sched optional:
7ec681f3Smrg   foreach_instr_safe (instr, &ctx->unscheduled_list) {
7ec681f3Smrg      switch (instr->opc) {
7ec681f3Smrg      case OPC_NOP:
7ec681f3Smrg      case OPC_B:
7ec681f3Smrg      case OPC_JUMP:
7ec681f3Smrg         list_delinit(&instr->node);
7ec681f3Smrg         break;
7ec681f3Smrg      default:
7ec681f3Smrg         break;
7ec681f3Smrg      }
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   sched_dag_init(ctx);
7ec681f3Smrg
7ec681f3Smrg   /* First schedule all meta:input instructions, followed by
7ec681f3Smrg    * tex-prefetch.  We want all of the instructions that load
7ec681f3Smrg    * values into registers before the shader starts to go
7ec681f3Smrg    * before any other instructions.  But in particular we
7ec681f3Smrg    * want inputs to come before prefetches.  This is because
7ec681f3Smrg    * a FS's bary_ij input may not actually be live in the
7ec681f3Smrg    * shader, but it should not be scheduled on top of any
7ec681f3Smrg    * other input (but can be overwritten by a tex prefetch)
7ec681f3Smrg    */
7ec681f3Smrg   foreach_instr_safe (instr, &ctx->unscheduled_list)
7ec681f3Smrg      if (instr->opc == OPC_META_INPUT)
7ec681f3Smrg         schedule(ctx, instr);
7ec681f3Smrg
7ec681f3Smrg   foreach_instr_safe (instr, &ctx->unscheduled_list)
7ec681f3Smrg      if (instr->opc == OPC_META_TEX_PREFETCH)
7ec681f3Smrg         schedule(ctx, instr);
7ec681f3Smrg
7ec681f3Smrg   while (!list_is_empty(&ctx->unscheduled_list)) {
7ec681f3Smrg      struct ir3_instruction *instr = choose_instr(ctx);
7ec681f3Smrg
7ec681f3Smrg      unsigned delay =
7ec681f3Smrg         ir3_delay_calc_postra(ctx->block, instr, false, ctx->v->mergedregs);
7ec681f3Smrg      d("delay=%u", delay);
7ec681f3Smrg
7ec681f3Smrg      /* and if we run out of instructions that can be scheduled,
7ec681f3Smrg       * then it is time for nop's:
7ec681f3Smrg       */
7ec681f3Smrg      debug_assert(delay <= 6);
7ec681f3Smrg      while (delay > 0) {
7ec681f3Smrg         ir3_NOP(block);
7ec681f3Smrg         delay--;
7ec681f3Smrg      }
7ec681f3Smrg
7ec681f3Smrg      schedule(ctx, instr);
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   sched_dag_destroy(ctx);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic bool
7ec681f3Smrgis_self_mov(struct ir3_instruction *instr)
7ec681f3Smrg{
7ec681f3Smrg   if (!is_same_type_mov(instr))
7ec681f3Smrg      return false;
7ec681f3Smrg
7ec681f3Smrg   if (instr->dsts[0]->num != instr->srcs[0]->num)
7ec681f3Smrg      return false;
7ec681f3Smrg
7ec681f3Smrg   if (instr->dsts[0]->flags & IR3_REG_RELATIV)
7ec681f3Smrg      return false;
7ec681f3Smrg
7ec681f3Smrg   if (instr->cat1.round != ROUND_ZERO)
7ec681f3Smrg      return false;
7ec681f3Smrg
7ec681f3Smrg   if (instr->srcs[0]->flags &
7ec681f3Smrg       (IR3_REG_CONST | IR3_REG_IMMED | IR3_REG_RELATIV | IR3_REG_FNEG |
7ec681f3Smrg        IR3_REG_FABS | IR3_REG_SNEG | IR3_REG_SABS | IR3_REG_BNOT))
7ec681f3Smrg      return false;
7ec681f3Smrg
7ec681f3Smrg   return true;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/* sometimes we end up w/ in-place mov's, ie. mov.u32u32 r1.y, r1.y
7ec681f3Smrg * as a result of places were before RA we are not sure that it is
7ec681f3Smrg * safe to eliminate.  We could eliminate these earlier, but sometimes
7ec681f3Smrg * they are tangled up in false-dep's, etc, so it is easier just to
7ec681f3Smrg * let them exist until after RA
7ec681f3Smrg */
7ec681f3Smrgstatic void
7ec681f3Smrgcleanup_self_movs(struct ir3 *ir)
7ec681f3Smrg{
7ec681f3Smrg   foreach_block (block, &ir->block_list) {
7ec681f3Smrg      foreach_instr_safe (instr, &block->instr_list) {
7ec681f3Smrg         for (unsigned i = 0; i < instr->deps_count; i++) {
7ec681f3Smrg            if (instr->deps[i] && is_self_mov(instr->deps[i])) {
7ec681f3Smrg               instr->deps[i] = NULL;
7ec681f3Smrg            }
7ec681f3Smrg         }
7ec681f3Smrg
7ec681f3Smrg         if (is_self_mov(instr))
7ec681f3Smrg            list_delinit(&instr->node);
7ec681f3Smrg      }
7ec681f3Smrg   }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgbool
7ec681f3Smrgir3_postsched(struct ir3 *ir, struct ir3_shader_variant *v)
7ec681f3Smrg{
7ec681f3Smrg   struct ir3_postsched_ctx ctx = {
7ec681f3Smrg      .ir = ir,
7ec681f3Smrg      .v = v,
7ec681f3Smrg   };
7ec681f3Smrg
7ec681f3Smrg   ir3_remove_nops(ir);
7ec681f3Smrg   cleanup_self_movs(ir);
7ec681f3Smrg
7ec681f3Smrg   foreach_block (block, &ir->block_list) {
7ec681f3Smrg      sched_block(&ctx, block);
7ec681f3Smrg   }
7ec681f3Smrg
7ec681f3Smrg   return true;
7ec681f3Smrg}