broadcom/compiler/vir_to_qpu.c

b8e80941Smrg/*
b8e80941Smrg * Copyright © 2016 Broadcom
b8e80941Smrg *
b8e80941Smrg * Permission is hereby granted, free of charge, to any person obtaining a
b8e80941Smrg * copy of this software and associated documentation files (the "Software"),
b8e80941Smrg * to deal in the Software without restriction, including without limitation
b8e80941Smrg * the rights to use, copy, modify, merge, publish, distribute, sublicense,
b8e80941Smrg * and/or sell copies of the Software, and to permit persons to whom the
b8e80941Smrg * Software is furnished to do so, subject to the following conditions:
b8e80941Smrg *
b8e80941Smrg * The above copyright notice and this permission notice (including the next
b8e80941Smrg * paragraph) shall be included in all copies or substantial portions of the
b8e80941Smrg * Software.
b8e80941Smrg *
b8e80941Smrg * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
b8e80941Smrg * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
b8e80941Smrg * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
b8e80941Smrg * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
b8e80941Smrg * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
b8e80941Smrg * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS
b8e80941Smrg * IN THE SOFTWARE.
b8e80941Smrg */
b8e80941Smrg
b8e80941Smrg#include "compiler/v3d_compiler.h"
b8e80941Smrg#include "qpu/qpu_instr.h"
b8e80941Smrg#include "qpu/qpu_disasm.h"
b8e80941Smrg
b8e80941Smrgstatic inline struct qpu_reg
b8e80941Smrgqpu_reg(int index)
b8e80941Smrg{
b8e80941Smrg        struct qpu_reg reg = {
b8e80941Smrg                .magic = false,
b8e80941Smrg                .index = index,
b8e80941Smrg        };
b8e80941Smrg        return reg;
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic inline struct qpu_reg
b8e80941Smrgqpu_magic(enum v3d_qpu_waddr waddr)
b8e80941Smrg{
b8e80941Smrg        struct qpu_reg reg = {
b8e80941Smrg                .magic = true,
b8e80941Smrg                .index = waddr,
b8e80941Smrg        };
b8e80941Smrg        return reg;
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic inline struct qpu_reg
b8e80941Smrgqpu_acc(int acc)
b8e80941Smrg{
b8e80941Smrg        return qpu_magic(V3D_QPU_WADDR_R0 + acc);
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstruct v3d_qpu_instr
b8e80941Smrgv3d_qpu_nop(void)
b8e80941Smrg{
b8e80941Smrg        struct v3d_qpu_instr instr = {
b8e80941Smrg                .type = V3D_QPU_INSTR_TYPE_ALU,
b8e80941Smrg                .alu = {
b8e80941Smrg                        .add = {
b8e80941Smrg                                .op = V3D_QPU_A_NOP,
b8e80941Smrg                                .waddr = V3D_QPU_WADDR_NOP,
b8e80941Smrg                                .magic_write = true,
b8e80941Smrg                        },
b8e80941Smrg                        .mul = {
b8e80941Smrg                                .op = V3D_QPU_M_NOP,
b8e80941Smrg                                .waddr = V3D_QPU_WADDR_NOP,
b8e80941Smrg                                .magic_write = true,
b8e80941Smrg                        },
b8e80941Smrg                }
b8e80941Smrg        };
b8e80941Smrg
b8e80941Smrg        return instr;
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic struct qinst *
b8e80941Smrgvir_nop(void)
b8e80941Smrg{
b8e80941Smrg        struct qreg undef = vir_nop_reg();
b8e80941Smrg        struct qinst *qinst = vir_add_inst(V3D_QPU_A_NOP, undef, undef, undef);
b8e80941Smrg
b8e80941Smrg        return qinst;
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic struct qinst *
b8e80941Smrgnew_qpu_nop_before(struct qinst *inst)
b8e80941Smrg{
b8e80941Smrg        struct qinst *q = vir_nop();
b8e80941Smrg
b8e80941Smrg        list_addtail(&q->link, &inst->link);
b8e80941Smrg
b8e80941Smrg        return q;
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrg/**
b8e80941Smrg * Allocates the src register (accumulator or register file) into the RADDR
b8e80941Smrg * fields of the instruction.
b8e80941Smrg */
b8e80941Smrgstatic void
b8e80941Smrgset_src(struct v3d_qpu_instr *instr, enum v3d_qpu_mux *mux, struct qpu_reg src)
b8e80941Smrg{
b8e80941Smrg        if (src.smimm) {
b8e80941Smrg                assert(instr->sig.small_imm);
b8e80941Smrg                *mux = V3D_QPU_MUX_B;
b8e80941Smrg                return;
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        if (src.magic) {
b8e80941Smrg                assert(src.index >= V3D_QPU_WADDR_R0 &&
b8e80941Smrg                       src.index <= V3D_QPU_WADDR_R5);
b8e80941Smrg                *mux = src.index - V3D_QPU_WADDR_R0 + V3D_QPU_MUX_R0;
b8e80941Smrg                return;
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        if (instr->alu.add.a != V3D_QPU_MUX_A &&
b8e80941Smrg            instr->alu.add.b != V3D_QPU_MUX_A &&
b8e80941Smrg            instr->alu.mul.a != V3D_QPU_MUX_A &&
b8e80941Smrg            instr->alu.mul.b != V3D_QPU_MUX_A) {
b8e80941Smrg                instr->raddr_a = src.index;
b8e80941Smrg                *mux = V3D_QPU_MUX_A;
b8e80941Smrg        } else {
b8e80941Smrg                if (instr->raddr_a == src.index) {
b8e80941Smrg                        *mux = V3D_QPU_MUX_A;
b8e80941Smrg                } else {
b8e80941Smrg                        assert(!(instr->alu.add.a == V3D_QPU_MUX_B &&
b8e80941Smrg                                 instr->alu.add.b == V3D_QPU_MUX_B &&
b8e80941Smrg                                 instr->alu.mul.a == V3D_QPU_MUX_B &&
b8e80941Smrg                                 instr->alu.mul.b == V3D_QPU_MUX_B) ||
b8e80941Smrg                               src.index == instr->raddr_b);
b8e80941Smrg
b8e80941Smrg                        instr->raddr_b = src.index;
b8e80941Smrg                        *mux = V3D_QPU_MUX_B;
b8e80941Smrg                }
b8e80941Smrg        }
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic bool
b8e80941Smrgis_no_op_mov(struct qinst *qinst)
b8e80941Smrg{
b8e80941Smrg        static const struct v3d_qpu_sig no_sig = {0};
b8e80941Smrg
b8e80941Smrg        /* Make sure it's just a lone MOV. */
b8e80941Smrg        if (qinst->qpu.type != V3D_QPU_INSTR_TYPE_ALU ||
b8e80941Smrg            qinst->qpu.alu.mul.op != V3D_QPU_M_MOV ||
b8e80941Smrg            qinst->qpu.alu.add.op != V3D_QPU_A_NOP ||
b8e80941Smrg            memcmp(&qinst->qpu.sig, &no_sig, sizeof(no_sig)) != 0) {
b8e80941Smrg                return false;
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        /* Check if it's a MOV from a register to itself. */
b8e80941Smrg        enum v3d_qpu_waddr waddr = qinst->qpu.alu.mul.waddr;
b8e80941Smrg        if (qinst->qpu.alu.mul.magic_write) {
b8e80941Smrg                if (waddr < V3D_QPU_WADDR_R0 || waddr > V3D_QPU_WADDR_R4)
b8e80941Smrg                        return false;
b8e80941Smrg
b8e80941Smrg                if (qinst->qpu.alu.mul.a !=
b8e80941Smrg                    V3D_QPU_MUX_R0 + (waddr - V3D_QPU_WADDR_R0)) {
b8e80941Smrg                        return false;
b8e80941Smrg                }
b8e80941Smrg        } else {
b8e80941Smrg                int raddr;
b8e80941Smrg
b8e80941Smrg                switch (qinst->qpu.alu.mul.a) {
b8e80941Smrg                case V3D_QPU_MUX_A:
b8e80941Smrg                        raddr = qinst->qpu.raddr_a;
b8e80941Smrg                        break;
b8e80941Smrg                case V3D_QPU_MUX_B:
b8e80941Smrg                        raddr = qinst->qpu.raddr_b;
b8e80941Smrg                        break;
b8e80941Smrg                default:
b8e80941Smrg                        return false;
b8e80941Smrg                }
b8e80941Smrg                if (raddr != waddr)
b8e80941Smrg                        return false;
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        /* No packing or flags updates, or we need to execute the
b8e80941Smrg         * instruction.
b8e80941Smrg         */
b8e80941Smrg        if (qinst->qpu.alu.mul.a_unpack != V3D_QPU_UNPACK_NONE ||
b8e80941Smrg            qinst->qpu.alu.mul.output_pack != V3D_QPU_PACK_NONE ||
b8e80941Smrg            qinst->qpu.flags.mc != V3D_QPU_COND_NONE ||
b8e80941Smrg            qinst->qpu.flags.mpf != V3D_QPU_PF_NONE ||
b8e80941Smrg            qinst->qpu.flags.muf != V3D_QPU_UF_NONE) {
b8e80941Smrg                return false;
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        return true;
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic void
b8e80941Smrgv3d_generate_code_block(struct v3d_compile *c,
b8e80941Smrg                        struct qblock *block,
b8e80941Smrg                        struct qpu_reg *temp_registers)
b8e80941Smrg{
b8e80941Smrg        int last_vpm_read_index = -1;
b8e80941Smrg
b8e80941Smrg        vir_for_each_inst_safe(qinst, block) {
b8e80941Smrg#if 0
b8e80941Smrg                fprintf(stderr, "translating qinst to qpu: ");
b8e80941Smrg                vir_dump_inst(c, qinst);
b8e80941Smrg                fprintf(stderr, "\n");
b8e80941Smrg#endif
b8e80941Smrg
b8e80941Smrg                struct qinst *temp;
b8e80941Smrg
b8e80941Smrg                if (vir_has_uniform(qinst))
b8e80941Smrg                        c->num_uniforms++;
b8e80941Smrg
b8e80941Smrg                int nsrc = vir_get_nsrc(qinst);
b8e80941Smrg                struct qpu_reg src[ARRAY_SIZE(qinst->src)];
b8e80941Smrg                for (int i = 0; i < nsrc; i++) {
b8e80941Smrg                        int index = qinst->src[i].index;
b8e80941Smrg                        switch (qinst->src[i].file) {
b8e80941Smrg                        case QFILE_REG:
b8e80941Smrg                                src[i] = qpu_reg(qinst->src[i].index);
b8e80941Smrg                                break;
b8e80941Smrg                        case QFILE_MAGIC:
b8e80941Smrg                                src[i] = qpu_magic(qinst->src[i].index);
b8e80941Smrg                                break;
b8e80941Smrg                        case QFILE_NULL:
b8e80941Smrg                        case QFILE_LOAD_IMM:
b8e80941Smrg                                src[i] = qpu_acc(0);
b8e80941Smrg                                break;
b8e80941Smrg                        case QFILE_TEMP:
b8e80941Smrg                                src[i] = temp_registers[index];
b8e80941Smrg                                break;
b8e80941Smrg                        case QFILE_SMALL_IMM:
b8e80941Smrg                                src[i].smimm = true;
b8e80941Smrg                                break;
b8e80941Smrg
b8e80941Smrg                        case QFILE_VPM:
b8e80941Smrg                                assert((int)qinst->src[i].index >=
b8e80941Smrg                                       last_vpm_read_index);
b8e80941Smrg                                (void)last_vpm_read_index;
b8e80941Smrg                                last_vpm_read_index = qinst->src[i].index;
b8e80941Smrg
b8e80941Smrg                                temp = new_qpu_nop_before(qinst);
b8e80941Smrg                                temp->qpu.sig.ldvpm = true;
b8e80941Smrg
b8e80941Smrg                                src[i] = qpu_acc(3);
b8e80941Smrg                                break;
b8e80941Smrg                        }
b8e80941Smrg                }
b8e80941Smrg
b8e80941Smrg                struct qpu_reg dst;
b8e80941Smrg                switch (qinst->dst.file) {
b8e80941Smrg                case QFILE_NULL:
b8e80941Smrg                        dst = qpu_magic(V3D_QPU_WADDR_NOP);
b8e80941Smrg                        break;
b8e80941Smrg
b8e80941Smrg                case QFILE_REG:
b8e80941Smrg                        dst = qpu_reg(qinst->dst.index);
b8e80941Smrg                        break;
b8e80941Smrg
b8e80941Smrg                case QFILE_MAGIC:
b8e80941Smrg                        dst = qpu_magic(qinst->dst.index);
b8e80941Smrg                        break;
b8e80941Smrg
b8e80941Smrg                case QFILE_TEMP:
b8e80941Smrg                        dst = temp_registers[qinst->dst.index];
b8e80941Smrg                        break;
b8e80941Smrg
b8e80941Smrg                case QFILE_VPM:
b8e80941Smrg                        dst = qpu_magic(V3D_QPU_WADDR_VPM);
b8e80941Smrg                        break;
b8e80941Smrg
b8e80941Smrg                case QFILE_SMALL_IMM:
b8e80941Smrg                case QFILE_LOAD_IMM:
b8e80941Smrg                        assert(!"not reached");
b8e80941Smrg                        break;
b8e80941Smrg                }
b8e80941Smrg
b8e80941Smrg                if (qinst->qpu.type == V3D_QPU_INSTR_TYPE_ALU) {
b8e80941Smrg                        if (qinst->qpu.sig.ldunif) {
b8e80941Smrg                                assert(qinst->qpu.alu.add.op == V3D_QPU_A_NOP);
b8e80941Smrg                                assert(qinst->qpu.alu.mul.op == V3D_QPU_M_NOP);
b8e80941Smrg
b8e80941Smrg                                if (!dst.magic ||
b8e80941Smrg                                    dst.index != V3D_QPU_WADDR_R5) {
b8e80941Smrg                                        assert(c->devinfo->ver >= 40);
b8e80941Smrg
b8e80941Smrg                                        qinst->qpu.sig.ldunif = false;
b8e80941Smrg                                        qinst->qpu.sig.ldunifrf = true;
b8e80941Smrg                                        qinst->qpu.sig_addr = dst.index;
b8e80941Smrg                                        qinst->qpu.sig_magic = dst.magic;
b8e80941Smrg                                }
b8e80941Smrg                        } else if (v3d_qpu_sig_writes_address(c->devinfo,
b8e80941Smrg                                                       &qinst->qpu.sig)) {
b8e80941Smrg                                assert(qinst->qpu.alu.add.op == V3D_QPU_A_NOP);
b8e80941Smrg                                assert(qinst->qpu.alu.mul.op == V3D_QPU_M_NOP);
b8e80941Smrg
b8e80941Smrg                                qinst->qpu.sig_addr = dst.index;
b8e80941Smrg                                qinst->qpu.sig_magic = dst.magic;
b8e80941Smrg                        } else if (qinst->qpu.alu.add.op != V3D_QPU_A_NOP) {
b8e80941Smrg                                assert(qinst->qpu.alu.mul.op == V3D_QPU_M_NOP);
b8e80941Smrg                                if (nsrc >= 1) {
b8e80941Smrg                                        set_src(&qinst->qpu,
b8e80941Smrg                                                &qinst->qpu.alu.add.a, src[0]);
b8e80941Smrg                                }
b8e80941Smrg                                if (nsrc >= 2) {
b8e80941Smrg                                        set_src(&qinst->qpu,
b8e80941Smrg                                                &qinst->qpu.alu.add.b, src[1]);
b8e80941Smrg                                }
b8e80941Smrg
b8e80941Smrg                                qinst->qpu.alu.add.waddr = dst.index;
b8e80941Smrg                                qinst->qpu.alu.add.magic_write = dst.magic;
b8e80941Smrg                        } else {
b8e80941Smrg                                if (nsrc >= 1) {
b8e80941Smrg                                        set_src(&qinst->qpu,
b8e80941Smrg                                                &qinst->qpu.alu.mul.a, src[0]);
b8e80941Smrg                                }
b8e80941Smrg                                if (nsrc >= 2) {
b8e80941Smrg                                        set_src(&qinst->qpu,
b8e80941Smrg                                                &qinst->qpu.alu.mul.b, src[1]);
b8e80941Smrg                                }
b8e80941Smrg
b8e80941Smrg                                qinst->qpu.alu.mul.waddr = dst.index;
b8e80941Smrg                                qinst->qpu.alu.mul.magic_write = dst.magic;
b8e80941Smrg
b8e80941Smrg                                if (is_no_op_mov(qinst)) {
b8e80941Smrg                                        vir_remove_instruction(c, qinst);
b8e80941Smrg                                        continue;
b8e80941Smrg                                }
b8e80941Smrg                        }
b8e80941Smrg                } else {
b8e80941Smrg                        assert(qinst->qpu.type == V3D_QPU_INSTR_TYPE_BRANCH);
b8e80941Smrg                }
b8e80941Smrg        }
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic bool
b8e80941Smrgreads_uniform(const struct v3d_device_info *devinfo, uint64_t instruction)
b8e80941Smrg{
b8e80941Smrg        struct v3d_qpu_instr qpu;
b8e80941Smrg        MAYBE_UNUSED bool ok = v3d_qpu_instr_unpack(devinfo, instruction, &qpu);
b8e80941Smrg        assert(ok);
b8e80941Smrg
b8e80941Smrg        if (qpu.sig.ldunif ||
b8e80941Smrg            qpu.sig.ldunifrf ||
b8e80941Smrg            qpu.sig.wrtmuc) {
b8e80941Smrg                return true;
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        if (qpu.type == V3D_QPU_INSTR_TYPE_BRANCH)
b8e80941Smrg                return true;
b8e80941Smrg
b8e80941Smrg        if (qpu.type == V3D_QPU_INSTR_TYPE_ALU) {
b8e80941Smrg                if (qpu.alu.add.magic_write &&
b8e80941Smrg                    v3d_qpu_magic_waddr_loads_unif(qpu.alu.add.waddr)) {
b8e80941Smrg                        return true;
b8e80941Smrg                }
b8e80941Smrg
b8e80941Smrg                if (qpu.alu.mul.magic_write &&
b8e80941Smrg                    v3d_qpu_magic_waddr_loads_unif(qpu.alu.mul.waddr)) {
b8e80941Smrg                        return true;
b8e80941Smrg                }
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        return false;
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic void
b8e80941Smrgv3d_dump_qpu(struct v3d_compile *c)
b8e80941Smrg{
b8e80941Smrg        fprintf(stderr, "%s prog %d/%d QPU:\n",
b8e80941Smrg                vir_get_stage_name(c),
b8e80941Smrg                c->program_id, c->variant_id);
b8e80941Smrg
b8e80941Smrg        int next_uniform = 0;
b8e80941Smrg        for (int i = 0; i < c->qpu_inst_count; i++) {
b8e80941Smrg                const char *str = v3d_qpu_disasm(c->devinfo, c->qpu_insts[i]);
b8e80941Smrg                fprintf(stderr, "0x%016"PRIx64" %s", c->qpu_insts[i], str);
b8e80941Smrg
b8e80941Smrg                /* We can only do this on 4.x, because we're not tracking TMU
b8e80941Smrg                 * implicit uniforms here on 3.x.
b8e80941Smrg                 */
b8e80941Smrg                if (c->devinfo->ver >= 40 &&
b8e80941Smrg                    reads_uniform(c->devinfo, c->qpu_insts[i])) {
b8e80941Smrg                        fprintf(stderr, " (");
b8e80941Smrg                        vir_dump_uniform(c->uniform_contents[next_uniform],
b8e80941Smrg                                         c->uniform_data[next_uniform]);
b8e80941Smrg                        fprintf(stderr, ")");
b8e80941Smrg                        next_uniform++;
b8e80941Smrg                }
b8e80941Smrg                fprintf(stderr, "\n");
b8e80941Smrg                ralloc_free((void *)str);
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        /* Make sure our dumping lined up. */
b8e80941Smrg        if (c->devinfo->ver >= 40)
b8e80941Smrg                assert(next_uniform == c->num_uniforms);
b8e80941Smrg
b8e80941Smrg        fprintf(stderr, "\n");
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgvoid
b8e80941Smrgv3d_vir_to_qpu(struct v3d_compile *c, struct qpu_reg *temp_registers)
b8e80941Smrg{
b8e80941Smrg        /* Reset the uniform count to how many will be actually loaded by the
b8e80941Smrg         * generated QPU code.
b8e80941Smrg         */
b8e80941Smrg        c->num_uniforms = 0;
b8e80941Smrg
b8e80941Smrg        vir_for_each_block(block, c)
b8e80941Smrg                v3d_generate_code_block(c, block, temp_registers);
b8e80941Smrg
b8e80941Smrg        v3d_qpu_schedule_instructions(c);
b8e80941Smrg
b8e80941Smrg        c->qpu_insts = rzalloc_array(c, uint64_t, c->qpu_inst_count);
b8e80941Smrg        int i = 0;
b8e80941Smrg        vir_for_each_inst_inorder(inst, c) {
b8e80941Smrg                bool ok = v3d_qpu_instr_pack(c->devinfo, &inst->qpu,
b8e80941Smrg                                             &c->qpu_insts[i++]);
b8e80941Smrg                if (!ok) {
b8e80941Smrg                        fprintf(stderr, "Failed to pack instruction:\n");
b8e80941Smrg                        vir_dump_inst(c, inst);
b8e80941Smrg                        fprintf(stderr, "\n");
b8e80941Smrg                        c->failed = true;
b8e80941Smrg                        return;
b8e80941Smrg                }
b8e80941Smrg        }
b8e80941Smrg        assert(i == c->qpu_inst_count);
b8e80941Smrg
b8e80941Smrg        if (V3D_DEBUG & (V3D_DEBUG_QPU |
b8e80941Smrg                         v3d_debug_flag_for_shader_stage(c->s->info.stage))) {
b8e80941Smrg                v3d_dump_qpu(c);
b8e80941Smrg        }
b8e80941Smrg
b8e80941Smrg        qpu_validate(c);
b8e80941Smrg
b8e80941Smrg        free(temp_registers);
b8e80941Smrg}