libdl/transformer_8hpp_source.html

#pragma once


#include "../layernorm.hpp"

#include "../linear.hpp"

#include "../model.hpp"


#include <cmath>

#include <vector>


namespace dl {


    constexpr double calcPosEncoding(size_t pos, size_t i, size_t dimModel) {

        return (i % 2 == 0) ? std::sin(pos / std::pow(10000, i / dimModel))

                            : std::sin(pos / std::pow(10000, (i - 1) / dimModel));

    }


    struct TransformerConf {

        struct {

            size_t model;

            size_t key;

            size_t value;

            size_t inner;

        } dimensions;

        size_t numEncoders;

        size_t numAttnHeads;

    };


    class TransformerEncoder final : public Model<TensorPtr(TensorPtr)> {

    public:

        TransformerConf conf;

        // Multi-Head Attention

        dl::Linear weightQuery;

        dl::Linear weightKey;

        dl::Linear weightValue;

        dl::Linear weightOut;

        dl::Linear weightIntermed;

        dl::LayerNorm mhaNorm;

        // FFN

        dl::Linear weightIntermedOut;

        dl::LayerNorm ffnNorm;


        TransformerEncoder(TransformerEncoder& other) = delete;

        TransformerEncoder(TransformerEncoder&& other) = delete;


    public:

        TransformerEncoder(TransformerConf conf) noexcept;

        virtual TensorPtr forward(TensorPtr input) override;


        const float dimKeysInvSqrt;


        TensorPtr scaledDotProductAttention(TensorPtr query, TensorPtr key, TensorPtr value) noexcept;


        TensorPtr multiHeadAttention(TensorPtr query, TensorPtr key, TensorPtr value) noexcept;

    };


    class Transformer final : public Model<TensorPtr(TensorPtr)> {

    public:

        const TransformerConf conf;

        std::vector<std::unique_ptr<TransformerEncoder>> encoders;

        dl::Linear weightOut;


    public:

        Transformer(TransformerConf conf) noexcept;


        virtual TensorPtr forward(TensorPtr input) override;

    };


}; // namespace dl

dl::LayerNorm
Implements layer normalization as proposed by .
Definition layernorm.hpp:12

dl::Linear
Applies a learnable linear transformation with optional bias.
Definition linear.hpp:12

dl::Model
Definition model.hpp:33

dl::TensorPtr
The Tensor is a managed pointer to a tensor. It can generally be thought of like an std::unique_ptr<T...
Definition tensorptr.hpp:45

dl::TransformerEncoder
Definition transformer.hpp:36

dl::TransformerEncoder::dimKeysInvSqrt
const float dimKeysInvSqrt
The precomputed inverse square root of dimKeys.
Definition transformer.hpp:62

dl::TransformerEncoder::scaledDotProductAttention
TensorPtr scaledDotProductAttention(TensorPtr query, TensorPtr key, TensorPtr value) noexcept
Implements the scaled dot-product attention.

dl::TransformerEncoder::multiHeadAttention
TensorPtr multiHeadAttention(TensorPtr query, TensorPtr key, TensorPtr value) noexcept
Implements the transformer's multi-head attention.

dl::Transformer
Definition transformer.hpp:107

dl::pow
TensorPtr pow(TensorPtr base, float exponent) noexcept
Computes the exponent -th power of each element in base and returns the resulting tensor.

std

std::pow
T pow(T... args)

std::sin
T sin(T... args)

dl::TransformerConf
Definition transformer.hpp:25

dl::TransformerConf::model
size_t model
Definition transformer.hpp:27

dl::TransformerConf::key
size_t key
Definition transformer.hpp:28

dl::TransformerConf::value
size_t value
Definition transformer.hpp:29

dl::TransformerConf::inner
size_t inner
Definition transformer.hpp:30

std::vector