libdl/bert_8hpp_source.html

#pragma once


#include <dl/model/embedding.hpp>

#include <dl/model/model.hpp>

#include <dl/model/transformer/transformer.hpp>

#include <dl/tensor/tensorptr.hpp>


#include <dl/utils/composed.hpp>


namespace nlp {


    struct BERTConfig {

        size_t vocabSize;

        size_t maxPositionEmbeddings;

        size_t typeVocabSize;

    };


    class BERTEmbeddings : public dl::Model<dl::TensorPtr(const dl::TensorPtr&, const dl::TensorPtr&)> {

    private:

        dl::Embedding wordEmbeddings;

        dl::Embedding positionalEmbeddings;

        dl::Embedding tokenTypeEmbeddings;

        dl::LayerNorm layerNorm;


    public:

        BERTEmbeddings(BERTConfig bertConf, dl::TransformerConf config)

                : wordEmbeddings(bertConf.vocabSize, config.dimensions.model),

                  positionalEmbeddings(bertConf.maxPositionEmbeddings, config.dimensions.model),

                  tokenTypeEmbeddings(bertConf.typeVocabSize, config.dimensions.model),

                  layerNorm({config.dimensions.model}) {

            registerSubmodel("word_embeddings", wordEmbeddings);

            registerSubmodel("position_embeddings", positionalEmbeddings);

            registerSubmodel("token_type_embeddings", tokenTypeEmbeddings);

            registerSubmodel("LayerNorm", layerNorm);

        }


        virtual dl::TensorPtr forward(const dl::TensorPtr& inputIds, const dl::TensorPtr& inputTokenTypes) {

            // auto& inputEmbeds = wordEmbeddings.forward(std::forward<decltype(inputIds)>(inputIds));

            // auto& typeEmbeds = tokenTypeEmbeddings.forward(std::forward<decltype(inputTokenTypes)>(inputTokenTypes));

            // return layerNorm.forward(inputEmbeds + typeEmbeds + posEmbeds);

            throw std::runtime_error("Not yet implemented");

        }


    };


    class BERTPooling : public dl::Model<dl::TensorPtr(const dl::TensorPtr&)> {

    private:

        dl::Linear dense;


    public:

        BERTPooling(dl::TransformerConf conf) noexcept : dense(conf.dimensions.model, conf.dimensions.model) {

            registerSubmodel("dense", dense);

        }


        virtual dl::TensorPtr forward(const dl::TensorPtr& input) { return nullptr; }

    };


    class BERT : public dl::Model<dl::TensorPtr(const dl::TensorPtr&)> {

    public:

        static constexpr dl::TransformerConf transformerConf{

                .dimensions = {.model = 768, .key = 64, .value = 64, .inner = 3072},

                .numEncoders = 12,

                .numAttnHeads = 12

        };

        BERTEmbeddings embeddings;

        dl::Transformer encoder;

        BERTPooling pooling;


    public:

        BERT(BERTConfig config)

                : embeddings(config, transformerConf), encoder(transformerConf), pooling(transformerConf) {

            registerSubmodel("bert.embeddings", embeddings);

            registerSubmodel("bert", encoder);

            registerSubmodel("bert.pooler", pooling);

        }


        virtual dl::TensorPtr forward(const dl::TensorPtr& input) override {

            throw std::runtime_error("Not yet implemented");

            // return pooling.forward(encoder.forward(embeddings.forward(input)));

        }


    };


} // namespace nlp

dl::Embedding
Definition embedding.hpp:8

dl::LayerNorm
Implements layer normalization as proposed by .
Definition layernorm.hpp:12

dl::Linear
Applies a learnable linear transformation with optional bias.
Definition linear.hpp:12

dl::Model
Definition model.hpp:33

dl::TensorPtr
The Tensor is a managed pointer to a tensor. It can generally be thought of like an std::unique_ptr<T...
Definition tensorptr.hpp:45

dl::Transformer
Definition transformer.hpp:107

nlp::BERTEmbeddings
Definition bert.hpp:18

nlp::BERTEmbeddings::forward
virtual dl::TensorPtr forward(const dl::TensorPtr &inputIds, const dl::TensorPtr &inputTokenTypes)
Definition bert.hpp:37

nlp::BERTPooling
Definition bert.hpp:48

nlp::BERT
Definition bert.hpp:64

nlp::BERT::forward
virtual dl::TensorPtr forward(const dl::TensorPtr &input) override
Definition bert.hpp:83

std::runtime_error

dl::TransformerConf
Definition transformer.hpp:25

dl::TransformerConf::model
size_t model
Definition transformer.hpp:27

nlp::BERTConfig
Definition bert.hpp:12