3. Natural Language Processing

3.1 `moe`

3.1.1 `ExpertModel(input_dim, output_dim, hidden_dim)`

Modelo experto individual para MoE

Initializes an expert model with a simple feed-forward network.

Parameters:

Name	Type	Description	Default
`input_dim`	`int`	Dimensionality of the input data.	required
`output_dim`	`int`	Dimensionality of the output data.	required
`hidden_dim`	`int`	Dimensionality of the hidden layer.	required

Source code in src/layers/nlp/moe.py

def __init__(self, input_dim: int, output_dim: int, hidden_dim: int) -> None:
    """
    Initializes an expert model with a simple feed-forward network.

    Args:
        input_dim: Dimensionality of the input data.
        output_dim: Dimensionality of the output data.
        hidden_dim: Dimensionality of the hidden layer.
    """

    super().__init__()

    self.input_dim = input_dim
    self.output_dim = output_dim
    self.hidden_dim = hidden_dim

    self.model = nn.Sequential(
        nn.Linear(in_features=self.input_dim, out_features=self.hidden_dim),
        nn.ReLU(),
        nn.Linear(in_features=self.hidden_dim, out_features=self.output_dim),
    )

3.1.1.1 `forward(input_tensor)`

Forward pass through the expert model.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Input tensor to the model.	required

Returns:

Type	Description
`Tensor`	The model's output tensor.

Source code in src/layers/nlp/moe.py

def forward(self, input_tensor: torch.Tensor) -> torch.Tensor:
    """
    Forward pass through the expert model.

    Args:
        input_tensor: Input tensor to the model.

    Returns:
        The model's output tensor.
    """

    return self.model(input_tensor)

3.1.2 `Gating(input_dim, num_experts, dropout_rate=0.2)`

Gating mechanism to select experts.

Initializes a gating network for expert selection.

Parameters:

Name	Type	Description	Default
`input_dim`	`int`	Dimensionality of the input data.	required
`num_experts`	`int`	Number of experts to select from.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	`0.2`

Source code in src/layers/nlp/moe.py

def __init__(
    self, input_dim: int, num_experts: int, dropout_rate: float = 0.2
) -> None:
    """
    Initializes a gating network for expert selection.

    Args:
        input_dim: Dimensionality of the input data.
        num_experts: Number of experts to select from.
        dropout_rate: Rate of dropout for regularization.
    """

    super().__init__()

    self.input_dim = input_dim
    self.num_experts = num_experts
    self.dropout_rate = dropout_rate

    self.model = nn.Sequential(
        nn.Linear(in_features=self.input_dim, out_features=128),
        nn.Dropout(self.dropout_rate),
        nn.LeakyReLU(),
        nn.Linear(in_features=128, out_features=256),
        nn.LeakyReLU(),
        nn.Dropout(self.dropout_rate),
        nn.Linear(in_features=256, out_features=128),
        nn.LeakyReLU(),
        nn.Dropout(self.dropout_rate),
        nn.Linear(in_features=128, out_features=num_experts),
    )

3.1.2.1 `forward(input_tensor)`

Forward pass through the gating network.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Input tensor to the network.	required

Returns:

Type	Description
`Tensor`	Softmax probabilities for expert selection.

Source code in src/layers/nlp/moe.py

def forward(self, input_tensor: torch.Tensor) -> torch.Tensor:
    """
    Forward pass through the gating network.

    Args:
        input_tensor: Input tensor to the network.

    Returns:
        Softmax probabilities for expert selection.
    """

    return F.softmax(self.model(input_tensor), dim=-1)

3.1.3 `MoE(trained_experts, input_dim, dropout_rate=0.2)`

Mixture of Experts

Initializes a mixture of experts with gating.

Parameters:

Name	Type	Description	Default
`trained_experts`	`list[ExpertModel]`	List of trained expert models.	required
`input_dim`	`int`	Dimensionality of the input data.	required
`dropout_rate`	`float`	Rate of dropout in the gating network.	`0.2`

Source code in src/layers/nlp/moe.py

def __init__(
    self,
    trained_experts: list[ExpertModel],
    input_dim: int,
    dropout_rate: float = 0.2,
) -> None:
    """
    Initializes a mixture of experts with gating.

    Args:
        trained_experts: List of trained expert models.
        input_dim: Dimensionality of the input data.
        dropout_rate: Rate of dropout in the gating network.
    """

    super().__init__()

    self.experts = nn.ModuleList(trained_experts)
    self.num_experts = len(trained_experts)
    self.input_dim = input_dim
    self.dropout_rate = dropout_rate

    self.gating_layer = Gating(
        input_dim=self.input_dim,
        num_experts=self.num_experts,
        dropout_rate=self.dropout_rate,
    )

3.1.3.1 `forward(input_tensor)`

Forward pass through the mixture of experts.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Input tensor to the model.	required

Returns:

Type	Description
`Tensor`	Weighted sum of expert outputs.

Source code in src/layers/nlp/moe.py

def forward(self, input_tensor: torch.Tensor) -> torch.Tensor:
    """
    Forward pass through the mixture of experts.

    Args:
        input_tensor: Input tensor to the model.

    Returns:
        Weighted sum of expert outputs.
    """

    # Obtenemos los pesos del selector
    expert_weights = self.gating_layer(input_tensor)

    # Obtenemos la salida de todos los expertos
    _expert_outputs: list[torch.Tensor] = []
    for expert in self.experts:
        _expert_outputs.append(expert(input_tensor))

    # Stack de salidas [b, output_dim, num_experts]
    expert_outputs = torch.stack(_expert_outputs, dim=-1)

    # [b, num_experts] -> [b, 1, num_experts]
    expert_weights = expert_weights.unsqueeze(1)

    # Suma ponderada de la selección de expertos
    # [b, output_dim, num_experts] * [b, 1, num_experts]
    return torch.sum(expert_outputs * expert_weights, dim=-1)

3.2 `transformer`

3.2.1 `DecoderBlock(d_model, d_ff, h, dropout_rate)`

Decoder block with masked attention, cross-attention, and feed-forward layers.

Initializes decoder block.

Parameters:

Name	Type	Description	Default
`d_model`	`int`	Dimensionality of model embeddings.	required
`d_ff`	`int`	Dimensionality of feed-forward layer.	required
`h`	`int`	Number of attention heads.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, d_model: int, d_ff: int, h: int, dropout_rate: float) -> None:
    """
    Initializes decoder block.

    Args:
        d_model: Dimensionality of model embeddings.
        d_ff: Dimensionality of feed-forward layer.
        h: Number of attention heads.
        dropout_rate: Rate of dropout for regularization.
    """

    super().__init__()

    # Parametros
    self.d_model = d_model
    self.d_ff = d_ff
    self.h = h
    self.dropout_rate = dropout_rate

    self.masked_multi_head_attention_layer = MultiHeadAttention(
        d_model=self.d_model, h=self.h, dropout_rate=self.dropout_rate
    )
    self.residual_layer_1 = ResidualConnection(
        features=d_model, dropout_rate=self.dropout_rate
    )
    self.multi_head_attention_layer = MultiHeadAttention(
        d_model=self.d_model, h=self.h, dropout_rate=self.dropout_rate
    )
    self.residual_layer_2 = ResidualConnection(
        features=d_model, dropout_rate=self.dropout_rate
    )
    self.feed_forward_layer = FeedForward(
        d_model=self.d_model, d_ff=self.d_ff, dropout_rate=self.dropout_rate
    )
    self.residual_layer_3 = ResidualConnection(
        features=d_model, dropout_rate=self.dropout_rate
    )

3.2.1.1 `forward(decoder_input, encoder_output, src_mask=None, tgt_mask=None)`

Forward pass through decoder block.

Parameters:

Name	Type	Description	Default
`decoder_input`	`Tensor`	Input tensor to the decoder block.	required
`encoder_output`	`Tensor`	Output tensor from the encoder.	required
`src_mask`	`Tensor \| None`	Optional source mask tensor.	`None`
`tgt_mask`	`Tensor \| None`	Optional target mask tensor.	`None`

Returns:

Type	Description
`Tensor`	Tensor after processing by the decoder block.

Source code in src/layers/nlp/transformer.py

def forward(
    self,
    decoder_input: torch.Tensor,
    encoder_output: torch.Tensor,
    src_mask: torch.Tensor | None = None,  # Máscara para el encoder (padding)
    tgt_mask: torch.Tensor | None = None,  # Máscara causal para el decoder
) -> torch.Tensor:
    """
    Forward pass through decoder block.

    Args:
        decoder_input: Input tensor to the decoder block.
        encoder_output: Output tensor from the encoder.
        src_mask: Optional source mask tensor.
        tgt_mask: Optional target mask tensor.

    Returns:
        Tensor after processing by the decoder block.
    """

    # Utilizamos self-attention, por lo que k, q, v son del mismo vector de entrada
    decoder_input = self.residual_layer_1(
        decoder_input,
        lambda x: self.masked_multi_head_attention_layer(
            k=x, q=x, v=x, mask=tgt_mask
        ),
    )

    # Aquí tenemos que hacer cross-attention, usamos como K, V los encoder
    # y Q del decoder
    decoder_input = self.residual_layer_2(
        decoder_input,
        lambda x: self.multi_head_attention_layer(
            k=encoder_output, q=x, v=encoder_output, mask=src_mask
        ),
    )

    decoder_output = self.residual_layer_3(
        decoder_input, lambda x: self.feed_forward_layer(x)
    )

    return decoder_output

3.2.2 `EncoderBlock(d_model, d_ff, h, dropout_rate)`

Encoder block with attention and feed-forward layers.

Initializes encoder block.

Parameters:

Name	Type	Description	Default
`d_model`	`int`	Dimensionality of model embeddings.	required
`d_ff`	`int`	Dimensionality of feed-forward layer.	required
`h`	`int`	Number of attention heads.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, d_model: int, d_ff: int, h: int, dropout_rate: float) -> None:
    """
    Initializes encoder block.

    Args:
        d_model: Dimensionality of model embeddings.
        d_ff: Dimensionality of feed-forward layer.
        h: Number of attention heads.
        dropout_rate: Rate of dropout for regularization.
    """

    super().__init__()

    # Parametros
    self.d_model = d_model
    self.d_ff = d_ff
    self.h = h
    self.dropout_rate = dropout_rate

    # Definicion de las capas
    self.multi_head_attention_layer = MultiHeadAttention(
        d_model=self.d_model, h=self.h, dropout_rate=self.dropout_rate
    )
    self.residual_layer_1 = ResidualConnection(
        features=d_model, dropout_rate=self.dropout_rate
    )
    self.feed_forward_layer = FeedForward(
        d_model=self.d_model, d_ff=self.d_ff, dropout_rate=self.dropout_rate
    )
    self.residual_layer_2 = ResidualConnection(
        features=d_model, dropout_rate=self.dropout_rate
    )

3.2.2.1 `forward(input_tensor, mask=None)`

Forward pass through encoder block.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Input tensor to the encoder block.	required
`mask`	`Tensor \| None`	Optional mask tensor.	`None`

Returns:

Type	Description
`Tensor`	Tensor after processing by the encoder block.

Source code in src/layers/nlp/transformer.py

def forward(
    self, input_tensor: torch.Tensor, mask: torch.Tensor | None = None
) -> torch.Tensor:
    """
    Forward pass through encoder block.

    Args:
        input_tensor: Input tensor to the encoder block.
        mask: Optional mask tensor.

    Returns:
        Tensor after processing by the encoder block.
    """

    # Utilizamos self-attention, por lo que k, q, v son del mismo vector de entrada
    input_tensor = self.residual_layer_1(
        input_tensor,
        lambda x: self.multi_head_attention_layer(k=x, q=x, v=x, mask=mask),
    )

    # Segunda conexión residual con feed-forward
    input_tensor = self.residual_layer_2(
        input_tensor, lambda x: self.feed_forward_layer(x)
    )

    return input_tensor

3.2.3 `FeedForward(d_model, d_ff, dropout_rate)`

Feed-forward neural network layer.

Initializes feed-forward network.

Parameters:

Name	Type	Description	Default
`d_model`	`int`	Dimensionality of model embeddings.	required
`d_ff`	`int`	Dimensionality of feed-forward layer.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, d_model: int, d_ff: int, dropout_rate: float) -> None:
    """
    Initializes feed-forward network.

    Args:
        d_model: Dimensionality of model embeddings.
        d_ff: Dimensionality of feed-forward layer.
        dropout_rate: Rate of dropout for regularization.
    """

    # Constructor de la clase
    super().__init__()

    # Definimos los parámetros de la clase
    self.d_model = d_model
    self.d_ff = d_ff

    # Creamos el modelo secuencial
    self.ffn = nn.Sequential(
        nn.Linear(in_features=self.d_model, out_features=self.d_ff),
        nn.ReLU(),
        nn.Dropout(dropout_rate),
        nn.Linear(in_features=self.d_ff, out_features=self.d_model),
    )

3.2.3.1 `forward(input_tensor)`

Forward pass through feed-forward network.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Tensor of input embeddings.	required

Returns:

Type	Description
`Tensor`	Tensor processed by feed-forward network.

Source code in src/layers/nlp/transformer.py

def forward(self, input_tensor: torch.Tensor) -> torch.Tensor:
    """
    Forward pass through feed-forward network.

    Args:
        input_tensor: Tensor of input embeddings.

    Returns:
        Tensor processed by feed-forward network.
    """

    # (B, sequence_length, d_model)
    return self.ffn(input_tensor)

3.2.4 `InputEmbedding(d_model, vocab_size)`

Embeds input tokens into vectors of dimension d_model.

Initializes input embedding layer.

Parameters:

Name	Type	Description	Default
`d_model`	`int`	Dimensionality of the embedding vectors.	required
`vocab_size`	`int`	Size of the vocabulary.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, d_model: int, vocab_size: int) -> None:
    """
    Initializes input embedding layer.

    Args:
        d_model: Dimensionality of the embedding vectors.
        vocab_size: Size of the vocabulary.
    """

    # Constructor de la clase
    super().__init__()

    # Definimos los parámetros de la clase
    self.d_model = d_model
    self.vocab_size = vocab_size

    # Utilizamos la capa Embedding de PyTorch que funciona como
    # una tabal lookup that stores embeddings of a fixed dictionary and size.
    # Osea que es un diccionario que tiene por cada token, hasta un total de
    # vocab_size, un vector de tamaño d_model. En el paper: we use learned
    # embeddings to convert the input tokens and output tokens to vectors
    # of dimension dmodel
    self.embedding = nn.Embedding(num_embeddings=vocab_size, embedding_dim=d_model)

3.2.4.1 `forward(input_tensor)`

Forward pass through the embedding layer.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Input tensor of token indices.	required

Returns:

Type	Description
`Tensor`	Tensor of embedded input scaled by sqrt(d_model).

Source code in src/layers/nlp/transformer.py

def forward(self, input_tensor: torch.Tensor) -> torch.Tensor:
    """
    Forward pass through the embedding layer.

    Args:
        input_tensor: Input tensor of token indices.

    Returns:
        Tensor of embedded input scaled by sqrt(d_model).
    """

    # Paper: In the embedding layers, we multiply those weights by sqrt(d_model)
    # Input_tensor (B, ...) -> (B, ..., d_model)
    return self.embedding(input_tensor) * math.sqrt(self.d_model)

3.2.5 `LayerNormalization(features, eps=1e-06)`

Applies layer normalization to input embeddings.

Initializes layer normalization.

Parameters:

Name	Type	Description	Default
`features`	`int`	Number of features in the input.	required
`eps`	`float`	Small constant for numerical stability.	`1e-06`

Source code in src/layers/nlp/transformer.py

def __init__(self, features: int, eps: float = 1e-6) -> None:
    """
    Initializes layer normalization.

    Args:
        features: Number of features in the input.
        eps: Small constant for numerical stability.
    """

    # Constructor de la clase
    super().__init__()

    # Definimos los parámetros de la clase
    self.features = features
    self.eps = eps

    # Utilizamos un factor alpha para multiplicar el valor de la normalización
    self.alpha = nn.Parameter(torch.ones(self.features))
    # Utilizamos un factor del sesgo para sumar
    self.bias = nn.Parameter(torch.zeros(self.features))

3.2.5.1 `forward(input_embedding)`

Forward pass for layer normalization.

Parameters:

Name	Type	Description	Default
`input_embedding`	`Tensor`	Tensor of input embeddings.	required

Returns:

Type	Description
`Tensor`	Normalized tensor.

Source code in src/layers/nlp/transformer.py

def forward(self, input_embedding: torch.Tensor) -> torch.Tensor:
    """
    Forward pass for layer normalization.

    Args:
        input_embedding: Tensor of input embeddings.

    Returns:
        Normalized tensor.
    """

    # (B, sequence_length, d_model)
    mean = torch.mean(input=input_embedding, dim=-1, keepdim=True)
    var = torch.var(input=input_embedding, dim=-1, keepdim=True, unbiased=False)
    return (
        self.alpha * ((input_embedding - mean) / (torch.sqrt(var + self.eps)))
        + self.bias
    )

3.2.6 `MultiHeadAttention(d_model, h, dropout_rate)`

Applies multi-head attention mechanism.

Initializes multi-head attention layer.

Parameters:

Name	Type	Description	Default
`d_model`	`int`	Dimensionality of model embeddings.	required
`h`	`int`	Number of attention heads.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, d_model: int, h: int, dropout_rate: float) -> None:
    """
    Initializes multi-head attention layer.

    Args:
        d_model: Dimensionality of model embeddings.
        h: Number of attention heads.
        dropout_rate: Rate of dropout for regularization.
    """

    # Constructor de la clase
    super().__init__()

    # el tamalo de los embeddings debe ser proporcional al número de cabezas
    # para realizar la división, por lo que es el resto ha de ser 0
    if d_model % h != 0:
        raise ValueError("d_model ha de ser divisible entre h")

    self.d_model = d_model
    self.h = h
    self.dropout = nn.Dropout(dropout_rate)

    # Valore establecidos en el paper
    self.d_k = self.d_model // self.h
    self.d_v = self.d_model // self.h

    # Parámetros
    self.W_K = nn.Linear(
        in_features=self.d_model, out_features=self.d_model, bias=False
    )
    self.W_Q = nn.Linear(
        in_features=self.d_model, out_features=self.d_model, bias=False
    )
    self.W_V = nn.Linear(
        in_features=self.d_model, out_features=self.d_model, bias=False
    )
    self.W_OUTPUT_CONCAT = nn.Linear(
        in_features=self.d_model, out_features=self.d_model, bias=False
    )

3.2.6.1 `attention(k, q, v, mask=None, dropout=None)` `staticmethod`

Computes scaled dot-product attention.

Parameters:

Name	Type	Description	Default
`k`	`Tensor`	Key tensor.	required
`q`	`Tensor`	Query tensor.	required
`v`	`Tensor`	Value tensor.	required
`mask`	`Tensor \| None`	Optional mask tensor.	`None`
`dropout`	`Dropout \| None`	Optional dropout layer.	`None`

Returns:

Type	Description
	Tuple of attention output and scores.

Source code in src/layers/nlp/transformer.py

@staticmethod
def attention(
    k: torch.Tensor,
    q: torch.Tensor,
    v: torch.Tensor,
    mask: torch.Tensor | None = None,
    dropout: nn.Dropout | None = None,
):
    """
    Computes scaled dot-product attention.

    Args:
        k: Key tensor.
        q: Query tensor.
        v: Value tensor.
        mask: Optional mask tensor.
        dropout: Optional dropout layer.

    Returns:
        Tuple of attention output and scores.
    """

    # Primero realizamos el producto matricial con la transpuesta
    # q = (Batch, h, seq_len, d_k)
    # k.T = (Batch, h, d_k, seq_len)
    # matmul_q_k = (Batch, h, seq_len, seq_len)
    matmul_q_k = q @ k.transpose(-2, -1)

    # Luego realizamos el escalado
    d_k = k.shape[-1]
    matmul_q_k_scaled = matmul_q_k / math.sqrt(d_k)

    # El enmascarado es para el decoder, relleno de infinitos
    if mask is not None:
        matmul_q_k_scaled.masked_fill_(mask == 0, -1e9)

    # Obtenemos los scores/puntuación de la atención
    attention_scores = F.softmax(input=matmul_q_k_scaled, dim=-1)

    # Aplicamos dropout
    if dropout is not None:
        attention_scores = dropout(attention_scores)

    # Multiplicamos por el valor
    # attention_scores = (Batch, h, seq_len, seq_len)
    # v = (Batch, h, seq_len, d_k)
    # Output = (Batch, h, seq_len, d_k)
    return (attention_scores @ v), attention_scores

3.2.6.2 `forward(k, q, v, mask=None)`

Forward pass through multi-head attention.

Parameters:

Name	Type	Description	Default
`k`	`Tensor`	Key tensor.	required
`q`	`Tensor`	Query tensor.	required
`v`	`Tensor`	Value tensor.	required
`mask`	`Tensor \| None`	Optional mask tensor.	`None`

Returns:

Type	Description
`Tensor`	Tensor after attention and concatenation.

Source code in src/layers/nlp/transformer.py

def forward(
    self,
    k: torch.Tensor,
    q: torch.Tensor,
    v: torch.Tensor,
    mask: torch.Tensor | None = None,
) -> torch.Tensor:
    """
    Forward pass through multi-head attention.

    Args:
        k: Key tensor.
        q: Query tensor.
        v: Value tensor.
        mask: Optional mask tensor.

    Returns:
        Tensor after attention and concatenation.
    """

    # k -> (Batch, seq_len, d_model) igual para el resto
    key_prima = self.W_K(k)
    query_prima = self.W_Q(q)
    value_prima = self.W_V(v)

    # Cambiamos las dimensiones y hacemos el split de los embedding para cada head
    # Pasando de (Batch, seq_len, d_model) a (Batch, seq_len, h, d_k)
    # Para luego pasar de (Batch, seq_len, h, d_k) a (Batch, h, seq_len, d_k)
    key_prima = key_prima.view(
        key_prima.shape[0], key_prima.shape[1], self.h, self.d_k
    ).transpose(1, 2)
    query_prima = query_prima.view(
        query_prima.shape[0], query_prima.shape[1], self.h, self.d_k
    ).transpose(1, 2)
    value_prima = value_prima.view(
        value_prima.shape[0], value_prima.shape[1], self.h, self.d_k
    ).transpose(1, 2)

    # Obtenemos la matriz de atencion y la puntuación
    # attention = (Batch, h, seq_len, d_k)
    # attention_scores = (Batch, h, seq_len, seq_len)
    attention, attention_scores = MultiHeadAttention.attention(
        k=key_prima,
        q=query_prima,
        v=value_prima,
        mask=mask,
        dropout=self.dropout,
    )

    # Tenemos que concatenar la información de todas las cabezas
    # Queremos (Batch, seq_len, d_model)
    # self.d_k = self.d_model // self.h; d_model = d_k * h
    attention = attention.transpose(1, 2)  # (Batch, seq_len, h, d_k)
    b, seq_len, h, d_k = attention.size()
    # Al parecer, contiguous permite evitar errores de memoria
    attention_concat = attention.contiguous().view(
        b, seq_len, h * d_k
    )  # (Batch, seq_len, h * d_k) = (Batch, seq_len, d_model)

    return self.W_OUTPUT_CONCAT(attention_concat)

3.2.7 `PositionalEncoding(d_model, sequence_length, dropout_rate)`

Adds positional encoding to input embeddings.

Initializes positional encoding layer.

Parameters:

Name	Type	Description	Default
`d_model`	`int`	Dimensionality of the embedding vectors.	required
`sequence_length`	`int`	Maximum sequence length.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, d_model: int, sequence_length: int, dropout_rate: float) -> None:
    """
    Initializes positional encoding layer.

    Args:
        d_model: Dimensionality of the embedding vectors.
        sequence_length: Maximum sequence length.
        dropout_rate: Rate of dropout for regularization.
    """

    # Constructor de la clase
    super().__init__()

    # Definimos los parámetros de la clase
    self.d_model = d_model

    # Cuando le damos una secuencia de tokens, tenemos que saber
    # la longitud máxima de la secuencia
    self.sequence_length = sequence_length
    self.dropout = nn.Dropout(dropout_rate)

    # Creamos una matriz del positional embedding
    # (sequence_length, d_model)
    pe_matrix = torch.zeros(size=(self.sequence_length, self.d_model))

    # # Ahora rellenamos la matriz de posiciones
    # # La posición va hasta el máximo de la longitud de la secuencia
    # for pos in range(self.sequence_length):
    # 	for i in range(0, d_model, 2):
    # 		# Para las posiciones pares usamos el seno
    # 		pe_matrix[pos, i] = torch.sin(pos / (10000 ** ((2 * i) / d_model)))
    # 		# Para las posiciones impares usamos el coseno
    # 		pe_matrix[pos, i + 1] = torch.cos(
    # 			pos / (10000 ** ((2 * (i + 1)) / d_model))
    # 		)

    # Crear vector de posiciones
    position = torch.arange(0, self.sequence_length, dtype=torch.float).unsqueeze(1)

    # Crear vector de divisores
    div_term = torch.exp(
        torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)
    )

    # Aplicar sin y cos
    pe_matrix[:, 0::2] = torch.sin(position * div_term)
    pe_matrix[:, 1::2] = torch.cos(position * div_term)

    # Tenemos que convertirlo a (1, sequence_length, d_model) para
    # procesarlo por lotes
    pe_matrix = pe_matrix.unsqueeze(0)

    # Esta matriz no se aprende, es fija, la tenemos que guardar con el modelo
    self.register_buffer(name="pe_matrix", tensor=pe_matrix)

3.2.7.1 `forward(input_embedding)`

Forward pass to add positional encoding.

Parameters:

Name	Type	Description	Default
`input_embedding`	`Tensor`	Tensor of input embeddings.	required

Returns:

Type	Description
`Tensor`	Tensor of embeddings with added positional encoding.

Source code in src/layers/nlp/transformer.py

def forward(self, input_embedding: torch.Tensor) -> torch.Tensor:
    """
    Forward pass to add positional encoding.

    Args:
        input_embedding: Tensor of input embeddings.

    Returns:
        Tensor of embeddings with added positional encoding.
    """

    # (B, ..., d_model) -> (B, sequence_length, d_model)
    # Seleccionamos
    x = input_embedding + (
        self.pe_matrix[:, : input_embedding.shape[1], :]  # type: ignore
    ).requires_grad_(False)
    return self.dropout(x)

3.2.8 `ProjectionLayer(d_model, vocab_size)`

Converts d_model dimensions back to vocab_size.

Initializes projection layer.

Parameters:

Name	Type	Description	Default
`d_model`	`int`	Dimensionality of model embeddings.	required
`vocab_size`	`int`	Size of the vocabulary.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, d_model: int, vocab_size: int) -> None:
    """
    Initializes projection layer.

    Args:
        d_model: Dimensionality of model embeddings.
        vocab_size: Size of the vocabulary.
    """

    super().__init__()

    self.d_model = d_model
    self.vocab_size = vocab_size

    self.projection_layer = nn.Linear(in_features=d_model, out_features=vocab_size)

3.2.8.1 `forward(input_tensor)`

Forward pass through projection layer.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Input tensor to the projection layer.	required

Returns:

Type	Description
`Tensor`	Tensor with projected dimensions.

Source code in src/layers/nlp/transformer.py

def forward(self, input_tensor: torch.Tensor) -> torch.Tensor:
    """
    Forward pass through projection layer.

    Args:
        input_tensor: Input tensor to the projection layer.

    Returns:
        Tensor with projected dimensions.
    """

    return self.projection_layer(input_tensor)

3.2.9 `ResidualConnection(features, dropout_rate)`

Applies residual connection around a sublayer.

Initializes residual connection layer.

Parameters:

Name	Type	Description	Default
`features`	`int`	Number of features in the input.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	required

Source code in src/layers/nlp/transformer.py

def __init__(self, features: int, dropout_rate: float) -> None:
    """
    Initializes residual connection layer.

    Args:
        features: Number of features in the input.
        dropout_rate: Rate of dropout for regularization.
    """

    super().__init__()

    self.dropout = nn.Dropout(dropout_rate)
    self.layer_norm = LayerNormalization(features=features)

3.2.9.1 `forward(input_tensor, sublayer)`

Forward pass using residual connection.

Parameters:

Name	Type	Description	Default
`input_tensor`	`Tensor`	Input tensor to the residual layer.	required
`sublayer`	`Module`	Sublayer to apply within the residual connection.	required

Returns:

Type	Description
`Tensor`	Tensor with residual connection applied.

Source code in src/layers/nlp/transformer.py

def forward(self, input_tensor: torch.Tensor, sublayer: nn.Module) -> torch.Tensor:
    """
    Forward pass using residual connection.

    Args:
        input_tensor: Input tensor to the residual layer.
        sublayer: Sublayer to apply within the residual connection.

    Returns:
        Tensor with residual connection applied.
    """

    return input_tensor + self.dropout(sublayer(self.layer_norm(input_tensor)))

3.2.10 `Transformer(src_vocab_size, tgt_vocab_size, src_seq_len, tgt_seq_len, num_encoders, num_decoders, d_model, d_ff, h, dropout_rate)`

Transformer model with encoder and decoder blocks.

Initializes transformer model.

Parameters:

Name	Type	Description	Default
`src_vocab_size`	`int`	Size of source vocabulary.	required
`tgt_vocab_size`	`int`	Size of target vocabulary.	required
`src_seq_len`	`int`	Maximum source sequence length.	required
`tgt_seq_len`	`int`	Maximum target sequence length.	required
`num_encoders`	`int`	Number of encoder blocks.	required
`num_decoders`	`int`	Number of decoder blocks.	required
`d_model`	`int`	Dimensionality of model embeddings.	required
`d_ff`	`int`	Dimensionality of feed-forward layer.	required
`h`	`int`	Number of attention heads.	required
`dropout_rate`	`float`	Rate of dropout for regularization.	required

Source code in src/layers/nlp/transformer.py

def __init__(
    self,
    src_vocab_size: int,
    tgt_vocab_size: int,
    src_seq_len: int,
    tgt_seq_len: int,
    num_encoders: int,
    num_decoders: int,
    d_model: int,
    d_ff: int,
    h: int,
    dropout_rate: float,
) -> None:
    """
    Initializes transformer model.

    Args:
        src_vocab_size: Size of source vocabulary.
        tgt_vocab_size: Size of target vocabulary.
        src_seq_len: Maximum source sequence length.
        tgt_seq_len: Maximum target sequence length.
        num_encoders: Number of encoder blocks.
        num_decoders: Number of decoder blocks.
        d_model: Dimensionality of model embeddings.
        d_ff: Dimensionality of feed-forward layer.
        h: Number of attention heads.
        dropout_rate: Rate of dropout for regularization.
    """

    super().__init__()

    # Parámetros
    self.src_vocab_size = src_vocab_size
    self.tgt_vocab_size = tgt_vocab_size
    self.src_seq_len = src_seq_len
    self.tgt_seq_len = tgt_seq_len
    self.num_encoders = num_encoders
    self.num_decoders = num_decoders
    self.d_model = d_model
    self.d_ff = d_ff
    self.h = h
    self.dropout_rate = dropout_rate

    # Embeddings y Positional Encoding
    self.src_embedding = InputEmbedding(
        d_model=self.d_model, vocab_size=self.src_vocab_size
    )
    self.tgt_embedding = InputEmbedding(
        d_model=self.d_model, vocab_size=self.tgt_vocab_size
    )
    self.src_positional_encoding = PositionalEncoding(
        d_model=self.d_model,
        sequence_length=self.src_seq_len,
        dropout_rate=self.dropout_rate,
    )
    self.tgt_positional_encoding = PositionalEncoding(
        d_model=self.d_model,
        sequence_length=self.tgt_seq_len,
        dropout_rate=self.dropout_rate,
    )

    # Capas del Encoder
    self.encoder_layers = nn.ModuleList(
        [
            EncoderBlock(
                d_model=self.d_model,
                d_ff=self.d_ff,
                h=self.h,
                dropout_rate=self.dropout_rate,
            )
            for _ in range(self.num_encoders)
        ]
    )

    # Capas del Decoder
    self.decoder_layers = nn.ModuleList(
        [
            DecoderBlock(
                d_model=self.d_model,
                d_ff=self.d_ff,
                h=self.h,
                dropout_rate=self.dropout_rate,
            )
            for _ in range(self.num_decoders)
        ]
    )

    # Capa de proyección final
    self.projection_layer = ProjectionLayer(
        d_model=self.d_model, vocab_size=self.tgt_vocab_size
    )

3.2.10.1 `decode(decoder_input, encoder_output, src_mask=None, tgt_mask=None)`

Decodes target input tensor using decoder blocks.

Parameters:

Name	Type	Description	Default
`decoder_input`	`Tensor`	Input tensor to the decoder.	required
`encoder_output`	`Tensor`	Output tensor from the encoder.	required
`src_mask`	`Tensor \| None`	Optional source mask tensor.	`None`
`tgt_mask`	`Tensor \| None`	Optional target mask tensor.	`None`

Returns:

Type	Description
`Tensor`	Decoded tensor.

Source code in src/layers/nlp/transformer.py

def decode(
    self,
    decoder_input: torch.Tensor,
    encoder_output: torch.Tensor,
    src_mask: torch.Tensor | None = None,
    tgt_mask: torch.Tensor | None = None,
) -> torch.Tensor:
    """
    Decodes target input tensor using decoder blocks.

    Args:
        decoder_input: Input tensor to the decoder.
        encoder_output: Output tensor from the encoder.
        src_mask: Optional source mask tensor.
        tgt_mask: Optional target mask tensor.

    Returns:
        Decoded tensor.
    """

    # Aplicar embedding y positional encoding
    x = self.tgt_embedding(decoder_input)
    x = self.tgt_positional_encoding(x)

    # Pasar por todas las capas del decoder
    for decoder_layer in self.decoder_layers:
        x = decoder_layer(
            decoder_input=x,
            encoder_output=encoder_output,
            src_mask=src_mask,
            tgt_mask=tgt_mask,
        )

    return x

3.2.10.2 `encode(encoder_input, src_mask=None)`

Encodes source input tensor using encoder blocks.

Parameters:

Name	Type	Description	Default
`encoder_input`	`Tensor`	Input tensor to the encoder.	required
`src_mask`	`Tensor \| None`	Optional source mask tensor.	`None`

Returns:

Type	Description
`Tensor`	Encoded tensor.

Source code in src/layers/nlp/transformer.py

def encode(
    self, encoder_input: torch.Tensor, src_mask: torch.Tensor | None = None
) -> torch.Tensor:
    """
    Encodes source input tensor using encoder blocks.

    Args:
        encoder_input: Input tensor to the encoder.
        src_mask: Optional source mask tensor.

    Returns:
        Encoded tensor.
    """

    # Aplicar embedding y positional encoding
    x = self.src_embedding(encoder_input)
    x = self.src_positional_encoding(x)

    # Pasar por todas las capas del encoder
    for encoder_layer in self.encoder_layers:
        x = encoder_layer(input_tensor=x, mask=src_mask)

    return x

3.2.10.3 `forward(src, tgt, src_mask=None, tgt_mask=None)`

Processes input and target sequences through the encoder and decoder, applying optional source and target masks.

Parameters:

Name	Type	Description	Default
`src`	`Tensor`	Input sequence tensor.	required
`tgt`	`Tensor`	Target sequence tensor.	required
`src_mask`	`Tensor \| None`	Optional mask for the input sequence.	`None`
`tgt_mask`	`Tensor \| None`	Optional mask for the target sequence.	`None`

Returns:

Type	Description
`Tensor`	Tensor containing the final output after projection.

Source code in src/layers/nlp/transformer.py

def forward(
    self,
    src: torch.Tensor,
    tgt: torch.Tensor,
    src_mask: torch.Tensor | None = None,
    tgt_mask: torch.Tensor | None = None,
) -> torch.Tensor:
    """
    Processes input and target sequences through the encoder
    and decoder, applying optional source and target masks.

    Args:
        src: Input sequence tensor.
        tgt: Target sequence tensor.
        src_mask: Optional mask for the input sequence.
        tgt_mask: Optional mask for the target sequence.

    Returns:
        Tensor containing the final output after projection.
    """

    # Encoder
    encoder_output = self.encode(src, src_mask)

    # Decoder
    decoder_output = self.decode(tgt, encoder_output, src_mask, tgt_mask)

    # Projection
    return self.projection_layer(decoder_output)

3. Natural Language Processing

3.1 moe

3.1.1 ExpertModel(input_dim, output_dim, hidden_dim)

3.1.1.1 forward(input_tensor)

3.1.2 Gating(input_dim, num_experts, dropout_rate=0.2)

3.1.2.1 forward(input_tensor)

3.1.3 MoE(trained_experts, input_dim, dropout_rate=0.2)

3.1.3.1 forward(input_tensor)

3.2 transformer

3.2.1 DecoderBlock(d_model, d_ff, h, dropout_rate)

3.2.1.1 forward(decoder_input, encoder_output, src_mask=None, tgt_mask=None)

3.2.2 EncoderBlock(d_model, d_ff, h, dropout_rate)

3.2.2.1 forward(input_tensor, mask=None)

3.2.3 FeedForward(d_model, d_ff, dropout_rate)

3.2.3.1 forward(input_tensor)

3.2.4 InputEmbedding(d_model, vocab_size)

3.2.4.1 forward(input_tensor)

3.2.5 LayerNormalization(features, eps=1e-06)

3.2.5.1 forward(input_embedding)

3.2.6 MultiHeadAttention(d_model, h, dropout_rate)

3.2.6.1 attention(k, q, v, mask=None, dropout=None) staticmethod

3.2.6.2 forward(k, q, v, mask=None)

3.2.7 PositionalEncoding(d_model, sequence_length, dropout_rate)

3.2.7.1 forward(input_embedding)

3.2.8 ProjectionLayer(d_model, vocab_size)

3.2.8.1 forward(input_tensor)

3.2.9 ResidualConnection(features, dropout_rate)

3.2.9.1 forward(input_tensor, sublayer)

3.2.10 Transformer(src_vocab_size, tgt_vocab_size, src_seq_len, tgt_seq_len, num_encoders, num_decoders, d_model, d_ff, h, dropout_rate)

3.2.10.1 decode(decoder_input, encoder_output, src_mask=None, tgt_mask=None)

3.2.10.2 encode(encoder_input, src_mask=None)

3.2.10.3 forward(src, tgt, src_mask=None, tgt_mask=None)

3.1 `moe`

3.1.1 `ExpertModel(input_dim, output_dim, hidden_dim)`

3.1.1.1 `forward(input_tensor)`

3.1.2 `Gating(input_dim, num_experts, dropout_rate=0.2)`

3.1.2.1 `forward(input_tensor)`

3.1.3 `MoE(trained_experts, input_dim, dropout_rate=0.2)`

3.1.3.1 `forward(input_tensor)`

3.2 `transformer`

3.2.1 `DecoderBlock(d_model, d_ff, h, dropout_rate)`

3.2.1.1 `forward(decoder_input, encoder_output, src_mask=None, tgt_mask=None)`

3.2.2 `EncoderBlock(d_model, d_ff, h, dropout_rate)`

3.2.2.1 `forward(input_tensor, mask=None)`

3.2.3 `FeedForward(d_model, d_ff, dropout_rate)`

3.2.3.1 `forward(input_tensor)`

3.2.4 `InputEmbedding(d_model, vocab_size)`

3.2.4.1 `forward(input_tensor)`

3.2.5 `LayerNormalization(features, eps=1e-06)`

3.2.5.1 `forward(input_embedding)`

3.2.6 `MultiHeadAttention(d_model, h, dropout_rate)`

3.2.6.1 `attention(k, q, v, mask=None, dropout=None)` `staticmethod`

3.2.6.2 `forward(k, q, v, mask=None)`

3.2.7 `PositionalEncoding(d_model, sequence_length, dropout_rate)`

3.2.7.1 `forward(input_embedding)`

3.2.8 `ProjectionLayer(d_model, vocab_size)`

3.2.8.1 `forward(input_tensor)`

3.2.9 `ResidualConnection(features, dropout_rate)`

3.2.9.1 `forward(input_tensor, sublayer)`

3.2.10 `Transformer(src_vocab_size, tgt_vocab_size, src_seq_len, tgt_seq_len, num_encoders, num_decoders, d_model, d_ff, h, dropout_rate)`

3.2.10.1 `decode(decoder_input, encoder_output, src_mask=None, tgt_mask=None)`

3.2.10.2 `encode(encoder_input, src_mask=None)`

3.2.10.3 `forward(src, tgt, src_mask=None, tgt_mask=None)`