Ë
    «q±iµ  ã                   ó<  — d Z ddlZddlZddlmZ ddlmZmZmZmZ ddlm	Z
 ddlmZmZ ddlmZ dd	lmZ dd
lmZ ddlmZmZmZmZmZ ddlmZ ddlmZmZ ddlm Z   ejB                  e"«      Z#d'd„Z$ G d„ dejJ                  «      Z& G d„ dejJ                  «      Z' G d„ de«      Z(e G d„ de«      «       Z)e G d„ de)«      «       Z* ed¬«       G d„ de)e«      «       Z+ ed¬«       G d „ d!e)«      «       Z,e G d"„ d#e)«      «       Z-e G d$„ d%e)«      «       Z.g d&¢Z/y)(zPyTorch MPT model.é    N)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚ	LayerNormÚMSELoss)Ú
functionalé   )ÚCacheÚDynamicCache)ÚGenerationMixin)Úcreate_causal_mask)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚQuestionAnsweringModelOutputÚ SequenceClassifierOutputWithPastÚTokenClassifierOutput)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú	MptConfigc                 óR  — t        j                  d|z
  dt         j                  |¬«      j                  ddd|«      }dt	        j
                  t	        j                  | «      «      z  }t        j                  d|dz   t         j                  |¬«      j                  «       }|||z  z  }dt        j                  d|«      z  }|j                  d|dd«      }|| k7  r9t        j                  |dd…ddd…df   |dd…ddd…df   gd¬«      dd…d| …df   }||z  }|j                  d«      S )	aª  
    Link to paper: https://huggingface.co/papers/2108.12409 - Alibi tensor is not causal as the original paper mentions, it
    relies on a translation invariance of softmax for quick implementation. This implementation has been copied from
    the alibi implementation of MPT source code that led to slightly different results than the Bloom alibi:
    https://huggingface.co/mosaicml/mpt-7b/blob/main/attention.py#L292
    r   )ÚdtypeÚdeviceé   g      ð?N.©Údimr   )ÚtorchÚarangeÚint32ÚviewÚmathÚceilÚlog2Úint64ÚfloatÚpowÚconcatÚsqueeze)Ú	num_headsÚsequence_lengthÚalibi_bias_maxr   ÚalibiÚnum_heads_power_of_2ÚbaseÚslopess           úV/opt/pipecat/venv/lib/python3.12/site-packages/transformers/models/mpt/modeling_mpt.pyÚbuild_mpt_alibi_tensorr3   *   s  € ô L‰L˜˜_Ñ,¨a´u·{±{È6ÔR×WÑWÐXYÐ[\Ð^_ÐapÓq€EØ¤§	¡	¬$¯)©)°IÓ*>Ó ?Ñ?Ðä<‰<˜Ð/°!Ñ3¼5¿;¹;ÈvÔV×\Ñ\Ó^€DØ>Ð$8Ñ8Ñ9€Dà”5—9‘9˜Q Ó%Ñ%€FØ[‰[˜Ð0°!°QÓ7€Fà˜yÒ(Ü—‘˜v¢a¨¨¨A¨¨s lÑ3°VºA¹sÀ¸sÀC¸KÑ5HÐIÈqÔQÒRSÐU_ÐV_ÐU_ÐadÐRdÑeˆàF‰N€EØ=‰=˜ÓÐó    c                   óº   ‡ — e Zd ZdZddededz  fˆ fd„Z	 	 	 ddej                  dej                  de	dz  d	ej                  dz  d
ej                  dz  f
d„Z
ˆ xZS )ÚMptAttentionzzMulti-head self attention.
    Using torch or triton attention implementation enables user to also use additive bias.
    NÚconfigÚ	layer_idxc                 ó¾  •— t         ‰|   «        |j                  | _        |j                  | _        |j                  | _        | j                  | j                  z  | _        |j                  j                  | _        | j                  €4dt        j                  | j                  | j                  z  «      z  | _        |j                  j                  | _        |j                  j                  | _        t        j                  | j                  d| j                  z  d¬«      | _        t        j                  | j                  | j                  d¬«      | _        || _        y )Nr   r	   F©Úbias)ÚsuperÚ__init__Úhidden_sizeÚn_headsÚmax_seq_lenÚmax_seq_lengthÚhead_dimÚattn_configÚsoftmax_scaler#   ÚsqrtÚ
attn_pdropÚattn_dropout_pÚclip_qkvr   ÚLinearÚWqkvÚout_projr8   )Úselfr7   r8   Ú	__class__s      €r2   r=   zMptAttention.__init__F   s  ø€ Ü‰ÑÔØ!×-Ñ-ˆÔØ—~‘~ˆŒØ$×0Ñ0ˆÔØ×(Ñ(¨D¯L©LÑ8ˆŒØ#×/Ñ/×=Ñ=ˆÔØ×ÑÐ%Ø!"¤T§Y¡Y¨t×/?Ñ/?À$Ç,Á,Ñ/NÓ%OÑ!OˆDÔà$×0Ñ0×;Ñ;ˆÔØ×*Ñ*×3Ñ3ˆŒÜ—I‘I˜d×.Ñ.°°D×4DÑ4DÑ0DÈ5ÔQˆŒ	ÜŸ	™	 $×"2Ñ"2°D×4DÑ4DÈ5ÔQˆŒØ"ˆr4   Úhidden_statesÚposition_biasÚpast_key_valuesÚattention_maskÚcache_positionc                 óp  — |j                   d d \  }}| j                  |«      }| j                  r(|j                  | j                   | j                  ¬«      }|j	                  dd¬«      \  }	}
}|	j                  ||| j                  | j                  «      j                  dd«      }	|
j                  ||| j                  | j                  «      j                  dd«      }
|j                  ||| j                  | j                  «      j                  dd«      }|%d|i}|j                  |
|| j                  |«      \  }
}t        j                  |	|
j                  dd«      «      | j                  z  }|€|n||j                  «       z   }|—t        |j                   «      dk7  r!t!        d	t        |j                   «      › «      ‚|
j                   d   }t#        d
|j%                  d«      |z
  «      }t#        d
|j%                  d«      |z
  «      }|d d …|d …|d …f   }||z   }|9|j'                  |t        j(                  |	j*                  «      j,                  «      }t.        j0                  j3                  |j5                  «       d¬«      j7                  |j*                  «      }t.        j0                  j9                  || j:                  | j<                  ¬«      }t        j                  ||«      }|j?                  d
ddd«      jA                  «       jC                  ||d«      }| jE                  |«      }||fS )Nr   )ÚminÚmaxr	   r   r   rR   éÿÿÿÿéþÿÿÿz6Expecting position_bias shape to be 3 dimensions, got r   ©ÚpÚtraining)#ÚshaperJ   rH   ÚclampÚchunkÚreshaper?   rB   Ú	transposeÚupdater8   r   ÚmatmulrD   Úget_seq_lengthÚlenÚ
ValueErrorrU   ÚsizeÚmasked_fillÚfinfor   rT   r   r   Úsoftmaxr'   ÚtoÚdropoutrG   rZ   ÚpermuteÚ
contiguousr"   rK   )rL   rN   rO   rP   rQ   rR   Ú
batch_sizeÚ
seq_lengthÚ	mixed_qkvÚquery_statesÚ
key_statesÚvalue_statesÚcache_kwargsÚattention_scoresÚquery_lengthÚ
key_lengthÚposition_bias_query_indexÚposition_bias_key_indexÚattn_weightsÚcontext_statesÚattn_outputs                        r2   ÚforwardzMptAttention.forwardV   sø  € ð "/×!4Ñ!4°R°aÐ!8Ñˆ
Jà—I‘I˜mÓ,ˆ	Ø=Š=Ø!Ÿ™¨T¯]©]¨NÀÇÁ˜ÓNˆIà1:·±ÀÈ°Ó1JÑ.ˆj ,Ø#×+Ñ+¨J¸
ÀDÇLÁLÐRV×R_ÑR_Ó`×jÑjÐklÐnoÓpˆØ×'Ñ'¨
°JÀÇÁÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆ
Ø#×+Ñ+¨J¸
ÀDÇLÁLÐRV×R_ÑR_Ó`×jÑjÐklÐnoÓpˆàÐ&Ø,¨nÐ=ˆLØ'6×'=Ñ'=¸jÈ,ÐX\×XfÑXfÐhtÓ'uÑ$ˆJ˜ä Ÿ<™<¨°j×6JÑ6JÈ2ÈrÓ6RÓSÐVZ×VhÑVhÑhÐØ%4Ð%<‘zÀ*È×OmÑOmÓOoÑBoˆàÐ$Ü=×&Ñ&Ó'¨1Ò,Ü Ð#YÔZ]Ð^k×^qÑ^qÓZrÐYsÐ!tÓuÐuØ#×)Ñ)¨"Ñ-ˆJä(+¨A¨}×/AÑ/AÀ!Ó/DÀ|Ñ/SÓ(TÐ%Ü&)¨!¨]×-?Ñ-?ÀÓ-BÀZÑ-OÓ&PÐ#à)ª!Ð-FÑ-GÐI`ÑIaÐ*aÑbˆMà/°-Ñ?ÐàÐ%Ø/×;Ñ;¸NÌEÏKÉKÐXd×XjÑXjÓLk×LoÑLoÓpÐô —}‘}×,Ñ,Ð-=×-CÑ-CÓ-EÈ2Ð,ÓN×QÑQÐR^×RdÑRdÓeˆÜ—}‘}×,Ñ,¨\¸T×=PÑ=PÐ[_×[hÑ[hÐ,ÓiˆäŸ™ l°LÓAˆØ'×/Ñ/°°1°a¸Ó;×FÑFÓH×MÑMÈjÐZdÐfhÓiˆØ—m‘m NÓ3ˆà˜LÐ(Ð(r4   ©N)NNN)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   Úintr=   r   ÚTensorr
   r|   Ú__classcell__©rM   s   @r2   r6   r6   A   s}   ø„ ññ#˜yð #°S¸4±Zõ #ð( )-Ø.2Ø.2ñ1)à—|‘|ð1)ð —|‘|ð1)ð  ™ð	1)ð
 Ÿ™ tÑ+ð1)ð Ÿ™ tÑ+÷1)r4   r6   c                   ót   ‡ — e Zd Zdefˆ fd„Zdej                  dej                  dej                  fd„Zˆ xZS )ÚMptMLPr7   c                 ó&  •— t         ‰|   «        |j                  }t        j                  |d|z  d¬«      | _        t        j                  d¬«      | _        t        j                  d|z  |d¬«      | _        |j                  j                  | _        y )Né   Fr:   Únone)Úapproximate)r<   r=   r>   r   rI   Úup_projÚGELUÚactÚ	down_projrC   rF   Úhidden_dropout)rL   r7   r>   rM   s      €r2   r=   zMptMLP.__init__‹   sm   ø€ Ü‰ÑÔØ×(Ñ(ˆä—y‘y ¨a°+©oÀEÔJˆŒÜ—7‘7 vÔ.ˆŒÜŸ™ 1 {¡?°KÀeÔLˆŒØ$×0Ñ0×;Ñ;ˆÕr4   rN   ÚresidualÚreturnc                 óÊ   — | j                  | j                  |«      «      }| j                  |«      }t        j                  || j
                  | j                  ¬«      }||z   }|S )NrX   )rŽ   rŒ   r   ÚFrj   r   rZ   )rL   rN   r‘   Úintermediate_outputÚoutputs        r2   r|   zMptMLP.forward”   sW   € ØŸ™ §¡¨mÓ!<Ó=ˆà"Ÿn™n¨]Ó;Ðä—‘Ð.°$×2EÑ2EÐPT×P]ÑP]Ô^ˆØ˜(Ñ"ˆàˆr4   )	r~   r   r€   r   r=   r   rƒ   r|   r„   r…   s   @r2   r‡   r‡   Š   s5   ø„ ð<˜yõ <ð U§\¡\ð ¸U¿\¹\ð ÈeÏlÉl÷ r4   r‡   c                   óº   ‡ — e Zd Zddededz  fˆ fd„Z	 	 	 	 ddej                  dej                  dej                  dedz  d	e	d
e	dej                  dz  fd„Z
ˆ xZS )ÚMptBlockNr7   r8   c                 óÐ  •— t         ‰|   «        |j                  }t        ||j                  ¬«      | _        d | j
                  _        |j                  | _        t        ||«      | _
        t        ||j                  ¬«      | _        d | j                  _        t        |«      | _        |j                  j                  | _        t#        j$                  | j                   «      | _        y )N©Úeps)r<   r=   r>   r   Úlayer_norm_epsilonÚnorm_1r;   r?   r+   r6   ÚattnÚnorm_2r‡   ÚffnrC   rF   Údropout_rater   ÚDropoutÚresid_attn_dropout)rL   r7   r8   r>   rM   s       €r2   r=   zMptBlock.__init__    s¨   ø€ Ü‰ÑÔØ×(Ñ(ˆä °×1JÑ1JÔKˆŒàˆ‰ÔàŸ™ˆŒÜ  ¨Ó3ˆŒ	ä °×1JÑ1JÔKˆŒàˆ‰Ôä˜&“>ˆŒà"×.Ñ.×9Ñ9ˆÔÜ"$§*¡*¨T×->Ñ->Ó"?ˆÕr4   rN   rO   rQ   Ú
layer_pastÚ	use_cacheÚoutput_attentionsrR   c                 óÔ   — | j                  |«      }|}	| j                  |||||¬«      \  }
}| j                  |
«      |	z   }| j                  |«      }|}	| j	                  ||	«      }||fS )N)rO   rQ   rP   rR   )r   rž   r£   rŸ   r    )rL   rN   rO   rQ   r¤   r¥   r¦   rR   Úlayernorm_outputr‘   Úattn_outputsry   r–   s                r2   r|   zMptBlock.forward´   sŒ   € ð  Ÿ;™; }Ó5Ðà ˆð &*§Y¡YØØ'Ø)Ø&Ø)ð &/ó &
Ñ"ˆlð ×/Ñ/°Ó=ÀÑHˆàŸ;™; }Ó5Ðð !ˆð —‘Ð*¨HÓ5ˆØ|Ð#Ð#r4   r}   )NFFN)r~   r   r€   r   r‚   r=   r   rƒ   r
   Úboolr|   r„   r…   s   @r2   r˜   r˜   Ÿ   s   ø„ ñ@˜yð @°S¸4±Zõ @ð2 $(ØØ"'Ø.2ñ"$à—|‘|ð"$ð —|‘|ð"$ð Ÿ™ð	"$ð
 ˜D‘Lð"$ð ð"$ð  ð"$ð Ÿ™ tÑ+÷"$r4   r˜   c                   ó&   — e Zd ZU eed<   dZdZdgZy)ÚMptPreTrainedModelr7   ÚtransformerTr˜   N)r~   r   r€   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modules© r4   r2   r¬   r¬   Ù   s   … àÓØ%ÐØ&*Ð#Ø#˜Ñr4   r¬   c                   óJ  ‡ — e Zd Zdefˆ fd„Zd„ Zdd„Zdej                  fd„Z	e
	 	 	 	 	 	 	 	 	 ddej                  dz  d	edz  d
ej                  dz  dej                  dz  dedz  dedz  dedz  dedz  dej                  dz  deej                  df   ez  fd„«       Zˆ xZS )ÚMptModelr7   c           	      óø  •— t         ‰|   |«       |j                  | _        |j                  | _        t        j                  |j                  | j                  «      | _        t        j                  t        |j                  «      D cg c]  }t        ||¬«      ‘Œ c}«      | _        t        | j                  |j                  ¬«      | _        d | j                   _        d| _        | j'                  «        y c c}w )N)r8   rš   F)r<   r=   r>   r?   r+   r   Ú	EmbeddingÚ
vocab_sizeÚwteÚ
ModuleListÚrangeÚn_layersr˜   Úblocksr   rœ   Únorm_fr;   Úgradient_checkpointingÚ	post_init)rL   r7   ÚirM   s      €r2   r=   zMptModel.__init__ã   s»   ø€ Ü‰Ñ˜Ô à!×-Ñ-ˆÔØŸ™ˆŒô —<‘< × 1Ñ 1°4×3CÑ3CÓDˆŒô —m‘mÌEÐRX×RaÑRaÓLbÖ$cÀq¤X¨fÀÖ%BÒ$cÓdˆŒô   × 0Ñ 0°f×6OÑ6OÔPˆŒàˆ‰Ôà&+ˆÔ#ð 	‰Õùò %ds   ÂC7c                 ó   — | j                   S r}   ©r¸   )rL   s    r2   Úget_input_embeddingszMptModel.get_input_embeddingsù   s   € Øx‰xˆr4   Nc                 ó   — t        ||||«      S r}   )r3   )rL   r+   r,   r-   r   s        r2   r3   zMptModel.build_mpt_alibi_tensorü   s   € Ü% i°À.ÐRXÓYÐYr4   Únew_embeddingsc                 ó   — || _         y r}   rÂ   ©rL   rÅ   s     r2   Úset_input_embeddingszMptModel.set_input_embeddingsÿ   s	   € Ø!ˆr4   Ú	input_idsrP   rQ   Úinputs_embedsr¥   r¦   Úoutput_hidden_statesÚreturn_dictrR   r’   .c
           
      óv  — ||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }||t        d«      ‚||j                  \  }}n||j                  \  }}}nt        d«      ‚| j                  r%| j                  r|rt        j                  d«       d}|€| j                  |«      }|r|€t        | j                   ¬«      }|}|rdnd}|rdnd}| j                  | j                  | j                   j                  |j                   ¬«      }||j#                  «       nd	}|	€%t%        j&                  |||z   |j                   ¬«      }	t)        | j                   |||	|¬
«      j+                  t$        j,                  «      }| j.                  D ]*  }|r||fz   } ||||||||	¬«      }|d	   }|sŒ"||d   fz   }Œ, | j1                  |«      }|r||fz   }|st3        d„ ||||fD «       «      S t5        ||||¬«      S )á²  
        input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
            `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values.get_seq_length()`
            (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

            If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
            `input_ids`.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
            [`PreTrainedTokenizer.__call__`] for details.

            [What are input IDs?](../glossary#input-ids)
        NzDYou cannot specify both input_ids and inputs_embeds at the same timez5You have to specify either input_ids or inputs_embedszZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...F)r7   r²   ©r   r   )r7   rÊ   rQ   rR   rP   )r¤   rQ   r¥   r¦   rO   rR   r   c              3   ó&   K  — | ]	  }|€Œ|–— Œ y ­wr}   r²   )Ú.0Úvs     r2   ú	<genexpr>z#MptModel.forward.<locals>.<genexpr>i  s   è ø€ ò ØÐghÑgt”ñùs   ‚Š)Úlast_hidden_staterP   rN   Ú
attentions)r7   r¦   rË   r¥   Úuse_return_dictrd   r[   r¾   rZ   ÚloggerÚwarning_oncer¸   r   r3   r+   r@   r   rb   r   r    r   ri   rª   r¼   r½   Útupler   )rL   rÉ   rP   rQ   rÊ   r¥   r¦   rË   rÌ   rR   Úkwargsrm   rn   Ú_rN   Úall_self_attentionsÚall_hidden_statesr.   Úpast_key_values_lengthÚcausal_maskÚblockÚoutputss                         r2   r|   zMptModel.forward  sŒ  € ð6 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð "+Ð!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆàÐ  ]Ð%>ÜÐcÓdÐdØÐ"Ø%.§_¡_Ñ"ˆJ™
ØÐ&Ø(5×(;Ñ(;Ñ%ˆJ˜
¡AäÐTÓUÐUà×&Ò&¨4¯=ª=ÙÜ×#Ñ#Øpôð "	àÐ Ø ŸH™H YÓ/ˆMá˜Ð0Ü*°$·+±+Ô>ˆOà%ˆá$5™b¸4ÐÙ"6™B¸DÐð ×+Ñ+¨D¯N©N¸D¿K¹K×<SÑ<SÐ\i×\pÑ\pÐ+ÓqˆàETÐE` ×!?Ñ!?Ô!AÐfgÐØÐ!Ü"Ÿ\™\Ø&Ð(>ÀÑ(KÐTa×ThÑThôˆNô )Ø—;‘;Ø'Ø)Ø)Ø+ô
÷ ‰"ŒUZ‰Z‹.ð 	ð —[‘[ò 	JˆEÙ#Ø$5¸Ð8HÑ$HÐ!áØØ*Ø*Ø#Ø"3Ø#Ø-ôˆGð $ A™JˆMÚ Ø&9¸WÀQ¹Z¸MÑ&IÑ#ð!	Jð& Ÿ™ MÓ2ˆáØ 1°]Ð4DÑ DÐáÜñ Ø)¨?Ð<MÐObÐcôó ð ô 9Ø+Ø+Ø+Ø*ô	
ð 	
r4   ©é   N©	NNNNNNNNN)r~   r   r€   r   r=   rÃ   r3   r   rƒ   rÈ   r   Ú
LongTensorr
   rª   rÙ   r   r|   r„   r…   s   @r2   r´   r´   á   s  ø„ ð˜yõ ò,óZð"°5·<±<ó "ð ð .2Ø(,Ø.2Ø15Ø!%Ø)-Ø,0Ø#'Ø.2ño
à×#Ñ# dÑ*ðo
ð  ™ðo
ð Ÿ™ tÑ+ð	o
ð
 ×'Ñ'¨$Ñ.ðo
ð ˜$‘;ðo
ð   $™;ðo
ð # T™kðo
ð ˜D‘[ðo
ð Ÿ™ tÑ+ðo
ð 
ˆu|‰|˜SÐ Ñ	!Ð$MÑ	Mòo
ó ôo
r4   r´   z†
    The MPT Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc                   ó€  ‡ — e Zd ZddiZdefˆ fd„Zdej                  fd„Ze		 	 	 	 	 	 	 	 	 	 	 ddej                  dz  d	edz  d
ej                  dz  dej                  dz  dej                  dz  dedz  dedz  dedz  dedz  dej                  dz  deej                  z  deej                     ez  fd„«       Zˆ xZS )ÚMptForCausalLMzlm_head.weightztransformer.wte.weightr7   c                 óÆ   •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  |j                  d¬«      | _        | j                  «        y ©NFr:   )
r<   r=   r´   r­   r   rI   r>   r·   Úlm_headr¿   ©rL   r7   rM   s     €r2   r=   zMptForCausalLM.__init__~  sI   ø€ Ü‰Ñ˜Ô Ü# FÓ+ˆÔÜ—y‘y ×!3Ñ!3°V×5FÑ5FÈUÔSˆŒð 	‰Õr4   rÅ   c                 ó   — || _         y r}   )rë   rÇ   s     r2   Úset_output_embeddingsz$MptForCausalLM.set_output_embeddings†  s	   € Ø%ˆr4   NrÉ   rP   rQ   rÊ   Úlabelsr¥   r¦   rË   rÌ   rR   Úlogits_to_keepr’   c                 óÊ  — |	|	n| j                   j                  }	| j                  ||||||||	|
¬«	      }|d   }t        |t        «      rt        | d«      n|}| j                  |dd…|dd…f   «      }d}|* | j                  d||| j                   j                  dœ|¤Ž}|	s|f|dd z   }||f|z   S |S t        |||j                  |j                  |j                  ¬«      S )a\  
        input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
            `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values.get_seq_length()`
            (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

            If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
            `input_ids`.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
            [`PreTrainedTokenizer.__call__`] for details.

            [What are input IDs?](../glossary#input-ids)
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
            `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
            are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`
        N)rP   rQ   rÊ   r¥   r¦   rË   rÌ   rR   r   )Úlogitsrï   r·   r   ©Úlossrò   rP   rN   rÕ   r²   )r7   rÖ   r­   Ú
isinstancer‚   Úslicerë   Úloss_functionr·   r   rP   rN   rÕ   )rL   rÉ   rP   rQ   rÊ   rï   r¥   r¦   rË   rÌ   rR   rð   rÚ   Útransformer_outputsrN   Úslice_indicesrò   rô   r–   s                      r2   r|   zMptForCausalLM.forward‰  s  € ðB &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø'ØØ/Ø!5Ø#Ø)ð /ó 

Ðð ,¨AÑ.ˆä8BÀ>ÔSVÔ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÐØ%4×%Ñ%Ðp¨V¸FÈtÏ{É{×OeÑOeÑpÐioÑpˆDáØYÐ!4°Q°RÐ!8Ñ8ˆFØ)-Ð)9TG˜fÑ$ÐE¸vÐEä0ØØØ/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ô
ð 	
r4   )NNNNNNNNNNr   )r~   r   r€   Ú_tied_weights_keysr   r=   r   rƒ   rî   r   rå   r
   rª   r‚   rÙ   r   r|   r„   r…   s   @r2   rè   rè   u  sC  ø„ ð +Ð,DÐEÐð˜yõ ð&°E·L±Ló &ð ð .2Ø(,Ø.2Ø-1Ø&*Ø!%Ø)-Ø,0Ø#'Ø.2Ø-.ñA
à×#Ñ# dÑ*ðA
ð  ™ðA
ð Ÿ™ tÑ+ð	A
ð
 —|‘| dÑ*ðA
ð —‘˜tÑ#ðA
ð ˜$‘;ðA
ð   $™;ðA
ð # T™kðA
ð ˜D‘[ðA
ð Ÿ™ tÑ+ðA
ð ˜eŸl™lÑ*ðA
ð 
ˆu|‰|Ñ	Ð@Ñ	@òA
ó ôA
r4   rè   aÒ  
    The MPT Model transformer with a sequence classification head on top (linear layer).

    [`MptForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-1) do.

    Since it does classification on the last token, it requires to know the position of the last token. If a
    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
    each row of the batch).
    c                   ó8  ‡ — e Zd Zdefˆ fd„Zdej                  fd„Ze	 	 	 	 	 	 	 	 	 ddej                  dz  de
dz  dej                  dz  d	ej                  dz  d
ej                  dz  dedz  dedz  dedz  dedz  deej                     ez  fd„«       Zˆ xZS )ÚMptForSequenceClassificationr7   c                 óè   •— t         ‰|   |«       |j                  | _        t        |«      | _        t        j                  |j                  |j                  d¬«      | _        | j                  «        y rê   )
r<   r=   Ú
num_labelsr´   r­   r   rI   r>   Úscorer¿   rì   s     €r2   r=   z%MptForSequenceClassification.__init__Ý  sV   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ# FÓ+ˆÔÜ—Y‘Y˜v×1Ñ1°6×3DÑ3DÈ5ÔQˆŒ
ð 	‰Õr4   rÅ   c                 ó   — || _         y r}   )rÿ   rÇ   s     r2   rî   z2MptForSequenceClassification.set_output_embeddingsæ  s	   € Ø#ˆ
r4   NrÉ   rP   rQ   rÊ   rï   r¥   r¦   rË   rÌ   r’   c
           
      ór  — |	|	n| j                   j                  }	| j                  ||||||||	¬«      }|d   }| j                  |«      }||j                  d   }n|j                  d   }| j                   j
                  €|dk7  rt        d«      ‚| j                   j
                  €d}nÃ|“|| j                   j
                  k7  j                  |j                  t        j                  «      }t        j                  |j                  d   |j                  t        j                  ¬«      }||z  j                  d«      }n.d}t        j                  | j                  j                   › d«       |t        j                  ||j                  ¬	«      |f   }d}|^| j                   j"                  €| j$                  dk(  rd
| j                   _        nl| j$                  dkD  rL|j&                  t        j(                  k(  s|j&                  t        j*                  k(  rd| j                   _        nd| j                   _        | j                   j"                  d
k(  rIt-        «       }| j$                  dk(  r& ||j/                  «       |j/                  «       «      }nc |||«      }nY| j                   j"                  dk(  rt1        «       } |||«      }n,| j                   j"                  dk(  rt3        «       } |||«      }|	s|f|dd z   }||f|z   S |S t5        |||j6                  |j8                  |j:                  ¬«      S )á6  
        input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
            `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values.get_seq_length()`
            (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

            If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
            `input_ids`.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
            [`PreTrainedTokenizer.__call__`] for details.

            [What are input IDs?](../glossary#input-ids)
        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
        N©rP   rQ   rÊ   r¥   r¦   rË   rÌ   r   r   z=Cannot handle batch sizes > 1 if no padding token is defined.rV   )r   r   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`rÏ   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationró   )r7   rÖ   r­   rÿ   r[   Úpad_token_idrd   ri   r   r   r!   r    Úargmaxr×   rØ   rM   r~   Úproblem_typerþ   r   Úlongr‚   r   r*   r   r   r   rP   rN   rÕ   )rL   rÉ   rP   rQ   rÊ   rï   r¥   r¦   rË   rÌ   rÚ   rø   rN   rò   rm   Úlast_non_pad_tokenÚnon_pad_maskÚtoken_indicesÚpooled_logitsrô   Úloss_fctr–   s                         r2   r|   z$MptForSequenceClassification.forwardé  sí  € ð> &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø'ØØ/Ø!5Ø#ð /ó 	
Ðð ,¨AÑ.ˆØ—‘˜MÓ*ˆàÐ Ø"Ÿ™¨Ñ+‰Jà&×,Ñ,¨QÑ/ˆJà;‰;×#Ñ#Ð+°
¸a²ÜÐ\Ó]Ð]Ø;‰;×#Ñ#Ð+Ø!#ÑØÐ"à%¨¯©×)AÑ)AÑA×EÑEÀfÇmÁmÔUZ×U`ÑU`ÓaˆLÜ!ŸL™L¨¯©¸Ñ)<ÀVÇ]Á]ÔZ_×ZeÑZeÔfˆMØ"/°,Ñ">×!FÑ!FÀrÓ!JÑà!#ÐÜ×ÑØ—>‘>×*Ñ*Ð+ð ,Zð Zôð
 œuŸ|™|¨J¸v¿}¹}ÔMÐOaÐaÑbˆàˆØÑØ{‰{×'Ñ'Ð/Ø—?‘? aÒ'Ø/;D—K‘KÕ,Ø—_‘_ qÒ(¨f¯l©l¼e¿j¹jÒ.HÈFÏLÉLÔ\a×\eÑ\eÒLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ò7Ü"›9Ø—?‘? aÒ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÒJÜ+Ó-Ù ¨vÓ6‘Ø—‘×)Ñ)Ð-IÒIÜ,Ó.Ù ¨vÓ6ÙØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ð)9TG˜fÑ$ÐE¸vÐEä/ØØ Ø/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ô
ð 	
r4   rä   )r~   r   r€   r   r=   r   rƒ   rî   r   rå   r
   rª   rÙ   r   r|   r„   r…   s   @r2   rü   rü   Î  s  ø„ ð˜yõ ð$°E·L±Ló $ð ð .2Ø(,Ø.2Ø-1Ø&*Ø!%Ø)-Ø,0Ø#'ñe
à×#Ñ# dÑ*ðe
ð  ™ðe
ð Ÿ™ tÑ+ð	e
ð
 —|‘| dÑ*ðe
ð —‘˜tÑ#ðe
ð ˜$‘;ðe
ð   $™;ðe
ð # T™kðe
ð ˜D‘[ðe
ð 
ˆu|‰|Ñ	Ð?Ñ	?òe
ó ôe
r4   rü   c                   ó  ‡ — e Zd Zdefˆ fd„Ze	 	 	 	 	 	 	 	 	 ddej                  dz  dedz  dej                  dz  dej                  dz  dej                  dz  d	e
dz  d
e
dz  de
dz  de
dz  deej                     ez  fd„«       Zˆ xZS )ÚMptForTokenClassificationr7   c                 ó°  •— t         ‰|   |«       |j                  | _        t        |«      | _        t        |d«      r|j                  |j                  }n't        |d«      r|j                  |j                  }nd}t        j                  |«      | _
        t        j                  |j                  |j                  «      | _        | j                  «        y )NÚclassifier_dropoutr   gš™™™™™¹?)r<   r=   rþ   r´   r­   Úhasattrr  r   r   r¢   rj   rI   r>   Ú
classifierr¿   )rL   r7   r  rM   s      €r2   r=   z"MptForTokenClassification.__init__T  s¯   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä# FÓ+ˆÔÜ6Ð/Ô0°V×5NÑ5NÐ5ZØ!'×!:Ñ!:ÑÜVÐ-Ô.°6×3HÑ3HÐ3TØ!'×!6Ñ!6Ñà!$ÐÜ—z‘zÐ"4Ó5ˆŒÜŸ)™) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr4   NrÉ   rP   rQ   rÊ   rï   r¥   r¦   rË   rÌ   r’   c
           
      ó  — |	|	n| j                   j                  }	| j                  ||||||||	¬«      }|d   }| j                  |«      }| j	                  |«      }d}|l|j                  |j                  «      }|j                  \  }}t        «       } ||j                  ||z  | j                  «      |j                  ||z  «      «      }|	s|f|dd z   }||f|z   S |S t        |||j                  |j                  ¬«      S )r  Nr  r   r   )rô   rò   rN   rÕ   )r7   rÖ   r­   rj   r  ri   r   r[   r   r"   rþ   r   rN   rÕ   )rL   rÉ   rP   rQ   rÊ   rï   r¥   r¦   rË   rÌ   Údeprecated_argumentsrø   rN   rò   rô   rm   rn   r  r–   s                      r2   r|   z!MptForTokenClassification.forwarde  s+  € ð> &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø'ØØ/Ø!5Ø#ð /ó 	
Ðð ,¨AÑ.ˆØŸ™ ]Ó3ˆØ—‘ Ó/ˆàˆØÐà—Y‘Y˜vŸ}™}Ó-ˆFØ%+§\¡\Ñ"ˆJ˜
Ü'Ó)ˆHÙØ—‘˜J¨Ñ3°T·_±_ÓEÀvÇ{Á{ÐS]Ð`jÑSjÓGkóˆDñ ØYÐ!4°Q°RÐ!8Ñ8ˆFØ)-Ð)9TG˜fÑ$ÐE¸vÐEä$ØØØ-×;Ñ;Ø*×5Ñ5ô	
ð 	
r4   rä   )r~   r   r€   r   r=   r   r   rå   r
   rƒ   rª   rÙ   r   r|   r„   r…   s   @r2   r  r  R  s÷   ø„ ð˜yõ ð" ð .2Ø(,Ø.2Ø-1Ø&*Ø!%Ø)-Ø,0Ø#'ñB
à×#Ñ# dÑ*ðB
ð  ™ðB
ð Ÿ™ tÑ+ð	B
ð
 —|‘| dÑ*ðB
ð —‘˜tÑ#ðB
ð ˜$‘;ðB
ð   $™;ðB
ð # T™kðB
ð ˜D‘[ðB
ð 
ˆu|‰|Ñ	Ð4Ñ	4òB
ó ôB
r4   r  c                   ó   ‡ — e Zd Zˆ fd„Ze	 	 	 	 	 	 	 	 ddej                  dz  dej                  dz  dej                  dz  dej                  dz  dej                  dz  dedz  d	edz  d
edz  de	e
z  fd„«       Zˆ xZS )ÚMptForQuestionAnsweringc                 ó®   •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  d«      | _        | j                  «        y )Nr   )	r<   r=   r´   r­   r   rI   r>   Ú
qa_outputsr¿   rì   s     €r2   r=   z MptForQuestionAnswering.__init__­  sA   ø€ Ü‰Ñ˜Ô Ü# FÓ+ˆÔÜŸ)™) F×$6Ñ$6¸Ó:ˆŒð 	‰Õr4   NrÉ   rQ   rÊ   Ústart_positionsÚend_positionsr¦   rË   rÌ   r’   c	                 ó"  — ||n| j                   j                  }| j                  ||||||¬«      }
|
d   }| j                  |«      }|j	                  dd¬«      \  }}|j                  d«      j                  «       }|j                  d«      j                  «       }d}|·|µt        |j                  «       «      dkD  r|j                  d«      }t        |j                  «       «      dkD  r|j                  d«      }|j                  d«      }|j                  d|«      }|j                  d|«      }t        |¬«      } |||«      } |||«      }||z   dz  }|s||f|
dd z   }||f|z   S |S t        ||||
j                  |
j                  ¬	«      S )
rÎ   N)rQ   rÊ   r¦   rË   rÌ   r   r   rV   r   )Úignore_indexr   )rô   Ústart_logitsÚ
end_logitsrN   rÕ   )r7   rÖ   r­   r  Úsplitr*   rl   rc   re   r\   r   r   rN   rÕ   )rL   rÉ   rQ   rÊ   r  r  r¦   rË   rÌ   rÚ   rá   Úsequence_outputrò   r   r!  Ú
total_lossÚignored_indexr  Ú
start_lossÚend_lossr–   s                        r2   r|   zMptForQuestionAnswering.forwardµ  s»  € ð4 &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà×"Ñ"ØØ)Ø'Ø/Ø!5Ø#ð #ó 
ˆð " !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ó#:Ñ ˆjØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÐ&¨=Ð+Dä?×'Ñ'Ó)Ó*¨QÒ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ò,Ø -× 5Ñ 5°bÓ 9à(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÔCˆHÙ! ,°Ó@ˆJÙ 
¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJáØ" JÐ/°'¸!¸"°+Ñ=ˆFØ/9Ð/EZM FÑ*ÐQÈ6ÐQä+ØØ%Ø!Ø!×/Ñ/Ø×)Ñ)ô
ð 	
r4   )NNNNNNNN)r~   r   r€   r=   r   r   rå   ÚFloatTensorrª   rÙ   r   r|   r„   r…   s   @r2   r  r  «  sâ   ø„ ôð ð .2Ø37Ø26Ø37Ø15Ø)-Ø,0Ø#'ñF
à×#Ñ# dÑ*ðF
ð ×)Ñ)¨DÑ0ðF
ð ×(Ñ(¨4Ñ/ð	F
ð
 ×)Ñ)¨DÑ0ðF
ð ×'Ñ'¨$Ñ.ðF
ð   $™;ðF
ð # T™kðF
ð ˜D‘[ðF
ð 
Ð-Ñ	-òF
ó ôF
r4   r  )rè   r´   r¬   rü   r  r  râ   )0r   r#   r   r   Útorch.nnr   r   r   r   r   r”   Úcache_utilsr
   r   Ú
generationr   Úmasking_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_mptr   Ú
get_loggerr~   r×   r3   ÚModuler6   r‡   r˜   r¬   r´   rè   rü   r  r  Ú__all__r²   r4   r2   ú<module>r5     s_  ðñ ã ã Ý ß LÓ LÝ $ç .Ý )Ý /Ý 9÷õ õ .ß ,Ý (ð 
ˆ×	Ñ	˜HÓ	%€óô.F)2—9‘9ô F)ôRˆRY‰Yô ô*7$Ð)ô 7$ðt ô%˜ó %ó ð%ð ôP
Ð!ó P
ó ðP
ñf ðôôP
Ð'¨ó P
óðP
ñf ðôôs
Ð#5ó s
óðs
ðl ôU
Ð 2ó U
ó ðU
ðp ôP
Ð0ó P
ó ðP
òfr4   