Ë
    «q±is  ã                   óà  — d Z ddlZddlZddlmZ ddlmZ ddlmZ ddl	m
Z
mZmZ ddlmZ dd	lmZmZ dd
lmZ ddlmZmZ ddlmZ ddlmZmZ ddlmZ  ej<                  e«      Z  G d„ dejB                  «      Z" G d„ dejF                  «      Z$ G d„ dejF                  «      Z% G d„ de«      Z&e G d„ de«      «       Z'e G d„ de'«      «       Z( ed¬«       G d„ de'e«      «       Z)g d ¢Z*y)!zPyTorch XGLM model.é    N)Únné   )Úinitialization)ÚACT2FN)ÚCacheÚDynamicCacheÚEncoderDecoderCache)ÚGenerationMixin)Úcreate_bidirectional_maskÚcreate_causal_mask)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentions)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú
XGLMConfigc            
       ó`   ‡ — e Zd ZdZd
dededededz  fˆ fd„Zdej                  fˆ fd	„Z	ˆ xZ
S )ÚXGLMScaledWordEmbeddingz\
    This module overrides nn.Embeddings' forward by multiplying with embeddings scale.
    Únum_embeddingsÚembedding_dimÚpadding_idxÚembed_scaleNc                 ó6   •— t         ‰|   |||«       || _        y ©N)ÚsuperÚ__init__r   )Úselfr   r   r   r   Ú	__class__s        €úX/opt/pipecat/venv/lib/python3.12/site-packages/transformers/models/xglm/modeling_xglm.pyr   z XGLMScaledWordEmbedding.__init__*   s   ø€ Ü‰Ñ˜¨¸ÔDØ&ˆÕó    Ú	input_idsc                 ó<   •— t         ‰|   |«      | j                  z  S r   )r   Úforwardr   )r   r#   r    s     €r!   r%   zXGLMScaledWordEmbedding.forward.   s   ø€ Ü‰w‰˜yÓ)¨D×,<Ñ,<Ñ<Ð<r"   )ç      ð?)Ú__name__Ú
__module__Ú__qualname__Ú__doc__ÚintÚfloatr   ÚtorchÚTensorr%   Ú__classcell__©r    s   @r!   r   r   %   sE   ø„ ññ' sð '¸3ð 'ÈSð 'Ð_dÐgkÑ_kõ 'ð= §¡÷ =ñ =r"   r   c            	       óÎ   ‡ — e Zd ZdZddedededz  fˆ fd„Zddedededz  fd„Zeddedededz  fd	„«       Z e	j                  «       dd
e	j                  dz  defd„«       Zˆ xZS )Ú!XGLMSinusoidalPositionalEmbeddingzDThis module produces sinusoidal positional embeddings of any length.NÚnum_positionsr   r   c                 óš   •— t         ‰|   «        d| _        || _        || _        || _        | j                  || j                  z   ||«       y )Né   )r   r   Úoffsetr3   r   r   Úmake_weights)r   r3   r   r   r    s       €r!   r   z*XGLMSinusoidalPositionalEmbedding.__init__5   sH   ø€ Ü‰ÑÔØˆŒØ*ˆÔØ*ˆÔØ&ˆÔØ×Ñ˜-¨$¯+©+Ñ5°}ÀkÕRr"   r   c                 óà   — | j                  |||«      }t        | d«      r;|j                  | j                  j                  | j                  j
                  ¬«      }| j                  d|d¬«       y )NÚweights©ÚdtypeÚdeviceF)Ú
persistent)Úget_embeddingÚhasattrÚtor9   r;   r<   Úregister_buffer)r   r   r   r   Úemb_weightss        r!   r7   z.XGLMSinusoidalPositionalEmbedding.make_weights=   s[   € Ø×(Ñ(¨¸ÈÓTˆÜ4˜Ô#à%Ÿ.™.¨t¯|©|×/AÑ/AÈ$Ï,É,×J]ÑJ]˜.Ó^ˆKà×Ñ˜Y¨ÀÐÕFr"   c                 óâ  — |dz  }t        j                  d«      |dz
  z  }t        j                  t        j                  |t        j
                  ¬«      j                  «       | z  «      }t        j                  | t        j
                  ¬«      j                  «       j                  d«      |j                  d«      z  }t        j                  t        j                  |«      t        j                  |«      gd¬«      j                  | d«      }|dz  dk(  r-t        j                  |t        j                  | d«      gd¬«      }|	d||dd…f<   |j                  t        j                  «       «      S )	zÊ
        Build sinusoidal embeddings.

        This matches the implementation in tensor2tensor, but differs slightly from the description in Section 3.5 of
        "Attention Is All You Need".
        r5   i'  r   )r;   r   ©ÚdiméÿÿÿÿN)ÚmathÚlogr-   ÚexpÚarangeÚint64r,   Ú	unsqueezeÚcatÚsinÚcosÚviewÚzerosr@   Úget_default_dtype)r   r   r   Úhalf_dimÚembs        r!   r>   z/XGLMSinusoidalPositionalEmbedding.get_embeddingE   s  € ð ! AÑ%ˆÜh‰hu‹o ¨A¡Ñ.ˆÜi‰iœŸ™ X´U·[±[ÔA×GÑGÓIÈSÈDÑPÓQˆÜl‰l˜>´·±Ô=×CÑCÓE×OÑOÐPQÓRÐUX×UbÑUbÐcdÓUeÑeˆÜi‰iœŸ™ 3›¬¯©°3«Ð8¸aÔ@×EÑEÀnÐVXÓYˆØ˜1Ñ Ò!ä—)‘)˜S¤%§+¡+¨n¸aÓ"@ÐAÀqÔIˆCØÐ"Ø"#ˆCšQÑàv‰v”e×-Ñ-Ó/Ó0Ð0r"   Úposition_idsÚpast_key_values_lengthc                 ó¢  — |j                  «       \  }}|| j                  z   }d|z   |z   }|| j                  j                  d«      kD  r'| j                  || j                  | j
                  «       | j                  j                  d|j                  d«      «      j                  ||| j                  j                  d   «      j                  «       S )Nr5   r   rF   )
Úsizer6   r9   r7   r   r   Úindex_selectrP   ÚshapeÚdetach)r   rU   rV   ÚbszÚseq_lenÚmax_poss         r!   r%   z)XGLMSinusoidalPositionalEmbedding.forwardZ   s³   € à#×(Ñ(Ó*‰ˆˆWØ# d§k¡kÑ1ˆàg‘+Ð 6Ñ6ˆØT—\‘\×&Ñ& qÓ)Ò)Ø×Ñ˜g t×'9Ñ'9¸4×;KÑ;KÔLà|‰|×(Ñ(¨¨L×,=Ñ,=¸bÓ,AÓB×GÑGÈÈWÐVZ×VbÑVb×VhÑVhÐikÑVlÓm×tÑtÓvÐvr"   r   )Nr   )r'   r(   r)   r*   r+   r   r7   Ústaticmethodr>   r-   Úno_gradr.   r%   r/   r0   s   @r!   r2   r2   2   s´   ø„ ÙNñS cð S¸#ð SÈCÐRVÉJõ SñG¨3ð G¸sð GÐQTÐW[ÑQ[ó Gð ñ1 cð 1¸#ð 1ÈCÐRVÉJò 1ó ð1ð( €U‡]]ƒ_ñw E§L¡L°4Ñ$7ð wÐX[ò wó ôwr"   r2   c                   óP  ‡ — e Zd ZdZ	 	 	 	 ddedededz  dedz  dedz  dedz  fˆ fd	„Z	 	 	 	 	 dd
ej                  dej                  dz  de
dz  dej                  dz  dedej                  dz  deej                  ej                  dz  eej                     dz  f   fd„Zˆ xZS )ÚXGLMAttentionz=Multi-headed attention from 'Attention Is All You Need' paperNÚ	embed_dimÚ	num_headsÚdropoutÚ
is_decoderÚbiasÚ	layer_idxc                 óü  •— t         ‰|   «        || _        || _        || _        ||z  | _        | j
                  |z  | j                  k7  rt        d| j                  › d|› d«      ‚| j
                  dz  | _        || _        || _	        t        j                  |||¬«      | _        t        j                  |||¬«      | _        t        j                  |||¬«      | _        t        j                  |||¬«      | _        y )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿©rg   )r   r   rc   rd   re   Úhead_dimÚ
ValueErrorÚscalingrf   rh   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)r   rc   rd   re   rf   rg   rh   r    s          €r!   r   zXGLMAttention.__init__i   sÝ   ø€ ô 	‰ÑÔØ"ˆŒØ"ˆŒØˆŒØ! YÑ.ˆŒàM‰M˜IÑ%¨$¯.©.Ò8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ˆŒØ"ˆŒä—i‘i 	¨9¸4Ô@ˆŒÜ—i‘i 	¨9¸4Ô@ˆŒÜ—i‘i 	¨9¸4Ô@ˆŒÜŸ	™	 )¨Y¸TÔBˆr"   Úhidden_statesÚkey_value_statesÚpast_key_valuesÚattention_maskÚoutput_attentionsÚcache_positionÚreturnc                 ó,  — |du}|j                  «       \  }}	}
|r|j                  d   n|	}| j                  |«      | j                  z  }d}|St	        |t
        «      rA|j                  j                  | j                  «      }|r|j                  }n|j                  }n|}|r|n|}|rK|I|rGj                  | j                     j                  }|j                  | j                     j                  }nÔ| j                  |«      }| j                  |«      }|j!                  ||d| j"                  «      j%                  dd«      }|j!                  ||d| j"                  «      j%                  dd«      }|T|s|nd}j'                  ||| j                  d|i«      \  }}|r)t	        |t
        «      rd|j                  | j                  <   || j(                  z  d| j"                  f}|j!                  ||	| j(                  | j"                  «      j%                  dd«      } |j*                  |Ž } |j*                  |Ž } |j*                  |Ž }|j                  d«      }t-        j.                  ||j%                  dd«      «      }|j                  «       || j(                  z  |	|fk7  r/t1        d|| j(                  z  |	|f› d	|j                  «       › «      ‚|×|j                  «       |d|	|fk7  r#t1        d
|d|	|f› d	|j                  «       › «      ‚|j!                  || j(                  |	|«      |z   }t-        j2                  |t-        j4                  t-        j6                  |j8                  «      j:                  |j<                  ¬«      «      }|j!                  || j(                  z  |	|«      }|j8                  t,        j>                  k(  rNt@        jB                  jE                  |dt,        jF                  ¬«      jI                  t,        j>                  «      }n!t@        jB                  jE                  |d¬«      }|r?|j!                  || j(                  |	|«      }|j!                  || j(                  z  |	|«      }nd}t@        jB                  jK                  || jJ                  | jL                  ¬«      }t-        j.                  ||«      }|j                  «       || j(                  z  |	| j"                  fk7  r7t1        d|| j(                  |	| j"                  f› d	|j                  «       › «      ‚|j!                  || j(                  |	| j"                  «      }|j%                  dd«      }|j+                  ||	| jN                  «      }| jQ                  |«      }||fS )z#Input shape: Batch x Time x ChannelNr   FrF   r5   rx   Tz$Attention weights should be of size z	, but is z!Attention mask should be of size ©r<   )rE   r;   rD   ©ÚpÚtrainingz `attn_output` should be of size ))rX   rZ   rq   rm   Ú
isinstancer	   Ú
is_updatedÚgetrh   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesro   rp   rP   rk   Ú	transposeÚupdaterd   Úreshaper-   Úbmmrl   ÚmaxÚtensorÚfinfor;   Úminr<   Úfloat16r   Ú
functionalÚsoftmaxÚfloat32r@   re   r~   rc   rr   )r   rs   rt   ru   rv   rw   rx   Úis_cross_attentionr\   Útgt_lenÚ_Úsrc_lenÚquery_statesr€   Úcurr_past_key_valuesÚcurrent_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                          r!   r%   zXGLMAttention.forward†   s0  € ð .°TÐ9Ðà'×,Ñ,Ó.‰ˆˆWaÙ/AÐ"×(Ñ(¨Ò+Àwˆð —{‘{ =Ó1°D·L±LÑ@ˆàˆ
ØÐ&Ü˜/Ô+>Ô?Ø,×7Ñ7×;Ñ;¸D¿N¹NÓK
Ù%à+:×+PÑ+PÑ(à+:×+OÑ+OÑ(à'6Ð$á-?Ñ)À]ˆÙ /Ð"=Á*à-×4Ñ4°T·^±^ÑD×IÑIˆJØ/×6Ñ6°t·~±~ÑF×MÑM‰LàŸ™ ^Ó4ˆJØŸ;™; ~Ó6ˆLØ#Ÿ™¨¨g°r¸4¿=¹=ÓI×SÑSÐTUÐWXÓYˆJØ'×,Ñ,¨S°'¸2¸t¿}¹}ÓM×WÑWÐXYÐ[\Ó]ˆLàÐ*á7I¡ÈtØ+?×+FÑ+FØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lñ &¬*°_ÔFYÔ*ZØAEO×.Ñ.¨t¯~©~Ñ>à˜DŸN™NÑ*¨B°·±Ð>ˆ
Ø#×(Ñ(¨¨g°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØ+|×+Ñ+¨ZÐ8ˆØ'Z×'Ñ'¨Ð4ˆ
Ø+|×+Ñ+¨ZÐ8ˆà—/‘/ !Ó$ˆÜ—y‘y ¨z×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¨¯©Ñ#7¸À'Ð"JÒJÜØ6¸¸d¿n¹nÑ8LÈgÐW^Ð7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð
 Ð%Ø×"Ñ"Ó$¨¨a°¸'Ð(BÒBÜ Ø7¸¸aÀÈ'Ð8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S°$·.±.À'È7ÓSÐVdÑdˆLÜ Ÿ9™9ØœeŸl™l¬5¯;©;°|×7IÑ7IÓ+J×+NÑ+NÐWc×WjÑWjÔkóˆLð (×,Ñ,¨S°4·>±>Ñ-AÀ7ÈGÓTˆLð ×Ñ¤§¡Ò.ÜŸ=™=×0Ñ0°À2ÌUÏ]É]Ð0Ó[×^Ñ^Ô_d×_lÑ_lÓm‰LäŸ=™=×0Ñ0°À2Ð0ÓFˆLáð
 %1×$5Ñ$5°c¸4¿>¹>È7ÐT[Ó$\Ð!Ø0×5Ñ5°c¸D¿N¹NÑ6JÈGÐU\Ó]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ó`ˆ
ä—i‘i 
¨LÓ9ˆà×ÑÓ #¨¯©Ñ"6¸ÀÇÁÐ!OÒOÜØ2°C¸¿¹ÈÐRV×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¨D¯N©N¸GÀTÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆð "×)Ñ)¨#¨w¸¿¹ÓGˆà—m‘m KÓ0ˆàÐ1Ð1Ð1r"   )g        FTN)NNNFN)r'   r(   r)   r*   r+   r,   Úboolr   r-   r.   r   Útupler%   r/   r0   s   @r!   rb   rb   f   s  ø„ ÙGð !$Ø"'Ø Ø!%ñCàðCð ðCð ˜‘ð	Cð
 ˜4‘KðCð T‰kðCð ˜$‘;õCð@ 15Ø(,Ø.2Ø"'Ø.2ñs2à—|‘|ðs2ð  Ÿ,™,¨Ñ-ðs2ð  ™ð	s2ð
 Ÿ™ tÑ+ðs2ð  ðs2ð Ÿ™ tÑ+ðs2ð 
ˆu|‰|˜UŸ\™\¨DÑ0°%¸¿¹Ñ2EÈÑ2LÐLÑ	M÷s2r"   rb   c                   ó  ‡ — e Zd Zddefˆ fd„Z	 	 	 	 	 	 	 ddej                  dej                  dz  dej                  dz  dej                  dz  dedz  d	edz  d
edz  dej                  dz  dej                  fd„Z	ˆ xZ
S )ÚXGLMDecoderLayerNÚconfigc                 ó0  •— t         ‰|   «        |j                  | _        t	        | j                  |j
                  |j                  d|¬«      | _        |j                  | _        t        |j                     | _        |j                  | _        |j                  rWt	        | j                  |j
                  |j                  d|¬«      | _        t        j                   | j                  «      | _        t        j                   | j                  «      | _        t        j&                  | j                  |j(                  «      | _        t        j&                  |j(                  | j                  «      | _        t        j                   | j                  «      | _        y )NT)rc   rd   re   rf   rh   )r   r   Úd_modelrc   rb   Úattention_headsÚattention_dropoutÚ	self_attnre   r   Úactivation_functionÚactivation_fnÚactivation_dropoutÚadd_cross_attentionÚencoder_attnr   Ú	LayerNormÚencoder_attn_layer_normÚself_attn_layer_normrn   Úffn_dimÚfc1Úfc2Úfinal_layer_norm)r   r¥   rh   r    s      €r!   r   zXGLMDecoderLayer.__init__ý   s  ø€ Ü‰ÑÔØŸ™ˆŒä&Ø—n‘nØ×,Ñ,Ø×,Ñ,ØØô
ˆŒð —~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔà×%Ò%Ü -ØŸ.™.Ø ×0Ñ0Ø×0Ñ0ØØ#ô!ˆDÔô ,.¯<©<¸¿¹Ó+GˆDÔ(ä$&§L¡L°·±Ó$@ˆÔ!Ü—9‘9˜TŸ^™^¨V¯^©^Ó<ˆŒÜ—9‘9˜VŸ^™^¨T¯^©^Ó<ˆŒÜ "§¡¨T¯^©^Ó <ˆÕr"   rs   rv   Úencoder_hidden_statesÚencoder_attention_maskru   rw   Ú	use_cacherx   ry   c	                 ó.  — |}	| j                  |«      }| j                  |||||¬«      \  }}
t        j                  j	                  || j                  | j
                  ¬«      }|	|z   }d}|h|}	| j                  |«      }| j                  ||||||¬«      \  }}t        j                  j	                  || j                  | j
                  ¬«      }|	|z   }|}	| j                  |«      }| j                  | j                  |«      «      }t        j                  j	                  || j                  | j
                  ¬«      }| j                  |«      }t        j                  j	                  || j                  | j
                  ¬«      }|	|z   }|f}|r||
|fz  }|S )aÆ  
        Args:
            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
            attention_mask (`torch.FloatTensor`): attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
            encoder_hidden_states (`torch.FloatTensor`):
                cross attention input to the layer of shape `(batch, seq_len, embed_dim)`
            encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
            past_key_values (`Cache`): cached past key and value projection states
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
        )rs   ru   rv   rw   rx   r|   N)rs   rt   rv   ru   rw   rx   )r²   rª   r   r   re   r~   r±   r¯   r¶   r¬   r´   r­   rµ   )r   rs   rv   r·   r¸   ru   rw   r¹   rx   ÚresidualÚself_attn_weightsÚcross_attn_weightsÚoutputss                r!   r%   zXGLMDecoderLayer.forward  s¯  € ð2 !ˆØ×1Ñ1°-Ó@ˆð ,0¯>©>Ø'Ø+Ø)Ø/Ø)ð ,:ó ,
Ñ(ˆÐ(ô Ÿ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-ÓdˆØ  =Ñ0ˆð "ÐØ Ð,Ø$ˆHØ ×8Ñ8¸ÓGˆMà04×0AÑ0AØ+Ø!6Ø5Ø /Ø"3Ø-ð 1Bó 1Ñ-ˆMÐ-ô ŸM™M×1Ñ1°-À4Ç<Á<ÐZ^×ZgÑZgÐ1ÓhˆMØ$ }Ñ4ˆMð !ˆØ×-Ñ-¨mÓ<ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m¸t×?VÑ?VÐae×anÑanÐ-ÓoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-ÓdˆØ  =Ñ0ˆà Ð"ˆáØÐ)Ð+=Ð>Ñ>ˆGàˆr"   r   )NNNNFTN)r'   r(   r)   r   r   r-   r.   r   r¡   r%   r/   r0   s   @r!   r¤   r¤   ü   sÆ   ø„ ñ=˜zõ =ðD /3Ø59Ø6:Ø(,Ø).Ø!%Ø.2ñFà—|‘|ðFð Ÿ™ tÑ+ðFð  %Ÿ|™|¨dÑ2ð	Fð
 !&§¡¨tÑ 3ðFð  ™ðFð   $™;ðFð ˜$‘;ðFð Ÿ™ tÑ+ðFð 
‰÷Fr"   r¤   c                   ó8   ‡ — e Zd ZU eed<   dZdZdgZˆ fd„Zˆ xZ	S )ÚXGLMPreTrainedModelr¥   ÚmodelTr¤   c                 ó  •— t         ‰|   |«       t        |t        «      r_|j	                  |j
                  |j                  z   |j                  |j                  «      }t        j                  |j                  |«       y y r   )r   Ú_init_weightsr   r2   r>   r3   r6   r   r   ÚinitÚcopy_r9   )r   ÚmodulerB   r    s      €r!   rÃ   z!XGLMPreTrainedModel._init_weightsl  sg   ø€ Ü‰Ñ˜fÔ%ÜfÔ?Ô@Ø ×.Ñ.Ø×$Ñ$ v§}¡}Ñ4°f×6JÑ6JÈF×L^ÑL^óˆKô J‰Jv—~‘~ {Õ3ð	 Ar"   )
r'   r(   r)   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesrÃ   r/   r0   s   @r!   rÀ   rÀ   e  s(   ø… àÓØÐØ&*Ð#Ø+Ð,Ð÷4ð 4r"   rÀ   c                   óx  ‡ — e Zd Zdefˆ fd„Ze	 	 	 	 	 	 	 	 	 	 	 	 ddej                  dz  dej                  dz  dej                  dz  dej                  dz  dej                  dz  d	edz  d
ej                  dz  de	dz  de	dz  de	dz  de	dz  dej                  dz  de
ej                     ez  fd„«       Zˆ xZS )Ú	XGLMModelr¥   c           	      óÖ  •— t         ‰|   |«       |j                  | _        |j                  | _        |j                  | _        |j                  | _        |j                  rt        j                  |j                  «      nd}t        |j                  |j                  | j
                  |¬«      | _        t        |j                  |j                  |j                  «      | _        t#        j$                  t'        |j(                  «      D cg c]  }t+        ||¬«      ‘Œ c}«      | _        t#        j.                  |j                  «      | _        d| _        | j5                  «        y c c}w )Nr&   )r   )rh   F)r   r   re   Ú	layerdropÚpad_token_idr   Úmax_position_embeddingsÚmax_target_positionsÚscale_embeddingrG   Úsqrtr§   r   Ú
vocab_sizeÚembed_tokensr2   Úembed_positionsr   Ú
ModuleListÚrangeÚ
num_layersr¤   r„   r°   Ú
layer_normÚgradient_checkpointingÚ	post_init)r   r¥   r   Úir    s       €r!   r   zXGLMModel.__init__w  s  ø€ Ü‰Ñ˜Ô Ø—~‘~ˆŒØ×)Ñ)ˆŒØ!×.Ñ.ˆÔØ$*×$BÑ$BˆÔ!Ø39×3IÒ3I”d—i‘i §¡Ô/Èsˆä3Ø×Ñ˜vŸ~™~¨t×/?Ñ/?È[ô
ˆÔô  AØ×*Ñ*ØN‰NØ×Ñó 
ˆÔô
 —m‘mÔTYÐZ`×ZkÑZkÓTlÖ$mÈqÔ%5°fÈÖ%JÒ$mÓnˆŒÜŸ,™, v§~¡~Ó6ˆŒà&+ˆÔ#à‰Õùò %ns   Ä
E&Nr#   rv   rU   r·   r¸   ru   Úinputs_embedsr¹   rw   Úoutput_hidden_statesÚreturn_dictrx   ry   c                 ó4  — |	|	n| j                   j                  }	|
|
n| j                   j                  }
||n| j                   j                  }||n| j                   j                  }||t        d«      ‚|8| j                  ||«       |j                  «       }|j                  d|d   «      }n!||j                  «       dd }nt        d«      ‚|€| j                  |«      }| j                  r%| j                  r|rt        j                  d«       d}|rd|€b|€| j                   j                  r4t        t!        | j                   ¬«      t!        | j                   ¬«      «      nt!        | j                   ¬«      }||j#                  «       nd}|€2t%        j&                  |||j(                  d	   z   |j*                  ¬
«      }t-        | j                   ||||¬«      }|€Vt%        j&                  ||d   |z   t$        j.                  ||j*                  n|j*                  ¬«      }|j1                  d«      }||t3        | j                   |||¬«      }|| j5                  ||«      j7                  |j*                  «      z   }t8        j:                  j=                  |t?        | j<                  «      | j                  ¬«      }|
rdnd}|	rdnd}|	r|dnd}tA        | jB                  «      D ]k  \  }}|
r||fz  }| j                  r%t%        jD                  g «      }|| jF                  k  rŒ? |||||||	||¬«      }|d   }|	sŒW||d	   fz  }|€Œc||d   fz  }Œm | jI                  |«      }|
r||fz  }|stK        d„ |||||fD «       «      S tM        |||||¬«      S )aÅ  
        encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
            the decoder.
        encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
            Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
            selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        NzDYou cannot specify both input_ids and inputs_embeds at the same timerF   z5You have to specify either input_ids or inputs_embedsz_`use_cache = True` is incompatible with gradient checkpointing`. Setting `use_cache = False`...F)r¥   r   r   r{   )r¥   rÞ   rv   rx   ru   r:   )r¥   rÞ   rv   r·   r|   © )r¸   ru   rw   r¹   rx   r5   c              3   ó$   K  — | ]  }||–— Œ
 y ­wr   râ   )Ú.0Úvs     r!   ú	<genexpr>z$XGLMModel.forward.<locals>.<genexpr>  s   è ø€ ò àØ=ô ñùs   ‚)Úlast_hidden_stateru   rs   Ú
attentionsÚcross_attentions)'r¥   rw   rß   r¹   Úuse_return_dictrl   Ú%warn_if_padding_and_no_attention_maskrX   rP   rÕ   rÛ   r~   ÚloggerÚwarning_onceÚis_encoder_decoderr	   r   Úget_seq_lengthr-   rJ   rZ   r<   r   ÚlongrL   r   rÖ   r@   r   r   re   r,   Ú	enumerater„   ÚrandrÎ   rÚ   r¢   r   )r   r#   rv   rU   r·   r¸   ru   rÞ   r¹   rw   rß   rà   rx   ÚkwargsÚinput_shaperV   rs   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚidxÚdecoder_layerÚdropout_probabilityÚlayer_outputss                           r!   r%   zXGLMModel.forward  sø  € ð< 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð "+Ð!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ð  ]Ð%>ÜÐcÓdÐdØÐ"Ø×6Ñ6°yÀ.ÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÐ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUàÐ Ø ×-Ñ-¨iÓ8ˆMà×&Ò&¨4¯=ª=ÙÜ×#Ñ#Øuôð "	ñ ˜Ð0ð )Ð4¸¿¹×8VÒ8Vô $¤L¸¿¹Ô$DÄlÐZ^×ZeÑZeÔFfÔgä!¨¯©Ô5ð ð FUÐE` ×!?Ñ!?Ô!AÐfgÐØÐ!Ü"Ÿ\™\Ø&Ð(>À×ATÑATÐUVÑAWÑ(WÐ`m×`tÑ`tôˆNô ,Ø—;‘;Ø'Ø)Ø)Ø+ô
ˆð ÐÜ Ÿ<™<Ø&Ø˜B‘Ð"8Ñ8Ü—j‘jØ+4Ð+@y×'Ò'Àm×FZÑFZô	ˆLð (×1Ñ1°!Ó4ˆLð !Ð,Ð1GÐ1SÜ%>Ø—{‘{Ø+Ø5Ø&;ô	&Ð"ð &¨×(<Ñ(<¸\ÐKaÓ(b×(eÑ(eØ× Ñ ó)
ñ 
ˆô Ÿ™×-Ñ-¨m¼uÀTÇ\Á\Ó?RÐ]a×]jÑ]jÐ-Ókˆñ #7™B¸DÐÙ0™°dˆÙ&7Ð<QÐ<]™rÐdhÐä"+¨D¯K©KÓ"8ò 	@ÑˆCá#Ø! mÐ%5Ñ5Ð!Ø}Š}Ü&+§j¡j°£nÐ#Ø&¨¯©Ò7Øá)ØØØ%Ø'=Ø /Ø"3Ø#Ø-ô	ˆMð *¨!Ñ,ˆMâ Ø =°Ñ#3Ð"5Ñ5à(Ñ4Ø(¨]¸1Ñ-=Ð,?Ñ?Ñ(ð3	@ð6 Ÿ™¨Ó6ˆñ  Ø -Ð!1Ñ1ÐáÜñ à'¨Ð:KÈ^Ð]qÐrôó ð ô
 9Ø+Ø+Ø+Ø%Ø1ô
ð 	
r"   )NNNNNNNNNNNN)r'   r(   r)   r   r   r   r-   r.   r   r¡   r¢   r   r%   r/   r0   s   @r!   rÌ   rÌ   u  s:  ø„ ð˜zõ ð0 ð *.Ø.2Ø,0Ø59Ø6:Ø(,Ø-1Ø!%Ø)-Ø,0Ø#'Ø.2ñY
à—<‘< $Ñ&ðY
ð Ÿ™ tÑ+ðY
ð —l‘l TÑ)ð	Y
ð
  %Ÿ|™|¨dÑ2ðY
ð !&§¡¨tÑ 3ðY
ð  ™ðY
ð —|‘| dÑ*ðY
ð ˜$‘;ðY
ð   $™;ðY
ð # T™kðY
ð ˜D‘[ðY
ð Ÿ™ tÑ+ðY
ð 
ˆu|‰|Ñ	ÐHÑ	HòY
ó ôY
r"   rÌ   z‡
    The XGLM Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc            !       ó¾  ‡ — e Zd ZdZddiZˆ fd„Ze	 	 	 	 	 	 	 	 	 	 	 	 	 	 ddej                  dz  dej                  dz  dej                  dz  d	ej                  dz  d
ej                  dz  de	dz  dej                  dz  dej                  dz  de
dz  de
dz  de
dz  de
dz  dej                  dz  deej                  z  deej                     ez  fd„«       Zˆ xZS )ÚXGLMForCausalLMrÁ   zlm_head.weightzmodel.embed_tokens.weightc                 óÆ   •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  |j                  d¬«      | _        | j                  «        y )NFrj   )
r   r   rÌ   rÁ   r   rn   Úhidden_sizerÔ   Úlm_headrÜ   )r   r¥   r    s     €r!   r   zXGLMForCausalLM.__init__6  sH   ø€ Ü‰Ñ˜Ô Ü˜vÓ&ˆŒ
Ü—y‘y ×!3Ñ!3°V×5FÑ5FÈUÔSˆŒð 	‰Õr"   Nr#   rv   rU   r·   r¸   ru   rÞ   Úlabelsr¹   rw   rß   rà   rx   Úlogits_to_keepry   c                 óx  — |
|
n| j                   j                  }
||n| j                   j                  }||n| j                   j                  }| j	                  ||||||||	|
|||¬«      }|d   }t        |t        «      rt        | d«      n|}| j                  |dd…|dd…f   «      }d}|? | j                  ||f| j                   j                  | j                   j                  dœ|¤Ž}|s|f|dd z   }||f|z   S |S t        |||j                  |j                  |j                  |j                   ¬«      S )ai  
        encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
            the decoder.
        encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
            Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
            selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
        N)r#   rv   rU   r·   r¸   ru   rÞ   r¹   rw   rß   rà   rx   r   )rÔ   rÏ   r   )ÚlossÚlogitsru   rs   rè   ré   )r¥   rw   rß   rê   rÁ   r   r+   Úslicer  Úloss_functionrÔ   rÏ   r   ru   rs   rè   ré   )r   r#   rv   rU   r·   r¸   ru   rÞ   r  r¹   rw   rß   rà   rx   r  ró   r¾   rs   Úslice_indicesr  r  Úoutputs                         r!   r%   zXGLMForCausalLM.forward>  s  € ðJ 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*ØØ)Ø%Ø"7Ø#9Ø+Ø'ØØ/Ø!5Ø#Ø)ð ó 
ˆð   ™
ˆä8BÀ>ÔSVÔ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÐØ%4×%Ñ%ØØðð  Ÿ;™;×1Ñ1Ø!Ÿ[™[×5Ñ5ñ	ð
 ñˆDñ ØY ¨¨ Ñ,ˆFØ'+Ð'7D7˜VÑ#ÐC¸VÐCä0ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ô
ð 	
r"   )NNNNNNNNNNNNNr   )r'   r(   r)   rÈ   Ú_tied_weights_keysr   r   r-   r.   r   r¡   r+   r¢   r   r%   r/   r0   s   @r!   rþ   rþ   ,  su  ø„ ð  ÐØ*Ð,GÐHÐôð ð *.Ø.2Ø,0Ø59Ø6:Ø(,Ø-1Ø&*Ø!%Ø)-Ø,0Ø#'Ø.2Ø-.ñT
à—<‘< $Ñ&ðT
ð Ÿ™ tÑ+ðT
ð —l‘l TÑ)ð	T
ð
  %Ÿ|™|¨dÑ2ðT
ð !&§¡¨tÑ 3ðT
ð  ™ðT
ð —|‘| dÑ*ðT
ð —‘˜tÑ#ðT
ð ˜$‘;ðT
ð   $™;ðT
ð # T™kðT
ð ˜D‘[ðT
ð Ÿ™ tÑ+ðT
ð ˜eŸl™lÑ*ðT
ð" 
ˆu|‰|Ñ	Ð@Ñ	@ò#T
ó ôT
r"   rþ   )rþ   rÌ   rÀ   )+r*   rG   r-   r   Ú r   rÄ   Úactivationsr   Úcache_utilsr   r   r	   Ú
generationr
   Úmasking_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_xglmr   Ú
get_loggerr'   rì   Ú	Embeddingr   ÚModuler2   rb   r¤   rÀ   rÌ   rþ   Ú__all__râ   r"   r!   ú<module>r     sý   ðñ ã ã Ý å &Ý !ß CÑ CÝ )ß JÝ 9ß lÝ -ß ,Ý *ð 
ˆ×	Ñ	˜HÓ	%€ô
=˜bŸl™lô 
=ô1w¨¯	©	ô 1wôhS2B—I‘Iô S2ôlfÐ1ô fðR ô4˜/ó 4ó ð4ð ôs
Ð#ó s
ó ðs
ñl ðôôa
Ð)¨?ó a
óða
òH Br"   