Ë
    «q±i˜D  ã                   ó  — d Z ddlZddlmZ ddlZddlmZ ddlmZ	 ddl
mZmZ ddlmZ ddlmZmZ d	d
lmZmZmZmZmZmZmZmZmZ ddlmZ  ej<                  e«      Z e ed¬«       G d„ de«      «       «       Z! G d„ de«      Z" G d„ de«      Z# G d„ de«      Z$ G d„ de«      Z% G d„ de«      Z& G d„ de«      Z'e G d„ de«      «       Z(eZ) G d„ d e(e«      Z* ed!¬«       G d"„ d#e(«      «       Z+ G d$„ d%e«      Z, G d&„ d'e«      Z-g d(¢Z.y))zPyTorch UniSpeech model.é    N)Ú	dataclassé   )Úinitialization)ÚModelOutputÚWav2Vec2BaseModelOutput)ÚPreTrainedModel)Úauto_docstringÚloggingé   )	ÚWav2Vec2EncoderÚWav2Vec2EncoderStableLayerNormÚWav2Vec2FeatureEncoderÚWav2Vec2FeatureProjectionÚWav2Vec2ForCTCÚ!Wav2Vec2ForSequenceClassificationÚWav2Vec2GumbelVectorQuantizerÚWav2Vec2ModelÚWav2Vec2PositionalConvEmbeddingé   )ÚUniSpeechConfigzh
    Output type of [`UniSpeechForPreTrainingOutput`], with potential hidden states and attentions.
    )Úcustom_introc                   ó  — e Zd ZU dZdZej                  dz  ed<   dZej                  dz  ed<   dZ	ej                  dz  ed<   dZ
ej                  dz  ed<   dZeej                     dz  ed<   dZeej                     dz  ed<   y)	ÚUniSpeechForPreTrainingOutputaÝ  
    loss (*optional*, returned when model is in train mode, `torch.FloatTensor` of shape `(1,)`):
        Total loss as the sum of the contrastive loss (L_m) and the diversity loss (L_d) as stated in the [official
        paper](https://huggingface.co/papers/2006.11477).
    projected_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.proj_codevector_dim)`):
        Hidden-states of the model projected to *config.proj_codevector_dim* that can be used to predict the masked
        projected quantized states.
    projected_quantized_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.proj_codevector_dim)`):
        Quantized extracted feature vectors projected to *config.proj_codevector_dim* representing the positive
        target vectors for contrastive loss.
    codevector_perplexity (`torch.FloatTensor` of shape `(1,)`):
        The perplexity of the codevector distribution, used to measure the diversity of the codebook.
    NÚlossÚprojected_statesÚprojected_quantized_statesÚcodevector_perplexityÚhidden_statesÚ
attentions)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   ÚtorchÚFloatTensorÚ__annotations__r   r   r   r   Útupler   © ó    úa/opt/pipecat/venv/lib/python3.12/site-packages/transformers/models/unispeech/modular_unispeech.pyr   r   +   s”   … ñð &*€Dˆ%×
Ñ
˜dÑ
"Ó)Ø15Ðe×'Ñ'¨$Ñ.Ó5Ø;?Ð × 1Ñ 1°DÑ 8Ó?Ø6:Ð˜5×,Ñ,¨tÑ3Ó:Ø59€M5˜×*Ñ*Ñ+¨dÑ2Ó9Ø26€Je×'Ñ'Ñ(¨4Ñ/Ô6r)   r   c                   ó   — e Zd Zy)Ú UniSpeechPositionalConvEmbeddingN©r    r!   r"   r(   r)   r*   r,   r,   H   ó   „ Ør)   r,   c                   ó   — e Zd Zy)ÚUniSpeechFeatureEncoderNr-   r(   r)   r*   r0   r0   L   r.   r)   r0   c                   ó   — e Zd Zy)ÚUniSpeechFeatureProjectionNr-   r(   r)   r*   r2   r2   P   r.   r)   r2   c                   ó   — e Zd Zy)ÚUniSpeechEncoderNr-   r(   r)   r*   r4   r4   T   r.   r)   r4   c                   ó   — e Zd Zy)ÚUniSpeechEncoderStableLayerNormNr-   r(   r)   r*   r6   r6   X   r.   r)   r6   c                   ó"   — e Zd Zed„ «       Zd„ Zy)ÚUniSpeechGumbelVectorQuantizerc                 óÄ   — | j                  d¬«      }t        j                  t        j                  t        j                  ||«      d¬«       «      j                  «       }|S )Nr   ©Údiméÿÿÿÿ)Úmeanr$   ÚexpÚsumÚxlogy)ÚprobsÚmarginal_probsÚ
perplexitys      r*   Ú_compute_perplexityz2UniSpeechGumbelVectorQuantizer._compute_perplexity]   sI   € àŸ™¨˜Ó*ˆÜ—Y‘Y¤§	¡	¬%¯+©+°nÀnÓ*UÐ[]Ô ^Ð^Ó_×cÑcÓeˆ
ØÐr)   c                 óÞ  — |j                   \  }}}| j                  |«      }|j                  ||z  | j                  z  d«      }| j                  ržt
        j                  j                  |j                  «       | j                  d¬«      j                  |«      }t        j                  |j                  ||z  | j                  d«      j                  «       d¬«      }| j                  |«      }n}|j                  d¬«      } |j                  |j                   Ž j!                  d|j                  dd«      d«      }|j                  ||z  | j                  d«      }| j                  |«      }|j                  ||z  d«      }|j#                  d«      | j$                  z  }	|	j                  ||z  | j                  | j&                  d«      }
|
j)                  d«      j                  ||d«      }
|
|fS )Nr<   T)ÚtauÚhardr:   r   g      ð?éþÿÿÿ)ÚshapeÚweight_projÚviewÚ
num_groupsÚtrainingÚnnÚ
functionalÚgumbel_softmaxÚfloatÚtemperatureÚtype_asr$   ÚsoftmaxrD   ÚargmaxÚ	new_zerosÚscatter_Ú	unsqueezeÚcodevectorsÚnum_varsr?   )Úselfr   Ú
batch_sizeÚsequence_lengthÚhidden_sizeÚcodevector_probsÚcodevector_soft_distrC   Úcodevector_idxÚcodevectors_per_grouprY   s              r*   Úforwardz&UniSpeechGumbelVectorQuantizer.forwardc   sÛ  € Ø3@×3FÑ3FÑ0ˆ
O [ð ×(Ñ(¨Ó7ˆØ%×*Ñ*¨:¸Ñ+GÈ$Ï/É/Ñ+YÐ[]Ó^ˆà=Š=ä!Ÿ}™}×;Ñ;Ø×#Ñ#Ó%¨4×+;Ñ+;À$ð  <ó  ç‰gmÓ$ð ô
 $)§=¡=Ø×"Ñ" :°Ñ#?ÀÇÁÐRTÓU×[Ñ[Ó]Ðceô$Ð ð ×1Ñ1Ð2FÓG‰Jð +×1Ñ1°bÐ1Ó9ˆNØ6˜}×6Ñ6¸×8KÑ8KÐL×UÑUØN×'Ñ'¨¨AÓ.°ó Ðð  0×4Ñ4°ZÀ/Ñ5QÐSW×SbÑSbÐdfÓgÐà×1Ñ1Ð2BÓCˆJà+×0Ñ0°¸oÑ1MÈrÓRÐà 0× :Ñ :¸2Ó >À×AQÑAQÑ QÐØ+×0Ñ0°¸oÑ1MÈtÏÉÐ`d×`mÑ`mÐoqÓrˆØ!—o‘o bÓ)×.Ñ.¨z¸?ÈBÓOˆà˜JÐ&Ð&r)   N)r    r!   r"   ÚstaticmethodrD   rc   r(   r)   r*   r8   r8   \   s   „ Øñó ðó
#'r)   r8   c                   ó¬   — e Zd ZU eed<   dZdZdZdZdZ	dZ
dZ ej                  «       d„ «       Zdej                  ez  fd„Zd	ed
ej                  fd„Zy)ÚUniSpeechPreTrainedModelÚconfigÚ	unispeechÚinput_valuesÚaudioTc           
      ó°  — t        |t        «      rut        j                  |j                  j
                  dd¬«       t        j                  |j                  j                  «       t        j                  |j                  «       yt        |t        «      ržt        j                  |j                  j
                  ddt        j                  d|j                  j                  d   |j                  j                  z  z  «      z  ¬«       t        j                   |j                  j                  d«       yt        |t"        «      r‡t        j                  d|j$                  j&                  z  «      }t        j                  |j$                  j
                  | |¬«       t        j                  |j$                  j                  | |¬«       yt        |t(        j*                  «      rct        j                  |j
                  d| j,                  j.                  ¬«       |j                   t        j                  |j                  «       yyt        |t(        j0                  t(        j2                  f«      r?t        j                  |j                  «       t        j4                  |j
                  «       yt        |t(        j6                  «      rŒt        j8                  |j
                  «       |j                  `t        j                  |j:                  |j                  |j                  d   z  z  «      }t        j                  |j                  | |¬«       yyy)zInitialize the weightsç        r   )r=   Ústdr   r   )ÚaÚbN)Ú
isinstancer8   ÚinitÚnormal_rJ   ÚweightÚzeros_ÚbiasÚuniform_rY   r,   ÚconvÚmathÚsqrtÚkernel_sizeÚin_channelsÚ	constant_r2   Ú
projectionÚin_featuresrN   ÚLinearrg   Úinitializer_rangeÚ	LayerNormÚ	GroupNormÚones_ÚConv1dÚkaiming_normal_Úgroups)r[   ÚmoduleÚks      r*   Ú_init_weightsz&UniSpeechPreTrainedModel._init_weights”   s*  € ô fÔ<Ô=ÜL‰L˜×+Ñ+×2Ñ2¸À!ÕDÜK‰K˜×*Ñ*×/Ñ/Ô0ÜM‰M˜&×,Ñ,Õ-Ü˜Ô @ÔAÜL‰LØ—‘×"Ñ"ØØœŸ	™	 ! v§{¡{×'>Ñ'>¸qÑ'AÀFÇKÁK×D[ÑD[Ñ'[Ñ"\Ó]Ñ]õô
 N‰N˜6Ÿ;™;×+Ñ+¨QÕ/Ü˜Ô :Ô;Ü—	‘	˜!˜f×/Ñ/×;Ñ;Ñ;Ó<ˆAÜM‰M˜&×+Ñ+×2Ñ2°q°b¸AÕ>ÜM‰M˜&×+Ñ+×0Ñ0°Q°B¸!Ö<Ü˜¤§	¡	Ô*ÜL‰L˜Ÿ™¨S°d·k±k×6SÑ6SÕTà{‰{Ð&Ü—‘˜FŸK™KÕ(ð 'ä˜¤§¡¬r¯|©|Ð <Ô=ÜK‰K˜Ÿ™Ô$ÜJ‰Jv—}‘}Õ%Ü˜¤§	¡	Ô*Ü× Ñ  §¡Ô/à{‰{Ð&Ü—I‘I˜fŸm™m¨v×/AÑ/AÀF×DVÑDVÐWXÑDYÑ/YÑZÓ[Ü—‘˜fŸk™k¨a¨R°1Ö5ð 'ð +r)   Úinput_lengthsc                 ó˜   — d„ }t        | j                  j                  | j                  j                  «      D ]  \  }} ||||«      }Œ |S )zH
        Computes the output length of the convolutional layers
        c                 ó>   — t        j                  | |z
  |d¬«      dz   S )NÚfloor)Úrounding_moder   )r$   Údiv)Úinput_lengthrz   Ústrides      r*   Ú_conv_out_lengthzSUniSpeechPreTrainedModel._get_feat_extract_output_lengths.<locals>._conv_out_length»   s"   € ô —9‘9˜\¨KÑ7¸ÈwÔWÐZ[Ñ[Ð[r)   )Úziprg   Úconv_kernelÚconv_stride)r[   rŠ   r’   rz   r‘   s        r*   Ú _get_feat_extract_output_lengthsz9UniSpeechPreTrainedModel._get_feat_extract_output_lengths¶   sQ   € ò
	\ô
 $' t§{¡{×'>Ñ'>ÀÇÁ×@WÑ@WÓ#Xò 	QÑˆK˜Ù,¨]¸KÈÓP‰Mð	Qð Ðr)   Úfeature_vector_lengthÚattention_maskc                 óø  — |j                  d¬«      d d …df   }| j                  |«      j                  t        j                  «      }|j
                  d   }t        j                  ||f|j                  |j                  ¬«      }d|t        j                  |j
                  d   |j                  ¬«      |dz
  f<   |j                  dg«      j                  d«      j                  dg«      j                  «       }|S )Nr<   r:   r   )ÚdtypeÚdevicer   )r›   )Úcumsumr–   Útor$   ÚlongrI   Úzerosrš   r›   ÚarangeÚflipÚbool)r[   r—   r˜   Únon_padded_lengthsÚoutput_lengthsr\   s         r*   Ú"_get_feature_vector_attention_maskz;UniSpeechPreTrainedModel._get_feature_vector_attention_maskÅ   së   € ð ,×2Ñ2°rÐ2Ó:º1¸b¸5ÑAÐØ×>Ñ>Ð?QÓR×UÑUÔV[×V`ÑV`ÓaˆØ#×)Ñ)¨!Ñ,ˆ
äŸ™ØÐ.Ð/°~×7KÑ7KÐTb×TiÑTiô
ˆð uvˆœŸ™ ^×%9Ñ%9¸!Ñ%<À^×EZÑEZÔ[Ð]kÐnoÑ]oÐpÑqØ'×,Ñ,¨b¨TÓ2×9Ñ9¸"Ó=×BÑBÀBÀ4ÓH×MÑMÓOˆØÐr)   N)r    r!   r"   r   r&   Úbase_model_prefixÚmain_input_nameÚinput_modalitiesÚsupports_gradient_checkpointingÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnr$   Úno_gradr‰   Ú
LongTensorÚintr–   r¥   r(   r)   r*   rf   rf   ‰   s}   … àÓØ#ÐØ$€OØÐØ&*Ð#ØÐØ€NØÐà€U‡]]ƒ_ñ6ó ð6ðB¸e×>NÑ>NÐQTÑ>Tó ðÈð Ð]b×]mÑ]mô r)   rf   c                   ó´   — e Zd Zdefd„Zd„ Z	 	 	 	 	 ddej                  dz  dej                  dz  dej                  dz  de	dz  d	e	dz  d
e	dz  de
ez  fd„Zy)ÚUniSpeechModelrg   c                 ó¾  — t         j                  | |«       || _        t        |«      | _        t        |«      | _        |j                  dkD  s|j                  dkD  rEt        j                  t        j                  |j                  «      j                  «       «      | _        |j                   rt#        |«      | _        nt'        |«      | _        | j)                  «        y )Nrl   )rf   Ú__init__rg   r0   Úfeature_extractorr2   Úfeature_projectionÚmask_time_probÚmask_feature_probrN   Ú	Parameterr$   ÚTensorr^   rv   Úmasked_spec_embedÚdo_stable_layer_normr6   Úencoderr4   Ú	post_init)r[   rg   s     r*   r³   zUniSpeechModel.__init__Ù   s¤   € Ü ×)Ñ)¨$°Ô7ØˆŒÜ!8¸Ó!@ˆÔÜ"<¸VÓ"DˆÔà× Ñ  3Ò&¨&×*BÑ*BÀSÒ*HÜ%'§\¡\´%·,±,¸v×?QÑ?QÓ2R×2[Ñ2[Ó2]Ó%^ˆDÔ"à×&Ò&Ü:¸6ÓBˆDLä+¨FÓ3ˆDŒLð 	‰Õr)   c                 ó   — t        d«      ‚)NzNot needed for UniSpeech)ÚAttributeError©r[   s    r*   Úfreeze_feature_encoderz%UniSpeechModel.freeze_feature_encoderê   s   € ÜÐ7Ó8Ð8r)   Nri   r˜   Úmask_time_indicesÚoutput_attentionsÚoutput_hidden_statesÚreturn_dictÚreturnc                 ó
  — ||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }| j	                  |«      }|j                  dd«      }|| j                  |j                  d   |«      }| j                  |«      \  }	}| j                  |	||¬«      }	| j                  |	||||¬«      }
|
d   }	|s
|	|f|
dd z   S t        |	||
j                  |
j                  ¬«      S )a/  
        mask_time_indices (`torch.BoolTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Indices to mask extracted features for contrastive loss. When in training mode, model learns to predict
            masked extracted features in *config.proj_codevector_dim* space.
        Nr   r   )rÂ   r˜   ©r˜   rÃ   rÄ   rÅ   r   )Úlast_hidden_stateÚextract_featuresr   r   )rg   rÃ   rÄ   Úuse_return_dictr´   Ú	transposer¥   rI   rµ   Ú_mask_hidden_statesr¼   ÚUniSpeechBaseModelOutputr   r   )r[   ri   r˜   rÂ   rÃ   rÄ   rÅ   ÚkwargsrÊ   r   Úencoder_outputss              r*   rc   zUniSpeechModel.forwardí   s@  € ð 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà×1Ñ1°,Ó?ÐØ+×5Ñ5°a¸Ó;ÐàÐ%à!×DÑDÐEU×E[ÑE[Ð\]ÑE^Ð`nÓoˆNà*.×*AÑ*AÐBRÓ*SÑ'ˆÐ'Ø×0Ñ0ØÐ->È~ð 1ó 
ˆð Ÿ,™,ØØ)Ø/Ø!5Ø#ð 'ó 
ˆð (¨Ñ*ˆáØ!Ð#3Ð4°ÀqÀrÐ7JÑJÐJä'Ø+Ø-Ø)×7Ñ7Ø&×1Ñ1ô	
ð 	
r)   )NNNNN)r    r!   r"   r   r³   rÁ   r$   r¹   r%   r¢   r'   rÎ   rc   r(   r)   r*   r±   r±   Ø   sœ   „ ð˜ó ò"9ð /3Ø6:Ø)-Ø,0Ø#'ñ3
à—l‘l TÑ)ð3
ð Ÿ™ tÑ+ð3
ð !×,Ñ,¨tÑ3ð	3
ð
   $™;ð3
ð # T™kð3
ð ˜D‘[ð3
ð 
Ð)Ñ	)ô3
r)   r±   zZ
    UniSpeech Model with a vector-quantization module and ctc loss for pre-training.
    c                   ó  ‡ — e Zd Zdefˆ fd„Zdefd„Zd„ Ze	 dde	j                  de	j                  de	j                  defd	„«       Ze	 	 	 	 dde	j                  d
z  de	j                  d
z  ded
z  ded
z  ded
z  deez  fd„«       Zˆ xZS )ÚUniSpeechForPreTrainingrg   c                 ó.  •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  «      | _        t        |«      | _	        t	        j                  |j                  |j                  «      | _        t	        j                  |j                  |j                  «      | _        t	        j                  |j                  |j                   «      | _        t	        j
                  |j$                  «      | _        | j)                  «        y )N)Úsuperr³   r±   rh   rN   ÚDropoutÚfeat_quantizer_dropoutÚdropout_featuresr8   Ú	quantizerr   Úcodevector_dimÚproj_codevector_dimÚ	project_qr^   Úproject_hidÚnum_ctc_classesÚctc_projÚfinal_dropoutÚdropoutr½   )r[   rg   Ú	__class__s     €r*   r³   z UniSpeechForPreTraining.__init__)  s¼   ø€ Ü‰Ñ˜Ô Ü'¨Ó/ˆŒÜ "§
¡
¨6×+HÑ+HÓ IˆÔä7¸Ó?ˆŒÜŸ™ 6×#8Ñ#8¸&×:TÑ:TÓUˆŒÜŸ9™9 V×%?Ñ%?À×ASÑASÓTˆÔäŸ	™	 &×"4Ñ"4°f×6LÑ6LÓMˆŒÜ—z‘z &×"6Ñ"6Ó7ˆŒð 	‰Õr)   rR   c                 ó&   — || j                   _        y)zb
        Set the Gumbel softmax temperature to a given value. Only necessary for training
        N)rØ   rR   )r[   rR   s     r*   Úset_gumbel_temperaturez.UniSpeechForPreTraining.set_gumbel_temperature8  s   € ð &1ˆ‰Õ"r)   c                 óL   — | j                   j                  j                  «        y)z¨
        Calling this function will disable the gradient computation for the feature encoder so that its parameter will
        not be updated during training.
        N)rh   r´   Ú_freeze_parametersrÀ   s    r*   rÁ   z.UniSpeechForPreTraining.freeze_feature_encoder>  s   € ð
 	‰×(Ñ(×;Ñ;Õ=r)   Útarget_featuresÚnegative_featuresÚpredicted_featuresc                 óÌ   — t        j                  | |gd¬«      } t        j                  |j                  «       | j                  «       d¬«      }|j	                  | «      }||z  }|S )zé
        Compute logits for contrastive loss based using cosine similarity as the distance measure between
        `[positive_feature, negative_features]` and `[predicted_features]`. Additionally, temperature can be applied.
        r   r:   r<   )r$   ÚcatÚcosine_similarityrQ   rS   )ræ   rç   rè   rR   Úlogitss        r*   Úcompute_contrastive_logitsz2UniSpeechForPreTraining.compute_contrastive_logitsE  sa   € ô  Ÿ)™) _Ð6GÐ$HÈaÔPˆä×(Ñ(Ð);×)AÑ)AÓ)CÀ_×EZÑEZÓE\ÐbdÔeˆØ—‘ Ó0ˆð ˜+Ñ%ˆØˆr)   Nri   r˜   rÃ   rÄ   rÅ   rÆ   c                 óþ  — ||n| j                   j                  }| j                  |||||¬«      }|d   }| j                  |d   «      }	| j	                  |	«      \  }
}| j                  |
j                  | j
                  j                  j                  «      «      }
| j                  |
«      }
t        j                  |j                  d«      |j                  d«      «      j                  | j                   j                  «      }|j                  dd«      }t        j                   |«      j#                  «       j                  |j$                  «      }|j                  dd«      }|j'                  d«      }|j)                  |d«      |
j)                  | d«      z   }| j+                  |«      }| j-                  |«      }d}|s||||
|f|dd z   S ||
|f|dd z   S t/        |||
||j0                  |j2                  ¬«      S )	a›  
        Example:

        ```python
        >>> import torch
        >>> from transformers import AutoFeatureExtractor, UniSpeechForPreTraining

        >>> feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/unispeech-large-1500h-cv")
        >>> model = UniSpeechForPreTraining.from_pretrained("microsoft/unispeech-large-1500h-cv")
        >>> # TODO: Add full pretraining example
        ```NrÈ   r   r   r<   rl   r   )r   r   r   r   r   r   )rg   rË   rh   r×   rØ   rÛ   r   rs   rš   rÜ   r$   ÚemptyÚsizeÚfill_Úreplace_probrÌ   Ú	bernoullir¢   r›   rX   Úmasked_fillrà   rÞ   r   r   r   )r[   ri   r˜   rÃ   rÄ   rÅ   rÏ   ÚoutputsÚtransformer_featuresrÊ   Úquantized_featuresr   Úprob_replace_matrixÚsampled_replace_matrixrì   r   s                   r*   rc   zUniSpeechForPreTraining.forwardY  s  € ð, &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà—.‘.ØØ)Ø/Ø!5Ø#ð !ó 
ˆð  ' q™zÐð  ×0Ñ0°¸±Ó<ÐØ48·N±NÐCSÓ4TÑ1ÐÐ1ð "Ÿ^™^Ð,>×,AÑ,AÀ$Ç.Á.×BWÑBW×B]ÑB]Ó,^Ó_ÐØ!×-Ñ-Ð.@ÓAÐä#Ÿk™kÐ*>×*CÑ*CÀAÓ*FÐH\×HaÑHaÐbcÓHdÓe×kÑkØK‰K×$Ñ$ó
Ðð 2×;Ñ;¸A¸qÓAÐÜ!&§¡Ð1DÓ!E×!JÑ!JÓ!L×!OÑ!OÐPd×PkÑPkÓ!lÐØ!7×!AÑ!AÀ!ÀQÓ!GÐØ!7×!AÑ!AÀ"Ó!EÐØ%×1Ñ1Ð2HÈ#ÓNØ×*Ñ*Ð,BÐ+BÀCÓHñ
ˆð
 —‘˜fÓ%ˆØ—‘˜vÓ&ˆð ˆÙØÐØÐ2Ð4FÐH]Ð^ÐahÐijÐikÐalÑlÐlØ(Ð*<Ð>SÐTÐW^Ð_`Ð_aÐWbÑbÐbä,ØØ1Ø'9Ø"7Ø!×/Ñ/Ø×)Ñ)ô
ð 	
r)   )r   )NNNN)r    r!   r"   r   r³   r¯   rã   rÁ   rd   r$   r%   rí   r	   r¹   r¢   r'   r   rc   Ú__classcell__)rá   s   @r*   rÒ   rÒ   #  s÷   ø„ ð˜õ ð1°#ó 1ò>ð ð
 ñ	Ø×*Ñ*ðà ×,Ñ,ðð "×-Ñ-ðð ò	ó ðð& ð /3Ø)-Ø,0Ø#'ñE
à—l‘l TÑ)ðE
ð Ÿ™ tÑ+ðE
ð   $™;ð	E
ð
 # T™kðE
ð ˜D‘[ðE
ð 
Ð.Ñ	.òE
ó ôE
r)   rÒ   c                   ó   — e Zd Zy)ÚUniSpeechForCTCNr-   r(   r)   r*   rü   rü   ¢  r.   r)   rü   c                   ó   — e Zd Zy)Ú"UniSpeechForSequenceClassificationNr-   r(   r)   r*   rþ   rþ   ¦  r.   r)   rþ   )rü   rÒ   rþ   r±   rf   )/r#   rx   Údataclassesr   r$   Útorch.nnrN   Ú r   rq   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr	   r
   Úwav2vec2.modeling_wav2vec2r   r   r   r   r   r   r   r   r   Úconfiguration_unispeechr   Ú
get_loggerr    Úloggerr   r,   r0   r2   r4   r6   r8   rf   rÎ   r±   rÒ   rü   rþ   Ú__all__r(   r)   r*   ú<module>r
     sH  ðñ ã Ý !ã Ý å &ß DÝ -ß ,÷
÷ 
õ 
õ 5ð 
ˆ×	Ñ	˜HÓ	%€ð Ùðôô
7 Kó 7óó ð7ô.	Ð'Fô 	ô	Ð4ô 	ô	Ð!:ô 	ô	ô 	ô	Ð&Dô 	ô*'Ð%Bô *'ðZ ôH˜ó Hó ðHðV 3Ð ôH
Ð-¨}ô H
ñV ðôô
w
Ð6ó w
óð
w
ôt	nô 	ô	Ð)Jô 	òr)   