Ë
    «q±i,  ã                   ó  — U d Z ddlmZmZ ddlmZ  ej                  e«      ZdZ	dZ
dZdZdZd	Zd
Zedededede
dediZeeef   ed<   ej+                  «       D  ci c]  \  } }|| “Œ
 c}} Zeeef   ed<    G d„ de«      ZdgZyc c}} w )z Tokenization classes for CANINE.é   )Ú
AddedTokenÚPreTrainedTokenizer)Úloggingi   é    i à  ià  ià  ià  ià  z[CLS]z[SEP]z[BOS]z[MASK]z[PAD]z
[RESERVED]ÚSPECIAL_CODEPOINTSÚSPECIAL_CODEPOINTS_BY_NAMEc                   óÜ   ‡ — e Zd ZdZg d¢Z ee«       ee«       ee«       ee«       ee«       ee	«      ddfˆ fd„	Z
edefd„«       Zd„ Zd	edee   fd
„Zdedefd„Zdedefd„Zd„ Zˆ xZS )ÚCanineTokenizeraé  
    Construct a CANINE tokenizer (i.e. a character splitter). It turns text into a sequence of characters, and then
    converts each character into its Unicode code point.

    [`CanineTokenizer`] inherits from [`PreTrainedTokenizer`].

    Refer to superclass [`PreTrainedTokenizer`] for usage examples and documentation concerning parameters.

    Args:
        model_max_length (`int`, *optional*, defaults to 2048):
                The maximum sentence length the model accepts.
    )Ú	input_idsÚattention_maskÚtoken_type_idsFi   c	                 óÜ  •— t        |t        «      rt        |dd¬«      n|}t        |t        «      rt        |dd¬«      n|}t        |t        «      rt        |dd¬«      n|}t        |t        «      rt        |dd¬«      n|}t        |t        «      rt        |dd¬«      n|}t        |t        «      rt        |dd¬«      n|}i | _        t        j                  «       D ]  \  }
}|
| j                  |<   Œ | j                  j                  «       D 
ci c]  \  }}
|
|“Œ
 c}
}| _        t        | _        t        | j                  «      | _
        t        ‰| 0  d||||||||ddddœ|	¤Ž y c c}
}w )NF)ÚlstripÚrstripTÚ	all_zerosÚcls_sep)Ú	bos_tokenÚ	eos_tokenÚ	sep_tokenÚ	cls_tokenÚ	pad_tokenÚ
mask_tokenÚadd_prefix_spaceÚmodel_max_lengthÚtoken_type_ids_patternÚ%token_type_ids_include_special_tokensÚspecial_tokens_pattern© )Ú
isinstanceÚstrr   Ú_special_codepointsr   ÚitemsÚ_special_codepoint_stringsÚUNICODE_VOCAB_SIZEÚ_unicode_vocab_sizeÚlenÚ_num_special_tokensÚsuperÚ__init__)Úselfr   r   r   r   r   r   r   r   ÚkwargsÚ	codepointÚnameÚ	__class__s               €ú`/opt/pipecat/venv/lib/python3.12/site-packages/transformers/models/canine/tokenization_canine.pyr)   zCanineTokenizer.__init__G   sy  ø€ ô JTÐT]Ô_bÔIc”J˜y°¸uÕEÐirˆ	ÜISÐT]Ô_bÔIc”J˜y°¸uÕEÐirˆ	ÜISÐT]Ô_bÔIc”J˜y°¸uÕEÐirˆ	ÜISÐT]Ô_bÔIc”J˜y°¸uÕEÐirˆ	ÜISÐT]Ô_bÔIc”J˜y°¸uÕEÐirˆ	ô KUÐU_ÔadÔJe”Z 
°4ÀÕFÐkuˆ
ð 46ˆÔ Ü1×7Ñ7Ó9ò 	7‰OˆItØ-6ˆD×$Ñ$ TÒ*ð	7ð
 48×3KÑ3K×3QÑ3QÓ3S÷;
Ù /  iˆIt‰Oó;
ˆÔ'ô $6ˆÔ Ü#& t×'?Ñ'?Ó#@ˆÔ ä‰Ñð 	
ØØØØØØ!Ø-Ø-Ø#.Ø26Ø#,ñ	
ð ó	
ùó;
s   ÄE(Úreturnc                 ó   — | j                   S ©N)r%   )r*   s    r/   Ú
vocab_sizezCanineTokenizer.vocab_sizex   s   € à×'Ñ'Ð'ó    c                 óž   — t        | j                  «      D ci c]  }t        |«      |“Œ }}|j                  | j                  «       |S c c}w r2   )Úranger3   ÚchrÚupdateÚadded_tokens_encoder)r*   ÚiÚvocabs      r/   Ú	get_vocabzCanineTokenizer.get_vocab|   sB   € Ü$)¨$¯/©/Ó$:Ö;˜q”Q“˜‘Ð;ˆÐ;Ø‰T×.Ñ.Ô/Øˆùò <s   ˜A
Útextc                 ó   — t        |«      S )z5Tokenize a string (i.e. perform character splitting).)Úlist)r*   r=   s     r/   Ú	_tokenizezCanineTokenizer._tokenize   s   € äD‹zÐr4   Útokenc                 óR   — 	 t        |«      S # t        $ r t        d|› d«      ‚w xY w)zaConverts a token (i.e. a Unicode character) in an id (i.e. its integer Unicode code point value).zinvalid token: 'ú')ÚordÚ	TypeErrorÚ
ValueError)r*   rA   s     r/   Ú_convert_token_to_idz$CanineTokenizer._convert_token_to_id…   s5   € ð	:Üu“:ÐøÜò 	:ÜÐ/°¨w°aÐ8Ó9Ð9ð	:ús   ‚
 &Úindexc                 ór   — 	 |t         v r	t         |   S t        |«      S # t        $ r t        d|› «      ‚w xY w)z˜
        Converts a Unicode code point (integer) in a token (str). In case it's a special code point, convert to
        human-readable format.
        zinvalid id: )r   r7   rE   rF   )r*   rH   s     r/   Ú_convert_id_to_tokenz$CanineTokenizer._convert_id_to_tokenŒ   sF   € ð
	5ØÔ*Ñ*Ü)¨%Ñ0Ð0Üu“:ÐøÜò 	5Ü˜|¨E¨7Ð3Ó4Ð4ð	5ús   ‚ “
 ž6c                 ó$   — dj                  |«      S )NÚ )Újoin)r*   Útokenss     r/   Úconvert_tokens_to_stringz(CanineTokenizer.convert_tokens_to_string˜   s   € Øw‰wv‹Ðr4   )Ú__name__Ú
__module__Ú__qualname__Ú__doc__Úmodel_input_namesr7   ÚCLSÚSEPÚPADÚMASKr)   ÚpropertyÚintr3   r<   r    r?   r@   rG   rJ   rO   Ú__classcell__)r.   s   @r/   r
   r
   7   s«   ø„ ñò JÐñ c“(Ùc“(Ùc“(Ùc“(Ùc“(Ùt“9ØØõ/
ðb ð(˜Cò (ó ð(òð
˜cð  d¨3¡ió ð:¨#ð :°#ó :ð
5¨#ð 
5°#ó 
5ör4   r
   N)rS   Útokenization_pythonr   r   Úutilsr   Ú
get_loggerrP   Úloggerr$   rW   rU   rV   ÚBOSrX   ÚRESERVEDr   ÚdictrZ   r    Ú__annotations__r"   r   r
   Ú__all__)r,   r-   s   00r/   ú<module>re      s×   ðò 'ç BÝ ð 
ˆ×	Ñ	˜HÓ	%€ð Ð ð €Ø€Ø€Ø€Ø€Ø€ð ˆØˆØˆØˆ(ØˆØˆlð&Ð D˜˜c˜‘Nó ð  Vh×UmÑUmÓUo×-pÁ/À)ÈT¨d°I©oÓ-pÐ ˜D  c ™NÓ pôbÐ)ô bðJ Ð
ùóQ .qs   ÁB