§ %$}g½ãó²—dZddlZddlmZmZddlmZmZmZddl m Z ddlmZddl mZmZdd lmZd e de fd„Zd edeeeeffd„Zddededefd„ZdS)z< Module regrouping baseline and basic extraction functions. éN)ÚAnyÚTuple)Ú_ElementÚElementÚ SubElement)ÚHtmlElementé)ÚBASIC_CLEAN_XPATH)Ú load_htmlÚtrim)Údelete_elementÚtreeÚreturncóH—t|¦«D]}t|¦«Œ|S)z-Remove a few section types from the document.)r r )rÚelems úT/var/www/py-google-trends/myenv/lib/python3.11/site-packages/trafilatura/baseline.pyÚbasic_cleaningrs/€å! $Ñ'Ô'ððˆÝtÑÔÐÐØ€KóÚfilecontentcóz—t|¦«}td¦«}|€|ddfSd}| d¦«D]¾}|jrµd|jvr¬ t j|j¦« dd¦«}n#t$rd}YnwxYw|rid|vr5t|¦«}|!t| ¦«¦«nd}nt|¦«}|t|d¦«_||rd |zn|z }Œ¿t|¦«d kr||t|¦«fSt|¦«}d}| d¦«D]W}t| ¦«¦«}t|¦«d kr!|t|d¦«_||rd |zn|z }ŒXt|¦«dkr||t|¦«fSt¦«} d}| dd dddd¦«D]]} t| ¦«¦«}|| vr6|t|d¦«_||rd |zn|z }| |¦«Œ^t|¦«d kr||t|¦«fStd¦«}| d¦«}|nt|d¦«} d„| ¦«D¦«}d d„|D¦«¦«| _|| jt| j¦«fSt'|d¬¦«}|t|d¦«_||t|¦«fS)a)Use baseline extraction function targeting text paragraphs and/or JSON metadata. Args: filecontent: HTML code as binary string or string. Returns: A LXML element containing the extracted paragraphs, the main text as string, and its length as integer. ÚbodyNÚrz&.//script[@type="application/ld+json"]ÚarticleBodyz

Úpú édz .//articleÚ blockquoteÚcodeÚpreÚqÚquoteú.//bodycó,—g|]}t|¦«‘ŒS©)r©Ú.0Úes rú zbaseline..^s€Ð<Ð<Ð< !•d˜1‘g”gÐ<Ð<Ð._s€Ð <Ð <Ð < q¸!Ð < Ð <Ð <Ð ˜S 4™Z˜Z¸$Ñ> øå ˆ9~„~˜ÒÐØ˜¥C¨ ¡N¤NÐ2Ð2å˜$ÑÔ€Dð€IØŸ š lÑ3Ô3ð;ð;ˆÝL×-Ò-Ñ/Ô/Ñ0Ô0ˆÝˆt‰9Œ9sŠ?ˆ?Ø-1Jx Ñ%Ô%Ô*Ø yÐ:˜˜t™˜°dÑ:ˆIøÝ ˆ8}„}qÒÐà˜¥C¨ ¡N¤NÐ2Ð2õ‰eŒe€GØ€Ià—9’9˜\¨6°3¸¸sÀGÑLÔLððˆÝW×)Ò)Ñ+Ô+Ñ,Ô,ˆØ˜ÐÐØ-2Jx Ñ%Ô%Ô*Ø¨ Ð<˜˜u™˜°uÑ<ˆIØKŠK˜ÑÔÐøå ˆ9~„~˜ÒÐØ˜¥C¨ ¡N¤NÐ2Ð2õv‰Œ€HØ— ’ ˜)Ñ$Ô$€IØÐÝ˜H cÑ*Ô*ˆà<Ð< y×'9Ò'9Ñ';Ô';Ð<Ñ<Ô<ˆ Ø—i’iÐ <Ð <¨JÐ <Ñ <Ô <Ñ=Ô=ˆŒØ˜œ¥c¨&¬+Ñ&6Ô&6Ð6Ð6õD Ð&Ñ&Ô&€DØ%)…Jˆx˜ÑÔÔ"ØT3˜t™9œ9Ð$Ð$sÁ-A>Á>B ÂB TÚcontentr+có—t|¦«}|€dS| d¦«}|€dS|rt|¦«}d | ¦« ¦«¦« ¦«S)zùRun basic html2txt on a document. Args: content: HTML document as string or LXML element. clean: remove potentially undesirable elements. Returns: The extracted text in the form of a string or an empty string. Nrr"r)rr7rr9r2ÚsplitÚstrip)rGr+rrs rr:r:hs€õWÑÔ€DØ€|ØˆrØ9Š9YÑÔ€DØ€|ØˆrØð$Ý˜dÑ#Ô#ˆØ8Š8D×%Ò%Ñ'Ô'×-Ò-Ñ/Ô/Ñ0Ô0×6Ò6Ñ8Ô8Ð8r)T)Ú__doc__r.ÚtypingrrÚ lxml.etreerrrÚ lxml.htmlrÚsettingsr ÚutilsrrÚxmlr rÚstrÚintrFÚboolr:r$rrúrUs-ðððð €€€àÐÐÐÐÐÐÐà4Ð4Ð4Ð4Ð4Ð4Ð4Ð4Ð4Ð4Ø!Ð!Ð!Ð!Ð!Ð!à'Ð'Ð'Ð'Ð'Ð'Ø"Ð"Ð"Ð"Ð"Ð"Ð"Ð"ØÐÐÐÐÐð˜ð¨ðððððL%˜#ðL% %¨°#°sÐ(:Ô";ðL%ðL%ðL%ðL%ð^9ð9cð9 $ð9°#ð9ð9ð9ð9ð9ð9r