{"id":1238,"date":"2023-03-06T04:21:41","date_gmt":"2023-03-06T02:21:41","guid":{"rendered":"http:\/\/daimon.me\/aleph\/?p=1238"},"modified":"2023-03-06T04:21:41","modified_gmt":"2023-03-06T02:21:41","slug":"amuzamente-cu-liste-de-cuvinte","status":"publish","type":"post","link":"https:\/\/daimon.me\/aleph\/2023\/amuzamente-cu-liste-de-cuvinte\/","title":{"rendered":"Amuzamente cu liste de cuvinte"},"content":{"rendered":"<p>M-a pocnit o curiozitate: cum am face s\u0103 evalu\u0103m complexitatea unui text \u00een limba rom\u00e2n\u0103<sup><a href=\"#footnote_1_1238\" id=\"identifier_1_1238\" class=\"footnote-link footnote-identifier-link\" title=\"De fapt curiozitatea asta e de import, &icirc;ntrebarea s-a pus acum vreo 11 ani prima dat\u0103, pe direc\u021bia unui test a la Flesch-Kincaid.\">[1]<\/a><\/sup>?<\/p>\n<p>Un r\u0103spuns pedestru ne poate veni chiar pe loc, dac\u0103 ne g\u00eendim la listele de frecven\u021b\u0103 pentru limba rom\u00e2n\u0103. S\u0103 explic &#8212; listele de frecven\u021b\u0103 sunt ni\u0219te tabele care ordon\u0103 cuvintele limbii bazat pe criteriul \u201ec\u00eet de des sunt folosite\u201d. Treaba asta, cel pu\u021bin la nivel teoretic, este u\u0219or de f\u0103cut, dac\u0103 ai o surs\u0103 de materiale rom\u00e2ne\u0219ti \u00een format digital<sup><a href=\"#footnote_2_1238\" id=\"identifier_2_1238\" class=\"footnote-link footnote-identifier-link\" title=\"De fapt problema este mai complex\u0103, dar s\u0103 nu ne &icirc;mpiedic\u0103m &icirc;n am\u0103nunte. Ca o prim\u0103 serie de obiec\u021bii la ideea c-ar fi simplu: trebuie verificat s\u0103 fie puse diacriticele corect, sau rezolvate ambiguit\u0103\u021bile. Trebuie notate corect flexion\u0103rile, ca s\u0103 nu numeri de 3 ori b\u0103iat\/b\u0103iatul\/b\u0103iatului. Trebuie verificate diversele cratime \u0219i alte posibile gre\u0219eli de redactare din textul primar.\">[2]<\/a><\/sup>.<\/p>\n<p>Spre norocul meu, un domn de treab\u0103 (Hermit Dave) a avut ideea de a prelucrate datele din subtritr\u0103rile disponibile pe saitul OpenSubtitles, iar rom\u00e2na este \u0219i ea acolo. Lista <a href=\"https:\/\/github.com\/hermitdave\/FrequencyWords\/blob\/master\/content\/2018\/ro\/ro_50k.txt\">este disponibil\u0103 pe GitHub<\/a>. Despre posibilele obiec\u021bii vom discuta alt\u0103 dat\u0103<sup><a href=\"#footnote_3_1238\" id=\"identifier_3_1238\" class=\"footnote-link footnote-identifier-link\" title=\"Da, evident, exist\u0103 \u0219i obiec\u021bii. Spre exemplu, s-ar putea face observa\u021bia c\u0103 textul primar, subtitr\u0103rile, nu reflect\u0103 limba rom&acirc;n\u0103 popular\u0103, medie, de pe strad\u0103. &Icirc;n primul r&icirc;nd, titr\u0103rile sunt ni\u0219te traduceri dup\u0103 un text original &icirc;n englez\u0103, ceea ce deja polueaz\u0103 statistica &icirc;ntr-un mod greu de estimat. &Icirc;n al doilea r&icirc;nd, titr\u0103rile sunt create de amatori, nici m\u0103car de traduc\u0103tori profesioni\u0219ti, ceea ce iar\u0103\u0219i polueaz\u0103 statistica &icirc;n moduri greu de estimat. Dar hey, e mai bine dec&icirc;t nimic!\">[3]<\/a><\/sup>. Drept urmare, f\u0103r\u0103 prea multe alte discu\u021bii, observa\u021bii \u00een dev\u0103lm\u0103\u0219ie.<\/p>\n<p style=\"text-align: center;\">*<\/p>\n<ul>\n<li>\u201e<span style=\"color: #800000;\">Nu<\/span>\u201d este pe locul 2, \u201e<span style=\"color: #800000;\">Da<\/span>\u201d este pe locul 24. Moment de sociologie f\u0103cut\u0103 pe bordur\u0103: poate c\u0103 asta denot\u0103 cum c\u0103 suntem negativi\u0219ti, ca neam. Sau poate denot\u0103 c\u0103 tindem s\u0103 ne exprim\u0103m tacit acordul, \u00eens\u0103 dezacordul trebuie ar\u0103tat l\u0103murit. Sau poate nu \u00eenseamn\u0103 nimic anume<sup><a href=\"#footnote_4_1238\" id=\"identifier_4_1238\" class=\"footnote-link footnote-identifier-link\" title=\"Este oare ironic c\u0103 am folosit un &bdquo;nu&rdquo; la r&icirc;ndul meu?\">[4]<\/a><\/sup>.<\/li>\n<li>Primul verb din top: \u201e<span style=\"color: #800000;\">este<\/span>\u201d (urmat de flexiunea sa, \u201e<span style=\"color: #800000;\">sunt<\/span>\u201d). Zero surprize la faza asta. O mic\u0103 surpriz\u0103 c\u0103 \u201e<span style=\"color: #800000;\">pot<\/span>\u201d vine deasupra lui \u201e<span style=\"color: #800000;\">face<\/span>\u201d. Putin\u021ba este foarte important\u0103.<\/li>\n<li>Primul substantiv din top &#8230; este greu de spus care ar fi. Pe locul 24 avem \u201e<span style=\"color: #800000;\">bine<\/span>\u201d, doar c\u0103 .. putem face o ghiceal\u0103 informat\u0103 cum c\u0103 d\u00eensul de fapt joac\u0103 rol de adverb c\u00eend apare. Aceea\u0219i problem\u0103 cu \u201e<span style=\"color: #800000;\">tot<\/span>\u201d, \u00eel putem suspecta c\u0103 joac\u0103 rol de adjectiv sau adverb pe unde apare. Abia pe locul 95 avem \u201e<span style=\"color: #800000;\">nevoie<\/span>\u201d, iar d\u00eensa este un substantiv curat. A\u0219a este, nevoi avem.<\/li>\n<li>Culoarea men\u021bionat\u0103 cel mai frecvent pare a fi \u201e<span style=\"color: #800000;\">negru<\/span>\u201d, pe 1166, urmat\u0103 de \u201e<span style=\"color: #800000;\">alb<\/span>\u201d pe 1335.<\/li>\n<li><span style=\"color: #800000;\">Corpul<\/span> \u0219i <span style=\"color: #800000;\">trupul<\/span> apar mai sus \u00een top dec\u00eet <span style=\"color: #800000;\">sufletul<\/span>, dar toate sunt \u00eentre primele 2000. Deci nu facem mare haz pe tem\u0103.<\/li>\n<li>Pe locurile 1-100 sunt o groaz\u0103, o gr\u0103mad\u0103, o puzderie de pronume, conjunc\u021bii, prepozi\u021bii, adverbe &#8230; pe scurt, cuvintele pe care le-am considera c\u0103-s cam de leg\u0103tur\u0103. Dar iat\u0103 c\u0103 fix ele sunt folosite amplu pentru a regla sensul fin al frazelor.<\/li>\n<li><span style=\"color: #800000;\">Pula<\/span> este abia pe 5644 (iar varianta cu diacritice, <span style=\"color: #800000;\">pul\u0103<\/span>, este neglijabil de jos). <span style=\"color: #800000;\">Pizda<\/span> este mult mai jos, pe 20000, neglijabil\u0103. Aici se observ\u0103, zic eu, neajunsurile de a folosi text bazat pe subtitr\u0103ri. Poate-s traduc\u0103torii pudici. Poate e de vin\u0103 materialul-surs\u0103. Cine \u0219tie?<\/li>\n<li>Nici \u201e<span style=\"color: #800000;\">fut<\/span>\u201d nu se simte prea bine, st\u00eend pe locul 8126. Variantele lui (futut, futu-i, fute etc) sunt \u0219i mai \u00eendep\u0103rtate. Ne \u00eenc\u0103lze\u0219te cu ceva c\u0103 \u201e<span style=\"color: #800000;\">sex<\/span>\u201dul este pe 743? O fi \u00eensemn\u00eend c\u0103 devenim mai rafina\u021bi \u00een exprimare, sau pudibonzi, sau ceva?<\/li>\n<li><span style=\"color: #800000;\">Mama<\/span> e pe 159, <span style=\"color: #800000;\">tata<\/span> pe 259 (tat\u0103l, flexionat, dar hai s\u0103 fim \u00eeng\u0103duitori). Just.<\/li>\n<li>Dar dac\u0103 am dori s\u0103 studiem lungimea medie a cuvintelor? O statistic\u0103 pe genunchi arat\u0103 cam a\u0219a: cuvintele de pe pozi\u021biile 1-500 se p\u0103streaz\u0103 \u00een medie sub 5 litere per cuv\u00eent, apoi media cre\u0219te u\u0219or. \u00cens\u0103 din cauza flexion\u0103rilor \u0219i a altor factori, media NU cre\u0219te complet liniar, ci are mici sui\u0219uri \u0219i cobor\u00ee\u0219uri. Totu\u0219i, putem observa c\u0103 p\u00een\u0103 la terminarea primelor 10000 de cuvinte, media nu cre\u0219te peste 7 litere\/cuv\u00eent. Cum era teoria, c\u0103 dac\u0103 \u0219tii 10k de cuvinte, e\u0219ti vorbitor de-\u0103la avansat? Poftim, nici nu-i a\u0219a de dificil.<\/li>\n<li>Sort\u00eend cuvintele dup\u0103 lungime, rezult\u0103 c\u0103 cel mai lung cuv\u00eent este &#8230; <del>camy-subtitrari-noi<\/del>. Trec\u00eend peste glume, \u00eent\u00eelnim \u201e<span style=\"color: #800000;\">paleoastronauticii<\/span>\u201d, pe aceea\u0219i treapt\u0103 de lungime cu \u201e<span style=\"color: #800000;\">supravie\u021buitorilor<\/span>\u201d.\u00a0 Dar oare dac\u0103 am c\u0103uta cel mai lung cuv\u00eent care NU este compus din alte cuvinte mai scurte, ci este doar o alungire a unei r\u0103d\u0103cini? Avem \u201e<span style=\"color: #800000;\">vulnerabilitatea<\/span>\u201d al\u0103turi de \u201e<span style=\"color: #800000;\">responsabilit\u0103\u021bi<\/span>\u201d, iar dac\u0103 ne g\u00eendim c\u0103 prima a primit o liter\u0103 prin flexionare&#8230; responsabilitatea c\u00ee\u0219tig\u0103.<\/li>\n<li>Dar dac\u0103 am vrea s\u0103 g\u0103sim cele mai greu de pronun\u021bat cuvinte? Am putea, spre exemplu, s\u0103 c\u0103ut\u0103m cuvintele cu cele mai multe consoane. Trec\u00eend din nou peste glumi\u021be gen <del>filmeserialeonline.org (12 consoane)<\/del> &#8230; <span style=\"color: #800000;\">rumplestiltskin<\/span> are 11, <span style=\"color: #800000;\">schwarzenegger<\/span> are 10.\u00a0 Hai s\u0103 zicem c\u0103 ambele sunt nume proprii, nu se pun. Drept urmare, c\u00ee\u0219tig\u0103torul este cel mai lung cuv\u00eent ne-flexionat, \u201e<span style=\"color: #800000;\">condescendent<\/span>\u201d (!) <sup><a href=\"#footnote_5_1238\" id=\"identifier_5_1238\" class=\"footnote-link footnote-identifier-link\" title=\"Ocazie cu care aflu c\u0103 de fapt nu se scrie &bdquo;condescent&rdquo;. Futu-i.\">[5]<\/a><\/sup>.<\/li>\n<\/ul>\n<p style=\"text-align: center;\">*<\/p>\n<p>Se pare c\u0103 m-am \u00eendep\u0103rtat de ideea ini\u021bial\u0103, \u0219i anume aceea de a analiza lista pe baza frecven\u021bei. Dar \u0103sta-i avantajul, lista nu pleac\u0103 niciunde, poate voi reveni c\u00eendva la ea.<\/p>\n<p>Cititorilor le r\u0103m\u00eene tem\u0103 de cas\u0103 s\u0103 se g\u00eendeasc\u0103 ce alte statistici sau observa\u021bii de interes s-ar putea face pe acest calup de date \ud83d\ude42<\/p>\n----------<ol class=\"footnotes\"><li id=\"footnote_1_1238\" class=\"footnote\">De fapt curiozitatea asta e de import, \u00eentrebarea s-a pus acum vreo 11 ani prima dat\u0103, pe direc\u021bia unui test <a href=\"http:\/\/trilema.com\/2010\/flesch-kincaid\/\">a la Flesch-Kincaid.<\/a><span class=\"footnote-back-link-wrapper\">[<a href=\"#identifier_1_1238\" class=\"footnote-link footnote-back-link\">\u21a9<\/a>]<\/span><\/li><li id=\"footnote_2_1238\" class=\"footnote\">De fapt problema este mai complex\u0103, dar s\u0103 nu ne \u00eempiedic\u0103m \u00een am\u0103nunte. Ca o prim\u0103 serie de obiec\u021bii la ideea c-ar fi simplu: trebuie verificat s\u0103 fie puse diacriticele corect, sau rezolvate ambiguit\u0103\u021bile. Trebuie notate corect flexion\u0103rile, ca s\u0103 nu numeri de 3 ori b\u0103iat\/b\u0103iatul\/b\u0103iatului. Trebuie verificate diversele cratime \u0219i alte posibile gre\u0219eli de redactare din textul primar.<span class=\"footnote-back-link-wrapper\">[<a href=\"#identifier_2_1238\" class=\"footnote-link footnote-back-link\">\u21a9<\/a>]<\/span><\/li><li id=\"footnote_3_1238\" class=\"footnote\">Da, evident, exist\u0103 \u0219i obiec\u021bii. Spre exemplu, s-ar putea face observa\u021bia c\u0103 textul primar, subtitr\u0103rile, nu reflect\u0103 limba rom\u00e2n\u0103 popular\u0103, medie, de pe strad\u0103. \u00cen primul r\u00eend, titr\u0103rile sunt ni\u0219te traduceri dup\u0103 un text original \u00een englez\u0103, ceea ce deja polueaz\u0103 statistica \u00eentr-un mod greu de estimat. \u00cen al doilea r\u00eend, titr\u0103rile sunt create de amatori, nici m\u0103car de traduc\u0103tori profesioni\u0219ti, ceea ce iar\u0103\u0219i polueaz\u0103 statistica \u00een moduri greu de estimat. Dar hey, e mai bine dec\u00eet nimic!<span class=\"footnote-back-link-wrapper\">[<a href=\"#identifier_3_1238\" class=\"footnote-link footnote-back-link\">\u21a9<\/a>]<\/span><\/li><li id=\"footnote_4_1238\" class=\"footnote\">Este oare ironic c\u0103 am folosit un \u201enu\u201d la r\u00eendul meu?<span class=\"footnote-back-link-wrapper\">[<a href=\"#identifier_4_1238\" class=\"footnote-link footnote-back-link\">\u21a9<\/a>]<\/span><\/li><li id=\"footnote_5_1238\" class=\"footnote\">Ocazie cu care aflu c\u0103 de fapt nu se scrie \u201econdescent\u201d. Futu-i.<span class=\"footnote-back-link-wrapper\">[<a href=\"#identifier_5_1238\" class=\"footnote-link footnote-back-link\">\u21a9<\/a>]<\/span><\/li><\/ol>----------","protected":false},"excerpt":{"rendered":"<p>M-a pocnit o curiozitate: cum am face s\u0103 evalu\u0103m complexitatea unui text \u00een limba rom\u00e2n\u0103[1]? Un r\u0103spuns pedestru ne poate veni chiar pe loc, dac\u0103 ne g\u00eendim la listele de frecven\u021b\u0103 pentru limba rom\u00e2n\u0103. S\u0103 <a class=\"more-link\" href=\"https:\/\/daimon.me\/aleph\/2023\/amuzamente-cu-liste-de-cuvinte\/\">&#8230; (continuare > >)<\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8],"tags":[],"class_list":["post-1238","post","type-post","status-publish","format-standard","hentry","category-redescoperind-lumea"],"_links":{"self":[{"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/posts\/1238","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/comments?post=1238"}],"version-history":[{"count":5,"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/posts\/1238\/revisions"}],"predecessor-version":[{"id":1243,"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/posts\/1238\/revisions\/1243"}],"wp:attachment":[{"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/media?parent=1238"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/categories?post=1238"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/daimon.me\/aleph\/wp-json\/wp\/v2\/tags?post=1238"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}