miércoles, 20 de mayo de 2015

Col sopa nun se xuega (estaya segunda)

   Va dellos díes qu’asoleyé la entrada sobre la distribución de frecuencies de les lletres del sopa (http://cienciaastur.blogspot.com.es/2015/05/col-sopa-nun-se-xuega.html), nun m’espereba yo que diba adicar tan bien el tema, y que diera’n milenta comentarios na muria de facebook, nel mio corréu y en presona, toos sobre si podría tar venceyada la distribución de frecuencies de les lletres  del sopa cola distribución d’usu de les lletres d’una llingüa (la marca de sopa yera española, polo que sedría’l castellanu). Güei vamos tratar d’atalantar si hai o non tala relación.
   Pa tal fin tuve a la gueta de les frecuencies d’usu de delles llingües del nueso arrodiu, coles que facer comparanza cola frecuencia qu’atopé cuntado los fideos de les sopes de lletres, cuntado qu’el pais d’orixen del productu fuese dalguno usaren daqué llingua de les que m’informé. Puedes ver na tabla les diferentes frecuencies, a golpe de vista parezse más l’usu ente toles llingues (a lo cabero toes son derivaes, direuta o indireutamente, de la llingua indoeuropea) que a la distribución de frecuencies de los fideos. 

Distribución de frecuencies de les lletres en distintes llingües y nel sopa de lletres

   Poro, como sabes, en ciencia (y en la vida en xeneral) nun sirven conxetures sobre lo que nos paez a nós, hai que sofitase’n daqué, pa ello, y anque hai preseos más concretos pa ello, y como esto ye un blogue de ciencia amateur, decidí usar uno que ya usemos otra vegada, que da resultaos nos que podemos enfotar y ye bien cenciellu d’usar, el coeficiente de correllación, que ya usara pa comprobar si l’escanciáu del café na mio taza valíanos p’augiar la presión atmostéfico (http://cienciaastur.blogspot.com.es/2015/02/ye-un-barometru-la-mio-taza-de-cafe.html). Daquella’l coeficiente dicía si había venceyamientu ente les dos variables (si una medrada a la par que la otra) y en qué midida; nesta ocasión va dicinos cuánto d’asemeyáu ye una y otra distribución de frecuencia pa caún de los pares de llingües y sopa posibles.
   Pa refrescar la memoria alcuerdate qu’el valor de la correllación taba siempre ente 1 y -1, siendo 1 una correllación direuta, nesti casu les dos llingües tienen la mesma distribución de frecuencies, y -1 negativa, y que 0 sedría que nun s’asemeyen nada, los valores entemedies indiquén el cuánto de asemeyaes son los pares de llingües, polo xeneral (anque depende de l’amuesa) si ta perbaxo el 0,5 nun hai venceyamientu o ye persele, a partir d’ehí tarán más venceyaes a midida que nos averamos al 1 (o -1 nel casu de facelo de forma negativa).
   Lo qu’atopé foi la tabla que sigui, ye lo que parecía a lo primero tán toes pervenceyaes unes con otres menos la distribución de los fideos:

Coeficiente de correllación pa caún de los pares de llingües y los fideos

   Nun nos tenía que garrar de sustu, qu’el castellanu y el francés seyan les más veceyaes (siempre falando de la distribución d’usu de les lletres, y non de la llingua mesma, cuidáu con esto), seguíu del inglés y l’alemán (nun miré l’italianu, pero de xuru que taba más averáu al castellanu). No que respeuta a los fideos de les sopes, nun s’asemeyaba a nenguna llingüa, la más averada’l castellanu, pero con un valor perbaxo (0,37), perpoco pa cabilar que tienen la mesma distribución, les otres peor tovía, l’alemán hasta con valores negativos.
   Pa comprobar el resultáu fici un análisis de conglomeraos (una triba d'análisis multivarienta) que busca atopar los elementos más asemeyaos y rescampla les diferencies ente los grupos, esplicate cómo se fae nesta entrada diba ser enguedeyame muncho, asina que prométote falar d’ello n’otra entrada con un exemplu illustrativu, ya que pal científicu amateur ye perinteresante conocer esti preséu. Bono a lo que diba, fici esti análisis, con resultaos perasemeyaos a los del de correllación, puedes ver el dendrograma resultante:

Dendrograma que fici a lo cabero del análisis de conglomeraos

   Nél vemos que cuanto más separtaes, a lo alto, tán les distribuciones de frecuencies de dos llingües más estremen estes, y que como ves tán toes apiñaes alredor d’un mesmo valor, menos la distribución de la sopa lletres, que ta un cachu grande perriba de toes les demás, hasta del castellanu. Entós si la distribución de frecuencies d’aparición de cada lletra nel sopa nun sigui patrones de nenguna llingüa, ¿qué criteriu sigue la marca? Pamique sedrá un misteriu que nun vamos poder resolver col métodu científicu, o quiciabes si...
 
Postdata: La marca entá nun me retrucó, voi intentalo otra vegada, a ver si somos quien a saber el porque d’esa caprichosa distribución.

No hay comentarios:

Publicar un comentario