Estas notas son de la charla a la cual asistí en la UBA sobre Data Mining el 22 septiembre de 2016. Son apuntes que sobre las ponencias que hicieron y otras ideas del momento. Esta nota no refleja lo que se expuso en la charla. Para detalle sobre charlas, ver este link:
Ponencia 1: Guillermo Folguera (Posicionamiento Filosófico)
Existen
dos posicionamiento relacionados a la formulación de hipótesis. En el
primero se considera que las hipótesis nacen del entendimiento del
problema, y no de las variables, por lo tanto: a mayor cantidad de
variables no se modifican las hipótesis. El segundo posicionamiento
considera que a mayor cantidad de variables se pueden crear nuevas y
mejores hipótesis.
Las hipótesis en sistemas
naturales se mantienen en una realidad pos-predicción. En sistemas
sociales, económicos y cualquier otro que tenga que ver con personas, donde la predicción conlleva a una acción que modifica el
sistema de estimulo-respuesta, las hipótesis suelen cambiar luego de la
predicción: la predicción puede romper el equilibrio y crear un sistema nuevo de estimulo-respuesta.
Ponencia 2: Marcelo Soria (Posicionamiento Cientifico)
Existe
la tendencia a realizar estudios o análisis seleccionando parámetros o
poblaciones que arrojen los resultados que se desean. A esto le llaman
"hackeo del valor P". Algunas técnicas pueden ser estas:
- Elegir una muestra o remuestrear hasta encontrar el valor p deseado.
- Se pueden elegir variables que expliquen una hipótesis, pero en el
mismo dataset pueden existir otras variables que expliquen una hipótesis contraria a la anterior.
- Elegir distintos test de hipótesis hasta que uno de ellos arroje el resultado buscado.
Otro
tema en las investigaciones científicas es que no se publican los
resultados de las hipotesis nulas. Si una investigación no demuestra la
relación entre variables entonces no se publica, por lo cual es muy
probable se vuelva a repetir la misma investigación sin resultados una y otra vez a traves del tiempo. Así tambien las batallas ganadas son descritas con detalles, inclusive por mas de un narrador una y otra vez, mientras que las derrotas no suelen ser atractivas para describir y documentar, porque no se ganó: es una derrota. Aunque sí se gana conocimiento.
Ponencia 3: Gustavo Denicolay (Posicionamiento Pragmatico)
En
el área analítica practica (ver amazon como ejemplo) se suele usar
técnicas de prueba error (A/B Test) para luego (analizando y midiendo los
resultados con la visión de científico de datos) determinar cuál es el
producto o solución más conveniente. Esto se hace así porque es muy costoso (en
tiempos humanos) identificar la solución mas conveniente desde el punto
de vista analítico o científico de datos. Analizar los datos para encontrar la mejor solución o producto puede llevar mucho tiempo, y en el ambiente comercial es mas rentable lanzar varias soluciones o productos en simultaneo, para luego analizar (con un científico de datos) cual tiene mejor desempeño. En muchas ocasiones esto puede traer inconvenientes para el consumidor final (llamar al mismo cliente 5 veces para ofrecer productos diferentes, por ejemplo), pero aun asi sigue siendo más rentable para las empresas y por esto lo siguen haciendo.
Debe considerarse
siempre crear redes de causa efecto que describan el por qué está
sucediendo el fenómeno estudiado y cómo afectará las acciones que se
realizarán como resultado de la predicción.
FIN
No hay comentarios:
Publicar un comentario