BD Expertos, ICEMD

Métodos estadísticos en Data Science: Saca el máximo valor a tus datos

Una de las claves del Big Data radica en el análisis del dato, con el objetivo de extraer conclusiones y aprovecharlas para proveer de información útil a la Organización. En este artículo, Iván Robles (Senior Data Scientist en Bankia España y Profesor en el Máster en Big Data Management de ICEMD), nos proporciona un acercamiento a los principales métodos estadísticos usados para este fin en Data science.

Es la era del dato. Tenemos datos de todas las clases, formas y colores. Se han desarrollado tecnologías para almacenarlos sin tener problemas de volumen, velocidad o diversidad.

¿Qué hacemos con los Datos ahora?

Queremos analizarlos, entenderlos, predecirlos, y sobre todo sacar valor de ellos, que nos ayuden a optimizar y a tomar decisiones. ¿Cómo lo hacemos?

Data Science es la disciplina donde se analizan, y científicos de datos son los encargados de hacerlo con técnicas de machine learning. Son los analistas de toda la vida, pero cargados con algoritmos estadísticos y potentes herramientas de cálculo para poder ejecutarlos.

En una de las presentaciones más brillantes que he podido ver como profesor, uno de los alumnos buscó el dato de cuantos algoritmos de machine learning existen. No recuerdo el número exacto, pero hace un par de años eran miles, y sigue creciendo. En este artículo se muestran cuáles son los principales métodos que un científico de datos debe de saber, basados tanto en la frecuencia de uso como en si son base conceptual para el entendimiento de otros algoritmos.

¿Cuáles son los métodos estadísticos más usados en Data Science?

Regresión lineal: La cuna del machine learning. Un algoritmo básico que se aprende ya en el instituto. Introduce conceptos como la beta de las variables, p-valor o R Cuadrado. Todo científico de datos debería conocer estos conceptos y saber interpretarlos a la perfección.

Regresión logística: Una modificación de la regresión lineal para poder resolver problemas de clasificación. Aproximadamente el 80% de los proyectos de machine learning son problemas de clasificación. Aquí se aprenden conceptos como la diferencia entre efecto multiplicativo y aditivo.

Series temporales: Como decía Lewis Carroll en Alicia en el país de las maravillas “El tiempo es todo un personaje”. Y para estudiarlo, es necesario conocer las series temporales. Otra pequeña modificación de las regresiones lineales, donde se introducen conceptos como estacionalidad y tendencias a través de los modelos ARIMA.

Árbol de decisión: Quizás el más entendible de los algoritmos, de cara a presentar resultados. Los árboles con sus hojas y sus ramas han dado pie a los algoritmos más usados en la actualidad, Random Forest (no se hace un árbol, se hacen miles y se ve lo que se aprende de todos ellos) y XGBoost (cada vez que se hace un árbol, se observa donde se equivoca y se corrige con otro árbol).

Red Neuronal: Uno de los algoritmos más potentes y más oscuros, sabemos que acierta pero no el porqué. Cada vez se estan sacando mas herramientas para intentar que esa oscuridad se convierta en luz y entender cómo aciertan las redes. Basadas en el cerebro humano, es básico conocer conceptos como capa, neurona o retropropagación. Las técnicas que usa Deep Learning, ahora tan de moda, sobre todo en el uso de la inteligencia artificial para detección de imágenes, voz o comprensión de texto, están basadas en redes neuronales. Estar actualizados en esta y otras técnicas es imprescindible para no perder competitividad, lo cual se puede conseguir con el Máster en Big Data Management de
ICEMD.

K-means: Otra de los algoritmos más conocidos, en este caso para hacer clustering. Nos sirve para agrupar y clasificar por características similares. Conceptos como normalización o distancias son importantes en este algoritmo.

k-NN: También llamado k-vecinos. Usado para los recomendadores. ¿Qué te voy a recomendar? Lo mismo que a tus vecinos, entendiendo como vecinos las personas que tengan tus mismos hábitos.

PCA: Análisis de componentes principales, es una de las técnicas llamadas de reducción de dimensionalidad. Muy usada en las encuestas. ¿Por qué usar cientos de variables si podemos utilizar solo unas pocas que resuman la información? Conceptos como rotación son interesantes de aprender en estas técnicas.

Cadenas de markov: Sirven para introducir la estadística bayesiana y se ven conceptos como simulación. Muy útil para cuando tenemos pocos datos, pues con estas técnicas se pueden dar pistas al modelo para que aprenda.

Simplex: Este algoritmo está centrado en buscar soluciones óptimas con restricciones. Es el último paso de los modelos, donde puedes pasar de predecir a ser prescriptivo. Predecir es ver las posibles ventas de una empresa bajo ciertas hipótesis. Ser prescriptivo es decir que palancas hay que tocar para maximizar las ventas. Es el último paso para sacar todo el rendimiento a los algoritmos, y el método del simplex es la base para entender cómo se puede realizar ésto.

Muchos algoritmos no se han mencionado aquí y muchos quedan por venir. Un número de algoritmos en continuo crecimiento y muy relacionado con la investigación en las universidades y en las empresas. En este artículo se ha querido destacar la base de data science para los interesados en adentrarse en esta disciplina, pero como podrán deducir, hay un camino de aprendizaje que afortunadamente, nunca termina.

¿Quieres adquirir los conocimientos necesarios para poder resolver problemas complejos mediante modelos analíticos avanzados? Fórmate con el Máster en Big Data Management de ICEMD.

Samuel Rodríguez

Periodista a cargo de Ecommerce News desde 2012. Inquieto. En el camino, creé otros medios, como @BigDataMagazine y @CybersecurityNews. Organizador de cientos de eventos profesionales. Ahora con un pie en Portugal y otro en México... Muy del @GetafeCF

TE PUEDE GUSTAR

Solo el 9% usa IA

Aldana Balmaceda
01/07/2025

Semrush, plataforma de gestión de visibilidad online y marketing de contenidos, ha publicado su último informe titulado The Rise of the Full-Stack Marketer, un

Bosch apuesta fuertemente por la IA como motor de crecimiento

Aldana Balmaceda
01/07/2025

Hoy en día, la inteligencia artificial (IA) está presente en todas partes. Bosch reconoció desde muy temprano las oportunidades que ofrecía esta tecnología e

La carrera por liderar la Inteligencia Artificial se intensifica

Aldana Balmaceda
30/06/2025

NetApp®, compañía especializada en infraestructura de datos inteligente, ha presentado su nuevo informe The AI Space Race, que analiza qué países están mejor posicionados

La IA dispara un 466 % las estafas de phishing en España

Aldana Balmaceda
30/06/2025

La Inteligencia Artificial se ha convertido en una herramienta esencial para los ciberdelincuentes, permitiéndoles diseñar campañas de phishing cada vez más sofisticadas y rentables.

El 77% de las empresas ya invierten en IA para mejorar la experiencia del cliente

Aldana Balmaceda
29/06/2025

La IA Agéntica se consolida como una tecnología clave y transformadora en el ecosistema empresarial. Estas soluciones han evolucionado rápidamente, pasando de bots conversacionales

La inteligencia artificial revoluciona el pentesting: ¿puede igualar la calidad del experto humano?

Aldana Balmaceda
29/06/2025

En plena carrera por automatizar procesos y ganar eficiencia, la ciberseguridad no se queda atrás. El uso de inteligencia artificial (IA) en pentesting, pruebas de

EVENTOS

Bosch apuesta fuertemente por la IA como motor de crecimiento

Eventos, Inteligencia Artificial

Málaga se proyecta con la IA y computación cuántica a nivel mundial con DES2025

AI, Eventos

Sin inversión en tecnología, Europa será una esclava digital de otras potencias

Eventos, Machine Learning

El turismo se reinventa con IA, realidad aumentada e influencers virtuales

AI, Eventos

El ministro destaca el liderazgo tecnológico de España y pide más inversión y una IA con valores

AI, Eventos

El impacto de la IA en los ciberseguros

Eventos

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
Acepto recibir la newsletter y comunicaciones de BigData Magazine conforme a la Política de Privacidad

Acepto recibir comunicaciones comerciales de terceros relacionados con el sector del BigData e IA

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

SÍGUENOS EN FACEBOOK

SÍGUENOS EN TWITTER

SÍGUENOS EN LINKEDIN

SÍGUENOS EN YOUTUBE

MÁS COMENTADOS

Cómo la analítica avanzada puede mejorar las operaciones en el sector retail

Actualidad, Business Intelligence, Inteligencia Artificial, Retail

«El Big Data en el entorno de la industria logística va a ser imprescindible y SEUR lo vimos hace años»

Actualidad, Entrevistas

Utilización de Big Data y Machine Learning en la Industria 4.0

Inteligencia Artificial, Internet of Things

El uso de la inteligencia artificial en el diagnóstico precoz del cáncer de piel

Actualidad, Business Intelligence, Cases Studies, Data, Machine Learning, Salud

Detectado el robo de datos a gamers desde la Deep Web

Actualidad

Iluminación IoT gracias a la alianza IoT-Ready

Internet of Things