“El conocimiento necesita de mucho más que tus datos, el valor reside en las relaciones ocultas que hay entre ellos”

Josep Tarruella, co founder de Graph Everywhere.

Graph Everywhere es una empresa fundada en 2015 por entusiastas del dato, con una larga y amplia experiencia en gestión del dato. Desde ese momento han puesto todo su esfuerzo en ayudar empresas a desarrollar soluciones donde su valor resida en el uso de grafos.

Hoy en día Graph Everywhere se ha convertido en el principal partner de Neo4j en España, la plataforma número 1 en el mundo nativa de grafos y Linkurious, la herramienta de exploración del grafo más potente del mercado. Entrevistamos a Josep Tarruella, co founder de Graph Everywhere.

Big Data Magazine (BDM): Cuéntanos un poco vuestro background, os definís entusiastas del dato, ¿quién es Graph Everywhere como nace y cómo ha evolucionado?

Josep Taruella (JT): Graph Everywhere nació en 2015 con el objetivo de convertirse en el referente de entre las consultoras que trabajan ayudando empresas a incorporar la tecnología de grafos para solventar situaciones donde el uso de los grafos es un valor diferencial. Las personas que forman parte de Graph Everywhere son especialistas en el ámbito del Data Management, Big Data y Analytics. Gran parte del equipo tiene más de 15 años de experiencia en estos ámbitos tanto a nivel de arquitectura tecnológica como de implantación y desarrollo de soluciones tecnológicas alrededor de los datos. Lo que aportamos en concreto es la capacidad de implementar soluciones end-to-end en este ámbito, además de training oficiales y el soporte de nivel 1 en estas tecnologías.

BDM: En vuestra experiencia ¿Cuál es el valor diferencial que aportan los grafos? ¿Se puede cuantificar?

JT: Lo principal es entender de qué es capaz esta tecnología. Es una manera diferente de almacenar y gestionar los datos, y hasta aquí se coloca en el mundo de las NoSQL. Sin embargo, de entre las NoSQL, ésta nace con el objetivo de ser capaz de responder a preguntas contextuales complejas, encontrar patrones de comportamiento basado en las relaciones y resolver muchas otras interrogaciones que serían imposibles de poder ser respondidas por otras bases de datos NoSQL y menos por las más tradicionales SQL.

En los grafos, “Contexto” y “Patrón” son dos palabras clave. Estos dos conceptos son clave para entender la importancia de los grafos en la era moderna. El universo tecnológico está muy enfocado en la inteligencia artificial o el machine learning y queremos que las máquinas sean capaces de ayudarnos, hacernos la vida más fácil. Para esto estamos tratando de que estas máquinas sean capaces de tener razonamientos lo más parecidos posibles al ser humano. Pensemos en ¿Cuál es la mejor manera de conocer a una persona? ¿Sirve de mucho saber cuantos años tiene, dónde vive, si su deporte favorito es el fútbol, su comida favorita …? Estos datos, sin dejar de ser relevantes, siguen siendo discretos ya que no proyectan el sujeto en un contexto. Pensando en la vida real, y de hecho las empresas con gran cantidad de datos de las personas ya lo hacen, conocer una persona significa entender su contexto, saber con quién se relaciona, con quién juega al fútbol, con quién sale a comer a restaurantes, a qué restaurantes, qué otras personas frecuentan estos restaurantes, sus valoraciones (estrellas, likes, …). Este escenario de contexto, propio de una red social, es lo que se puede fácilmente observar y analizar a través de los grafos. Cuantificarlo es muy fácil y genera un valor incalculable.

Pensemos en una red social (todas las redes sociales usan grafos). Sin entrar mucho en detalle, un grafo es capaz de responder a la sentencia: dime los amigos de los amigos de los amigos … de “Juan” a muchos niveles, con una velocidad de respuesta constante (tiempo real), independientemente del volumen de la base de datos. La respuesta de una base de datos SQL o las demás NoSQL a la misma pregunta degrada en tiempo de manera exponencial por cada nivel de profundidad, siendo que en un nivel 3 o 4 posiblemente no llegue a arrojar ningún resultado. La explicación está en la estructura de la base de datos nativa de grafo: técnicamente accedo al grafo a través del punto de inicio (“Juan” es mi punto de inicio) y voy recorriendo el grafo a través de las relaciones que ya existen (traversal del grafo), persistidas en la plataforma, por lo que atravieso el grafo sin necesidad de ir verificando con todos los demás datos si existen coincidencias positivas.

BDM: Has dicho que los grafos son capaces de responder preguntas que las otras bases de datos NoSQL y las SQL tradicionales no son capaces de responder, entonces ¿estas nuevas plataformas han llegado para sustituir las demás bases de datos?

JT: En absoluto, las bases de datos nativas de grafos complementan el valor que aportan las demás bases de datos. La irrupción de las bases de datos NoSQL han hecho aflorar más claramente que nunca el concepto de Polyglot Persistence, donde cada necesidad técnica tiene una solución distinta desde el punto de vista de los datos. En los pies nos ponemos calzado … pero no siempre el mismo, no es lo mismo salir a correr que ir a la montaña o a la oficina. Tenemos calzado especializado para cada caso. Del mismo modo las BBDD ya no son solamente las relacionales, sino que cada necesidad requiere un sistema gestor de datos específico. Este concepto lo explicamos en detalle en nuestro blog: “Zapatero a sus zapatos, y que puedo resumir brevemente explicando el funcionamiento de una página web que vende productos: una vez en la web, existe un “buscador” en el que, al empezar a escribir, aparecen muchas sugerencias de búsqueda; por debajo se está utilizando una base de datos, posiblemente NoSQL, por ejemplo Elastic Search, que es capaz de indexar todo el contenido de la base de datos y facilitar la búsqueda al usuario, una vez escogido el tipo de artículo, empiezan a aparecer las fichas de contenido con fotos y características, en este momento, por debajo, estamos interactuando con una base de datos documental como puede ser MongoDB. Una vez seleccionado el artículo, éste se va al carrito de compras, que es gestionado seguramente por una base de datos Relacional, tipo Oracle. Finalmente, aunque ni mucho menos importante, aparecen unas recomendaciones que seguro serán de interés para el usuario. La mejor herramienta para ejecutar este cálculo complejo y acertar con la sugerencia se realiza con una base de datos nativa de grafos, por ejemplo Neo4j. Como puedes ver en un proceso de 4 clics intervienen 4 tipos de bases de datos diferentes especializadas en cada una de las operaciones requeridas que, en conjunto, consiguen aportar una gran experiencia al usuario.

BDM: ¿Podrías explicarnos más acerca de cómo se usa un grafo para realizar una recomendación y cuales otros casos de aplicación hay, típicos para ser gestionados con una plataforma nativa de grafos?

JT: Por supuesto, una recomendación, para ser efectiva, tiene que ser acertada por lo que necesariamente debe de ser resultado de preguntas complejas, cosa que un grafo puede resolver de manera muy ágil y en tiempo real, uno de los casos más sonado es el de Walmart. Sin ser expertos de negocio, podríamos decir que una recomendación debería tener en cuenta conceptos como: existencia en stock, tiempo de reparto hasta el usuario, gustos de la comunidad, contexto de compras (unidad familiar o comunidad a la que pertenece, intereses del resto de la familia), cercanías de eventos… Los expertos del sector saben mucho mejor que yo cuales son las preguntas, nuestra experiencia más bien se enfoca en como modelar los datos e interrogar la base de datos para devolver un resultado en tiempo real integrado con el canal de interacción del usuario, por muy compleja que sea la consulta.

En cuanto a aplicación de los grafos, lo que hemos descrito brevemente arriba, junto con el caso de las redes sociales, son los primeros casos sonados de aplicación de grafos. Puedo decir que las áreas de aplicación son muchas y muy variopintas. Hay mucho en nuestro blog acerca de esto, sin embargo, sin entrar en detalles, puedo decir que existen dos vertientes, una transaccional que ya hemos visto con las recomendaciones, que está orientada a dar una respuesta a una consulta muy compleja, contextual, para ser consumida por el usuario en tiempo real e inclusive formar parte de un proceso crítico como un scoring de crédito de una solicitud on line.  Por otro lado están lo casos de analítica avanzada, por ejemplo detección y prevención de blanqueo de capitales, investigación de delitos de todo tipo (terrorismo, fraude en juego on line..), Data Governance, Master Data Management, Cliente 360º, gestión del riesgo en el sector financiero, análisis de impacto en redes, monitorización de los sistemas, resolver la parte de enrutamiento, trazabilidad y procesos críticos del sector logístico o de cadenas de suministro, son unos de los casos más relevantes.

BDM: ¿Cual es la mejor tecnología de grafos que recomendáis a vuestros clientes?

JT: Hay dos fabricantes excelentes en el mercado, de los cuales somos los principales y más expertos parnter en España, se trata de Neo4j como plataforma nativa de grafos, sin duda la más evolucionada y Linkurious, una herramienta que se integra de manera nativa con Neo4j y sirve para explorar el grafo, dando un poder increíble a los usuarios que no tienen conocimiento técnico para poder visualizar, explorar, compartir visualizaciones, gestionar alertas sobre patrones de comportamiento, entre muchas otras cosas. Neo4j, que cumple ya 10 años, es la primera base de datos nativa de grafos. Entre sus ventajas principales está el lenguaje de interrogación que ha nacido con Neo4j: Cypher. Tras muchos años desde que se estandarizo el lenguaje de interrogación SQL, por primera vez se está hablando de un estándar para interrogar las bases de datos nativas de grafos que se llamará GQL; este nuevo estándar se basa en su 95% sobre el lenguaje Cypher de Neo4j. Por otro lado se trata de una plataforma en donde los datos y las relaciones persisten físicamente, esto significa que es escalable sin límites y sin comparación con las muchas otras herramientas que, lejos de ser plataformas, son librerías que construyen un grafo en memoria partiendo de un subconjunto de datos, por lo que, para obtener el grafo, necesitan de la misma memoria RAM que la empleada por el almacenamiento de los datos, haciendo que este proceso no sea viable para datasets de cierto tamaño. Además, Neo4j incorpora una gran cantidad de algoritmos complejos ya implementados para realizar Graph Analytics de manera sencilla que se agrupan bajo 5 grandes categorías: Path Finding, Centrality, Community Detection, Similarity y Link Prediction. Por último, cabe destacar que Neo4j es la única NoSQL que cumple con el pradigma ACID, por lo que puede ser incorporada en procesos críticos como scoring de riesgo en el sector financiero, por ejemplo, para evaluación on line de aprobación de microcréditos.

BDM: ¿Por último, podéis contarnos alguna de vuestras experiencias reales de implementación?

JT: A pesar de no poder divulgar los nombres de las empresas, podemos decir que trabajamos con muchas empresas del sector financiero. Los casos más relevantes son los de prevención de blanqueo de capitales, prevención de fraude y gestión de riesgo. La gestión de riesgo entendida en dos vertientes como, por un lado, analizar al detalle el riesgo en base a la dependencia a varios niveles de una empresa y todas las empresas con las que mantiene operativa, un caso estrella es el de Thomas Cook, al quebrar una compañía tan grande y con una operativa tan compleja, los bancos necesitan en tiempo real saber quienes de sus clientes podrían estar afectados. Un ejemplo de pregunta a hacerle al sistema podría ser: ¿hay alguna empresa que, a N niveles de profundidad, dependa en más de un 75% de su facturación de un proveedor afectado por la quiebra de Thomas Cook? En este ámbito, la herramienta Linkurious es muy apreciada ya que ofrece a los analistas una eficiencia que jamás podría ser comparable con la eficiencia que tienen en la actualidad utilizando las herramientas tradicionales. Por otro lado, el mismo modelo se presta a analizar las empresas que no son clientes y que gozan de salud financiera, por la operativa sana que mantienen con otras empresas que forman parte de la cartera del banco, con el objetivo de captación de nuevos clientes. También trabajamos con el sector seguros para la detección del fraude, en el sector público para investigaciones, seguridad pública en proyectos de analítica avanzada, investigación sobre el juego online y hasta en el sector turismo, interviniendo en el motor de una de las mejores agencias de viajes online en la que, para las búsquedas de vuelos de un punto a otro, utilizan Neo4j como motor que, en tiempo real, ofrece las mejores alternativas dentro de miles de posibilidades y combinaciones.

BDM: ¿Cuál es la recomendación que dais a una empresa que se esté planteando la posibilidad de implementar esta tecnología?

JT: Pues le diría que está en el momento perfecto para empezar. Analistas como Gartner prevén el aumento del uso de esta tecnología en las empresas a un ritmo de un 100% de crecimiento anual. Esta tecnología ha venido para quedarse y aporta un valor diferencial desconocido hasta la fecha. Le diría que defina un piloto pequeño que le permita entender la tecnología y cómo aplicarla en el negocio y que no dude más y empiece a sacarle partido a las relaciones. Recordemos que hasta ahora hemos sacado valor a los datos, pero no hemos ni empezado a vislumbrar el valor que tienen las relaciones ocultas en ellos. Es momento de ponerse en marcha.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio