Data Science

Solo el 17% de los europeos conocen los datos y un 45% lucha por diferenciar entre verdades de datos y manipulaciones.

Esto plantea la pregunta, ¿qué significa ser alfabetizado en datos? ¿Necesitamos un doctorado para obtener un significado de nuestros datos comerciales o mantener una conversación informada sobre nuestra salud y nuestras elecciones de vida en general?

En Digital Fox Data, nos gusta imaginar un mundo en el que cualquiera pueda acceder al vasto mundo del big data, sin importar sus antecedentes o su perfil profesional.

Como cualquier otra habilidad, la alfabetización de datos es una habilidad que debe ser perfeccionada y practicada para proporcionar un valor tangible. Para comenzar a mirar el mundo a través de la lente de los datos, necesitamos comenzar a hacer las preguntas correctas.

Entonces, ¿qué es la alfabetización de datos?

Así como la alfabetización es la capacidad de derivar el significado de la palabra escrita, la alfabetización de los datos es la capacidad de derivar el significado de los datos.

En términos más sofisticados, la alfabetización de datos se puede denominar como la capacidad de “consumir para obtener conocimiento, producir de manera coherente y pensar críticamente sobre los datos”.

En el mundo actual basado en datos, un número creciente de organizaciones dependen en gran medida del análisis de datos y, a menudo, requieren cierto grado de conocimiento de los datos de todos los empleados.

Demos un paso atrás y averigüemos qué habilidades potencian el conocimiento de los datos. Para estar bien versado en la toma de decisiones basada en datos, uno debe ser capaz de:

Seleccione los datos apropiados para un propósito particular;

  • Interpretar visualizaciones de datos, tales como tablas o gráficos;
  • Evaluar críticamente la información producida por el análisis de datos;
  • Comprender las herramientas de análisis de datos y cómo usarlas;
  • Reconozca cuando los datos se tergiversan o se usan de manera engañosa;
  • Comunique la información derivada de los datos de una manera atractiva, incluso a las personas que carecen de la alfabetización de datos. Esta habilidad también se conoce como narración de datos (esto lo veremos más adelante).
  • Si te paras a pensar en ello, cada aspecto de nuestras vidas está influenciado por los datos de una manera u otra. Ser analfabeto de datos significa que inevitablemente tomamos decisiones equivocadas y nos ponemos en desventaja.


Me gustaría senalar los tres logros críticos obtenidos de las habilidades mejoradas de alfabetización de datos en un entorno empresarial:

Mayor retorno de la inversión.

Hable con cualquier empresa moderna sobre decisiones basadas en datos y se dará cuenta rápidamente de que la aspiración de la mayoría de las organizaciones es obtener más valor de los datos que ya tienen, así como de los datos que compran. Las empresas invierten grandes cantidades de dinero en investigación de mercado y soluciones de BI, a menudo sin evaluar a fondo la capacidad de su equipo para evaluar, interpretar y comprender los datos que se les presentan. Con un mejor conocimiento de los datos en todos los equipos y disciplinas, las empresas podrían lograr un mayor retorno de la inversión en un tiempo más corto.

Mejores decisiones.

El mayor impedimento para la agilidad empresarial es la cultura de inercia que existe en la mayoría de las organizaciones. Nuestra confianza en las decisiones viscerales, la intuición y los malos hábitos puede llevar a procesos más lentos, un menor retorno de la inversión y, en ocasiones, incluso pérdidas financieras. La creación de una cultura de trabajo que favorezca los hechos sobre las conjeturas ayudará a las compañías a inculcar una nueva forma de pensar, lo que llevará a mejores decisiones y un resultado más saludable.

Cambia desde dentro.

Los datos comerciales no deben reservarse para las reuniones del consejo. Cuanta más gente se involucre con ideas de negocios, más valor tendrán las organizaciones de cada equipo en cada disciplina. Si se toman acciones mal dirigidas como resultado de una mala interpretación de los datos en la parte inferior de la pirámide de la organización, es poco lo que la administración superior puede hacer para detectar esos errores a tiempo o prevenirlos en el futuro. Asegurarse de que todos los empleados de la organización conozcan los datos debe ser una prioridad para todas las empresas con visión de futuro.

Los siguientes ejemplos prácticos tienen como objetivo proporcionar una guía sobre los factores clave que se deben tener en cuenta al analizar los datos. Ya sea que sea un usuario de negocios o un desarrollador de Qlik Sense, debe encontrar información útil para desbloquear más valor de sus visualizaciones de datos.

Tendencias y contexto

Los datos sin contexto no tienen sentido en el mejor de los casos, pero también pueden ser responsables de la pérdida de productividad de su organización. Si piensa en los datos de su negocio como una pirámide (datos sin procesar en la parte inferior, datos formateados en el medio que proporcionan más información contextual y clave que se utilizan para informar las decisiones en la parte superior), entonces la importancia del análisis de datos se vuelve aún más evidente.

Lanzar datos sin procesar o mostrar una serie de números a sus empleados no los ayudará a tomar mejores decisiones, los atascará y generará confusión.

Los indicadores clave de rendimiento (KPI, por sus siglas en inglés) mal visualizados a menudo se incluyen en la categoría de datos sin sentido.

Datos internos y externos

Comparar manzanas con manzanas parece ser un enfoque bastante sencillo, pero cuando se trata de manejar datos internos y externos, establecer comparaciones justas se vuelve bastante complicado.

La consideración más importante que se debe tener en cuenta al comparar datos internos, lo que significa hacer comparaciones dentro de una empresa, es buscar comparaciones similares. Por ejemplo, no obtendría mucho valor al comparar las ventas de una cadena de tiendas de café en una estación de tren concurrida con la de un complejo residencial. Esa es una comparación injusta e inexacta. Para normalizar los resultados de dicha comparación, debería considerar otros factores que influyen en el desempeño de cada punto de venta, como el número de empleados en cada sucursal, el número de competidores en el área, la composición socioeconómica de cada localidad, el volumen promedio en cada ubicación y la población en la zona de captación.

Al intentar realizar comparaciones externas a una empresa, debemos tener en cuenta diferentes consideraciones. Por ejemplo, sin ningún contexto, las ventas de una empresa que crecen en un 5% pueden parecer un gran logro, pero si el mercado en general ha ganado un 10%, eso significa que la compañía realmente tiene un desempeño inferior y está perdiendo participación de mercado. Del mismo modo, si las ventas de una compañía se han desplomado en un 5%, pero el mercado en general ha caído en un 10%, muestra que la compañía se está desempeñando bien en el clima cambiante del mercado. Para descubrir información valiosa y real, las organizaciones primero deben determinar qué tipo de datos necesitan para construir comparaciones justas y luego comprarlas a agencias externas.

Análisis de cohortes y basados ​​en células

En lugar de considerar a todos los usuarios como una unidad, Cohort Analysis los agrupa en grupos relacionados, lo que ayuda a identificar patrones, comportamientos y conocimientos relacionados con esa cohorte. A menudo se utiliza como una gran forma de normalizar los datos en las comparaciones o cuando se buscan tendencias. Estos grupos relacionados (o cohortes) generalmente comparten características o experiencias comunes dentro de un período de tiempo definido. Por ejemplo, agrupar clientes según el día de su suscripción o el día en que hicieron su primera compra. El estudio de las tendencias de cohortes de diferentes períodos en el tiempo puede indicar si la situación está mejorando, empeorando o permaneciendo estancada.

El propósito principal de realizar un Análisis de cohorte es desbloquear información procesable sobre cómo mejorar la adquisición de clientes, la experiencia del usuario, los ingresos, el volumen de negocios, etc. El proceso de análisis de cohortes se puede dividir típicamente en cuatro pasos principales:

  • Define tu problema o pregunta
  • Determine las métricas que le ayudarán a encontrar la respuesta.
  • Seleccione cohortes específicas que puedan ayudarlo a responder la pregunta
  • Realizar el análisis de cohorte


El análisis de células es esencialmente una subcategoría del análisis de cohorte y se usa generalmente para comparar la unidad organizativa más relevante en un negocio. Por ejemplo, una compañía automotriz global podría querer ver el desempeño de una subcategoría en diferentes mercados, pero no analizar análisis granulares de marcas individuales. En este caso, una cohorte podría ser una concatenación de “País” y “Subcategoría de producto”, creando una célula, que podría ser algo así como “España – Furgonetas”.

Esta celda agruparía algunos modelos y marcas diferentes de esta subcategoría de producto en particular, con el objetivo general de agregar suficientes datos relevantes para resaltar la variación, pero no tanto que se convierta en un lugar abarrotado y difícil de navegar. Básicamente, le brinda la posibilidad de ampliar subcategorías de productos particulares para ver el desempeño de ventas y el desempeño de la participación en el mercado en diferentes países, lo que hace que sea muy fácil detectar los tipos de productos más vendidos y los valores atípicos de subcategorías.

Medias, Agregación y Distribución.

La manera en que el público en general entiende los promedios es que es “el número en el medio” o el número que está “equilibrado”. El punto central de usar promedios como punto de referencia en las visualizaciones de datos es brindar a los lectores una “muestra representativa” rápida de un conjunto de datos. Es una opción popular tanto en la vida pública como corporativa, con algunas de las métricas económicas más importantes, como el PIB (Producto Interno Bruto) de un país, por ejemplo, representado en promedios.

Sin embargo, lo que a menudo se deja sin discutir es la cuestión de la distribución de los valores que conforman el promedio o la agregación. Por ejemplo, la brecha salarial de género, uno de los temas más candentes en los medios de comunicación en este momento, es “la diferencia promedio entre la remuneración para hombres y mujeres que trabajan”. Si bien ilustra claramente la situación general, sigue siendo una amplia Representación de trazo que no transmite la naturaleza compleja de la materia. Para comprender qué industrias, profesiones y habilidades “causan” la brecha salarial, necesitaría entrar en más detalles, analizando la distribución de los valores.

En los negocios, los promedios a menudo se usan para obtener una instantánea de los datos, pero pueden ocultar una historia más profunda.

Otro método estadístico para comprender la distribución en un conjunto de datos es la desviación estándar. La desviación estándar mide la cantidad de desviación de un conjunto de valores de datos. Si la desviación estándar es grande, significa que los puntos de datos se distribuyen en un rango más amplio de valores, si es bajo, indica que los puntos de datos se agrupan cerca de la media.

Una de las mejores formas de visualizar y comprender mejor la distribución es utilizar un Gráfico de distribución. Este es un ejemplo de cómo le ayuda a obtener una visión rápida de la distribución del conjunto de datos.

Correlaciones sesgadas y no causales

No se puede negar que todos estamos sesgados de una manera u otra. Nuestras experiencias pasadas, sentimientos, el conocimiento que hemos acumulado e incluso nuestro carácter dan forma a nuestra perspectiva de las cosas. Por lo tanto, no es sorprendente que existan varias formas de sesgo en el mundo de los negocios y que puedan sangrar rápidamente en la forma en que trabajamos con los datos. A menudo puede ser involuntario, a veces incluso subconsciente, y casi nunca es malicioso, pero aún debemos ser conscientes de su existencia y tomar medidas para limitar su influencia en las historias que derivamos de los datos. ¿Está viendo lo que los datos le dicen? ¿O torcerlo para apoyar tu historia?

Las dos categorías principales de sesgo son el sesgo estadístico y el sesgo de muestreo, y ambas se relacionan predominantemente con la forma en que se recopilan y analizan los datos. El sesgo de respuesta voluntaria es un ejemplo comúnmente usado que muestra cómo los encuestados tienden a tomar medidas cuando se les pide que abandonen una revisión de productos o servicios si tuvieron una experiencia particularmente positiva o negativa, lo que significa que están siguiendo una agenda particular.

El sesgo de confirmación es otra forma de sesgo que puede afectar tanto al muestreo como a la forma en que las personas interpretan los datos. Wikipedia define el sesgo de confirmación, también llamado sesgo de confirmación o sesgo de myside, como “la tendencia a buscar, interpretar, favorecer y recuperar información de una manera que confirma las creencias o hipótesis preexistentes de una persona”.

El mayor desafío aquí es que casi siempre encontraremos algunos datos para respaldar nuestra agenda o creencias, pero de eso no se trata la visualización de datos.

0