El contenido presentado en este artículo está destinado únicamente para fines académicos. Las opiniones expresadas se basan en mi comprensión e investigación personal. Es importante tener en cuenta que el campo de los grandes datos y los lenguajes de programación discutidos, como Python, R, Power BI, Tableau y SQL, son dinámicos y están en constante evolución. Este artículo tiene como objetivo fomentar el aprendizaje, la exploración y la discusión dentro del campo en lugar de proporcionar respuestas definitivas. Se recomienda la discreción del lector.
Métricas como las millas por galón (mpg), el número de cilindros (cyl), la cilindrada del motor (disp) y otros indicadores tradicionales ahora están dando paso a una nueva era caracterizada por el ascenso de los vehículos eléctricos (EV).
Trabajaremos con datos automotrices utilizando [lenguaje R para ciencia de datos] (https://www.r-project.org/). Estos encabezados representan diferentes atributos de los automóviles. A continuación se muestra un desglose de lo que normalmente representa cada encabezado.:
mpg: Millas por galón (eficiencia de combustible)
cyl: Número de cilindros en el motor
disp: Cilindrada del motor (pulgadas cúbicas)
caballos de fuerza: caballos de fuerza
drat: relación del eje trasero
peso: peso del coche
qsec: tiempo de un cuarto de milla en segundos
am: tipo de transmisión (0 = automática, 1 = manual)
marcha: Número de marchas hacia adelante
carb: Número de carburadores
Conjunto de datos
En el lenguaje de programación R, la función glimpse() es parte del paquete dplyr y se utiliza para obtener un resumen conciso de un conjunto de datos, proporcionando una idea de su estructura.
Correlaciones positivas:
Precio y carburadores (carb): 0,51
Caballos de fuerza (hp) y carburadores (carb): 0,75
Peso (wt) y cilindrada del motor (disp): 0,89
Peso (peso) y número de marchas de avance (marcha): 0,70
Correlaciones negativas:
Millas por galón (mpg) y peso (wt): -0,87
Millas por galón (mpg) y número de marchas de avance (marcha): -0,55
Cilindros del motor (cilindros) y millas por galón (mpg): -0,85
Tipo de motor (vs) y tipo de transmisión (am): -0,72
Correlaciones bajas:
Drat y Qsec: 0,09
Caballos de fuerza (hp) y tipo de transmisión (am): -0,24
Número de marchas de avance (marcha) y tiempo de cuarto de milla (qs): -0,21
El gráfico resultante mostrará un histograma de valores de caballos de fuerza con un gráfico de densidad superpuesto. En términos más simples, brinda una representación suavizada de cómo se distribuyen los datos a lo largo del eje numérico (en este caso, caballos de fuerza). Esto puede resultar útil para comprender dónde están más concentrados los datos.
Ajuste de un modelo de regresión lineal utilizando la función lm en R. El modelo predice la variable hp (caballos de fuerza) en función de la variable wt (peso del automóvil) a partir de los datos en el marco de datos del automóvil.
(Intercepto) peso
-1.820922 46.160050
(Intercepción): Este es el término de intersección, que representa el valor estimado de los caballos de fuerza cuando wt es cero.
wt: Este es el coeficiente de la variable wt (peso del automóvil). Representa el cambio estimado en caballos de fuerza para un aumento de una unidad en peso. En este caso, el aumento estimado en caballos de fuerza es de aproximadamente 46,16 por cada aumento de una unidad en el peso del automóvil.
El mapa de árbol resultante representa visualmente la distribución de precios entre diferentes marcas. Cada rectángulo en el mapa de árbol corresponde a una marca y el tamaño del rectángulo es proporcional a los valores numéricos en la columna “precio”. Este tipo de visualización es útil para comparar los tamaños relativos de diferentes categorías en función de una variable numérica.