Visualización de tendencias automotrices: análisis de datos en R

  • 20 Mar, 2020
  • read

El contenido presentado en este artículo está destinado únicamente para fines académicos. Las opiniones expresadas se basan en mi comprensión e investigación personal. Es importante tener en cuenta que el campo de los grandes datos y los lenguajes de programación discutidos, como Python, R, Power BI, Tableau y SQL, son dinámicos y están en constante evolución. Este artículo tiene como objetivo fomentar el aprendizaje, la exploración y la discusión dentro del campo en lugar de proporcionar respuestas definitivas. Se recomienda la discreción del lector.

Métricas como las millas por galón (mpg), el número de cilindros (cyl), la cilindrada del motor (disp) y otros indicadores tradicionales ahora están dando paso a una nueva era caracterizada por el ascenso de los vehículos eléctricos (EV).

Trabajaremos con datos automotrices utilizando [lenguaje R para ciencia de datos] (https://www.r-project.org/). Estos encabezados representan diferentes atributos de los automóviles. A continuación se muestra un desglose de lo que normalmente representa cada encabezado.:

mpg: Millas por galón (eficiencia de combustible)

cyl: Número de cilindros en el motor

disp: Cilindrada del motor (pulgadas cúbicas)
caballos de fuerza: caballos de fuerza

drat: relación del eje trasero

peso: peso del coche

qsec: tiempo de un cuarto de milla en segundos

vs: tipo de motor (0 = en forma de V, 1 = recto)

am: tipo de transmisión (0 = automática, 1 = manual)
marcha: Número de marchas hacia adelante

carb: Número de carburadores


Conjunto de datos

image


En el lenguaje de programación R, la función glimpse() es parte del paquete dplyr y se utiliza para obtener un resumen conciso de un conjunto de datos, proporcionando una idea de su estructura.

image


Corrplot: Matriz de correlación (mtcars_cor) la función cor() de forma predeterminada calcula correlaciones solo para variables numéricas.

image



Estos coeficientes de correlación proporcionan información sobre las relaciones entre los diferentes atributos del automóvil. Las correlaciones positivas indican que a medida que una variable aumenta, la otra tiende a aumentar también, mientras que las correlaciones negativas sugieren una relación inversa. Las correlaciones bajas implican asociaciones más débiles.

Correlaciones positivas:

Precio y carburadores (carb): 0,51

Caballos de fuerza (hp) y carburadores (carb): 0,75

Peso (wt) y cilindrada del motor (disp): 0,89

Peso (peso) y número de marchas de avance (marcha): 0,70

Correlaciones negativas:

Millas por galón (mpg) y peso (wt): -0,87

Millas por galón (mpg) y número de marchas de avance (marcha): -0,55

Cilindros del motor (cilindros) y millas por galón (mpg): -0,85

Tipo de motor (vs) y tipo de transmisión (am): -0,72

Correlaciones bajas:

Drat y Qsec: 0,09

Caballos de fuerza (hp) y tipo de transmisión (am): -0,24

Número de marchas de avance (marcha) y tiempo de cuarto de milla (qs): -0,21

image



El propósito de este histograma es visualizar la distribución de millas por galón (mpg) en el conjunto de datos representado por el marco de datos “autos”. En resumen, genera un histograma que visualiza la distribución de millas por galón en el conjunto de datos de “autos”, brindando información sobre la frecuencia de diferentes valores de mpg.

image


El gráfico resultante mostrará un histograma de valores de caballos de fuerza con un gráfico de densidad superpuesto. En términos más simples, brinda una representación suavizada de cómo se distribuyen los datos a lo largo del eje numérico (en este caso, caballos de fuerza). Esto puede resultar útil para comprender dónde están más concentrados los datos.

image



Ajuste de un modelo de regresión lineal utilizando la función lm en R. El modelo predice la variable hp (caballos de fuerza) en función de la variable wt (peso del automóvil) a partir de los datos en el marco de datos del automóvil.

(Intercepto) peso

-1.820922 46.160050

(Intercepción): Este es el término de intersección, que representa el valor estimado de los caballos de fuerza cuando wt es cero.

wt: Este es el coeficiente de la variable wt (peso del automóvil). Representa el cambio estimado en caballos de fuerza para un aumento de una unidad en peso. En este caso, el aumento estimado en caballos de fuerza es de aproximadamente 46,16 por cada aumento de una unidad en el peso del automóvil.

image



El mapa de árbol resultante representa visualmente la distribución de precios entre diferentes marcas. Cada rectángulo en el mapa de árbol corresponde a una marca y el tamaño del rectángulo es proporcional a los valores numéricos en la columna “precio”. Este tipo de visualización es útil para comparar los tamaños relativos de diferentes categorías en función de una variable numérica.

image