Valores inválidos

Los valores perdidos son identificados como NaN, blanks y placeholders. Podemos hacer algo de lo siguiente:

  1. Eliminar las filas que tienen valores perdidos.
  2. Reemplazar los valores perdidos con la media de los valores de la columna.
  3. Reemplazar con el valor más frecuente.
  4. Reemplazar con KNN.
# Remove Rows with Missing Values

data.na.drop()

# Replacing Missing Values with Mean

data.na.fill(data.select(f.mean(data['open'])).collect()[0][0])

# Replacing Missing Values with new values

data.na.replace(old_value, new_vallue)

Regexp: Quitar ceros al principio

material = material.withColumn('codigo_mod', regexp_replace('codigo', r'^[0]*', ''))

Definir nombre de columnas

sel_cols = ['Col1', 'Col2']

Seleccionar columnas de un dataframe

Esto nos permite inspeccionar los elementos de un dataframe.

df_sel = df.select(['Col1', 'Col2'])
df.show()

// Alternativa
df[['Col1', 'Col2']].show(5)