Los valores perdidos son identificados como NaN, blanks y placeholders. Podemos hacer algo de lo siguiente:
# Remove Rows with Missing Values
data.na.drop()
# Replacing Missing Values with Mean
data.na.fill(data.select(f.mean(data['open'])).collect()[0][0])
# Replacing Missing Values with new values
data.na.replace(old_value, new_vallue)
material = material.withColumn('codigo_mod', regexp_replace('codigo', r'^[0]*', ''))
Definir nombre de columnas
sel_cols = ['Col1', 'Col2']
Seleccionar columnas de un dataframe
Esto nos permite inspeccionar los elementos de un dataframe.
df_sel = df.select(['Col1', 'Col2'])
df.show()
// Alternativa
df[['Col1', 'Col2']].show(5)