PySpark SQL provee varios métodos y funciones para consultar la data.
Se usa para seleccionar una o varias columnas pasando el nombre de las columnas.
## Selecting Single Column
data.select('sector').show(5)
## Selecting Multiple columns
data.select(['open', 'close', 'adjusted']).show(5)
Filtra la data basado en una condición de entrada, se pueden agregar varias condiciones.
from pyspark.sql.functions import col, lit
data.filter( (col('data') >= lit('2020-01-01')) & (col('data') <= lit('2020-01-31')) ).show(5)
<aside> 💡 Este es un ejemplo al filtrar la data de Junio del 2020.
</aside>
Devuelve True o False si un valor se encuentra en el rango especificado.
data.filter(data.adjusted.between(100.0, 500.0))
.show()
Retorna 0 o 1 dependiendo de la condición.
data.select('open', 'close',
f.when(data.adjusted >= 200.0, 1).otherwise(0)
).show(5)