Consultar data

PySpark SQL provee varios métodos y funciones para consultar la data.

Select

Se usa para seleccionar una o varias columnas pasando el nombre de las columnas.

## Selecting Single Column

data.select('sector').show(5)

## Selecting Multiple columns

data.select(['open', 'close', 'adjusted']).show(5)

Filter

Filtra la data basado en una condición de entrada, se pueden agregar varias condiciones.

from pyspark.sql.functions import col, lit

data.filter( (col('data') >= lit('2020-01-01')) & (col('data') <= lit('2020-01-31')) ).show(5)

<aside> 💡 Este es un ejemplo al filtrar la data de Junio del 2020.

</aside>

Between

Devuelve True o False si un valor se encuentra en el rango especificado.

data.filter(data.adjusted.between(100.0, 500.0))
	.show()

When

Retorna 0 o 1 dependiendo de la condición.

data.select('open', 'close', 
            f.when(data.adjusted >= 200.0, 1).otherwise(0)
           ).show(5)