Conceptos básicos

Spark es un Framework de desarrollo para procesos de Big Data. Se centra en la velocidad del procesamiento.

Los procesos de Spark son casi continuos y en tiempo real. Se puede utilizar Spark en Python, Java, R y Scala.

Spark esta pensado para trabajar sobre Datalakes o Datawarehouse.

OLAP: Base de datos tradicional que posee muchas transacciones en tiempo real, actualizaciones. No es eficiente para Spark.

OLTP: Sistema transaccional para gestionar la modificación de las bases de datos.

Spark no depende de un sistema de archivos, trabaja desde la RAM y tiene un modulo para ML, streaming y grafos.

Usar PySpark en Google Collab

Google Collab es una herramienta para desarrollar proyectos de Big Data desde un Notebook la nube.

Instalar PySpark

!pip install pyspark==3.0.1

Spark Session

Es un punto de entrada para PySpark que permite utilizar todas las funcionalidades.

from pyspark.sql import SparkSession

spark = SparkSession.builder\\
        .master("local[*]")\\
        .appName('PySpark_Tutorial')\\
        .getOrCreate()

Alternativa

!pip install pyspark==3.0.2

import pyspark
import pandas as pd
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder.appName('TEST').getOrCreate()
spark_context = spark.sparkContext
spark_context