Spark es un Framework de desarrollo para procesos de Big Data. Se centra en la velocidad del procesamiento.
Los procesos de Spark son casi continuos y en tiempo real. Se puede utilizar Spark en Python, Java, R y Scala.
Spark esta pensado para trabajar sobre Datalakes o Datawarehouse.
OLAP: Base de datos tradicional que posee muchas transacciones en tiempo real, actualizaciones. No es eficiente para Spark.
OLTP: Sistema transaccional para gestionar la modificación de las bases de datos.
Spark no depende de un sistema de archivos, trabaja desde la RAM y tiene un modulo para ML, streaming y grafos.
Google Collab es una herramienta para desarrollar proyectos de Big Data desde un Notebook la nube.
Instalar PySpark
!pip install pyspark==3.0.1
Spark Session
Es un punto de entrada para PySpark que permite utilizar todas las funcionalidades.
from pyspark.sql import SparkSession
spark = SparkSession.builder\\
.master("local[*]")\\
.appName('PySpark_Tutorial')\\
.getOrCreate()
Alternativa
!pip install pyspark==3.0.2
import pyspark
import pandas as pd
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.types import *
spark = SparkSession.builder.appName('TEST').getOrCreate()
spark_context = spark.sparkContext
spark_context