Skip to content

⚡ Apache Spark (PySpark)

O Apache Spark é um motor de processamento de dados distribuído super rápido. Ele não guarda os dados, ele apenas processa. Em vez de rodar operações em um único computador, ele pode espalhar o trabalho por milhares de máquinas.

O que é o PySpark?

PySpark é a API do Spark para Python. É ela que nos permite escrever códigos em Python (como fizemos nos testes do nosso projeto) para processar enormes volumes de dados no Spark, sem precisar aprender linguagens mais complexas como Scala ou Java.

  • Vantagem: Permite processar dados transacionais pesados do nosso Sistema de Despachos em segundos.