
Sávio Salvarino Teles de Oliveira
Doutor em Ciência da Computação, Head de Dados na Jusbrasil, com mais de 15 anos de experiência na área de Big Data e NLP no desenvolvimento de soluções para grandes volumes de dados em Python.
PySpark para Processamento de Linguagem Natural (NLP)
O processamento de linguagem natural (NLP) é um ramo da inteligência artificial que se concentra na interação entre humanos e computadores usando linguagem natural. Com o lançamento do ChatGPT, o ramo de NLP tem se destacado no mercado e é promissor. Espera-se que ele continue a desempenhar um papel importante no desenvolvimento de aplicações baseadas em processamento de linguagem natural.
Para processar grandes volumes de dados de textos, o Apache Spark tem sido utilizado por ser um mecanismo de análise unificado para processamento de dados em grande escala com módulos integrados para SQL, streaming, machine learning e processamento de gráficos.
Neste tutorial iremos explorar técnicas para processar grandes volumes de texto em NLP com Apache Spark. Iremos utilizar a biblioteca Spark NLP (https://github.com/JohnSnowLabs/spark-nlp) que é o estado da arte para processamento de linguagem natural com Python.