Detalhamento:
Dia 1 - Introdução ao Curso e Ferramentas Iniciais
Os participantes serão introduzidos ao curso com uma apresentação geral das metas e conteúdos que serão abordados ao longo da semana. Serão explicadas as metodologias utilizadas, além de começarmos a explorar ferramentas fundamentais, como Google Colab, Hugging Face e ChatGPT, incluindo tanto sua interface de usuário final quanto uma versão customizada integrada ao Google Colab, entre outros modelos de linguagem grande (LLMs). Esse dia estabelecerá a base prática necessária para o restante do workshop.
Dia 2 - Introdução à Modelagem de Tópicos e Suas Aplicações
Nos dedicaremos à introdução da modelagem de tópicos (que consiste na organização automática de grupos de textos em temas ou tópicos), um método essencial para a análise de grandes conjuntos de dados textuais. Durante as atividades, serão apresentados conceitos gerais da técnica, bem como exemplos de aplicações em diferentes áreas, incluindo humanidades e educação. Os participantes terão a oportunidade de entender como a modelagem de tópicos pode revelar padrões e tendências em corpora complexos.
Dia 3 - Estudo de Caso: Modelagem de Tópicos em Comentários Misóginos no YouTube
O foco será em um estudo de caso específico: a análise de comentários misóginos no YouTube durante a Copa do Mundo Feminina. Utilizando modelagem de tópicos, os participantes trabalharão com dados reais, explorando como a técnica pode identificar padrões e tendências em discursos misóginos.
Dia 4 - Pipeline para Análises Exploratórias Automatizadas e Geração de Gráficos
Apresentaremos um pipeline completo para realizar análises exploratórias automatizadas e gerar gráficos e conclusões a partir de qualquer conjunto de dados. Os participantes aprenderão a automatizar o processo de análise de dados, utilizando exemplos práticos no Google Colab. Essa atividade fornecerá ferramentas poderosas para simplificar análises complexas e criar visualizações úteis para interpretação e comunicação de resultados.
Dia 5 - Classificação Automática de Textos Usando LLMs
Abordaremos a classificação automática de textos utilizando Large Language Models (LLMs). Os participantes serão introduzidos ao uso dessas tecnologias para realizar tarefas de classificação textual, aplicando os conhecimentos adquiridos em datasets fornecidos durante o workshop. O dia encerra com uma discussão sobre os desafios e as oportunidades oferecidas por LLMs em contextos acadêmicos e educacionais.
Bibliografia:
1. Benamara, F., Inkpen, D., & Taboada, M. (2018). Introduction to the Special Issue on Language in Social Media: Exploiting Discourse and Other Contextual Information. Computational Linguistics, 44(4), 663-681. https://doi.org/10.1162/coli_a_00333
2. Benamara, F., Taboada, M., & Mathieu, Y. (2017). Evaluative Language Beyond Bags of Words: Linguistic Insights and Computational Applications. Computational Linguistics, 43(1), 201-264. https://doi.org/10.1162/COLI_a_00278
3. Boyd-Graber, J., Hu, Y., & Mimno, D. (2017). Application of Topic Models. Foundations and Trends® in Information Retrieval, 11(2-3), 143-296. https://doi.org/10.1561/1500000030
4. Carmo, I., Rêgo, A. L. C., Barreto, M., Schuler, M., Heine, A., Villas, M. V., & Lifschitz, S. (2023). Gerenciamento de Dados de Redes Sociais com Análise de Redes e Modelagem de Tópicos. Anais do 38º Simpósio Brasileiro de Banco de Dados (SBBD) (pp. 64-70). Sociedade Brasileira de Computação. https://doi.org/10.5753/sbbd_estendido.2023.233417
5. Chauhan, U., & Shah, A. (2021). Topic Modeling Using Latent Dirichlet Allocation: A Survey. ACM Computing Surveys, 54(7), Article 138. https://doi.org/10.1145/3462478
6. Dou, W., & Liu, S. (2016). Topic and Time-Oriented Visual Text Analysis. IEEE Computer Graphics and Applications, 36(2), 8-13. https://doi.org/10.1109/MCG.2016.73
7. Géron, A. (2019). Mãos à Obra Aprendizado de Máquina com Scikit-Learn e TensorFlow: Conceitos, Ferramentas e Técnicas Para a Construção de Sistemas Inteligentes (R. Contatori, Trans.). Alta Books. ISBN 978-85-508-0902-1
8. Grimmer, J., Roberts, M. E., & Stewart, B. M. (2022). Text as Data: A New Framework for Machine Learning and the Social Sciences. Princeton University Press. ISBN 978-0691207551
9. Grootendorst, M. (2022). BERTopic: Neural Topic Modeling with a Class-Based TF-IDF Procedure. https://doi.org/10.48550/arXiv.2203.05794
10. Pangakis, N., Wolken, S., & Fasching, N. (2023). Automated Annotation with Generative AI Requires Validation. arXiv. https://doi.org/10.48550/arXiv.2306.00176
11. Silva, T. F. L. da. (2022); O Pão Que O Viado Amassou: contribuições da semiótica para o processamento de língua natural. Estudos Semióticos, 18(3), 70-92, 2022. https://doi.org/10.11606/issn.1980-4016.esse.2022.198626
12. Silva, T. F. L. da. (2023); Using transformer networks and tensive semiotics to improve sentiment analysis accuracy in tourism digital platforms; in Semiotica e intelligenza artificiale, pp. 131-147, Aracne; Italia, 2023, ISBN 979-12-218-0429-4; https://www.aracneeditrice.eu/free-download/9791221804294.pdf
13. Silva, T. F. L. da. (2023); Humanismo digital e transformação social: campos abertos para o fomento da inovação nas Ciências Humanas e Sociais; in Revista Sciencia Veritas, 2; https://prpg.usp.br/attachments/article/8936/Scientia_2_pg_5-8.pdf
14. Silva, T. F. L. da, et al. (in press). CDB: A Unified Framework for Hope Speech Detection Through Counterfactual, Desire, and Belief. In Findings of the Association for Computational Linguistics: NAACL 2025.
15. Sun, X., Li, X., Guo, S., Zhang, T., Wang, G., Li, J., & Wu, F. (2023). Text Classification via Large Language Models. In Findings of the Association for Computational Linguistics: EMNLP 2023; https://aclanthology.org/2023.findings-emnlp.603.pdf
16. Zhang, W., Deng, Y., Liu, B., Pan, S. J., & Bing, L. (2024). Sentiment Analysis in the Era of Large Language Models: A Reality Check. In Findings of the Association for Computational Linguistics: NAACL 2024; https://aclanthology.org/2024.findings-naacl.246.pdf
17. Zong, C., Xia, R., & Zhang, J. (2022). Text Data Mining. Springer.
|