Trabalhos aceitos para a sessão pôster



Abertura - Astroestatística

Prof. Dr. Rafael Izbicki (Departamento de Estatística - UFSCar)

Resumo: A astroestatística é a aplicação de métodos estatísticos a problemas de astronomia. Nesta palestra, irei apresentar alguns problemas em que estatísticos podem contribuir com a astronomia, como o problema de classificar diferentes tipos de galáxias automaticamente com base em imagens de telescópio. Mostrarei então diversos desafios que são encontrados ao resolvê-los: viés de seleção, grandes conjuntos de dados, baixo sinal etc. Por fim, mostrarei algumas das técnicas que venho desenvolvendo para contornar esses problemas.




Minicursos

Minicurso I - Feature Engineering na Prática: a arte de tornar os dados mais eloquentes para você e para os modelos

Prof. Nathália Demetrio (Itaú-Unibanco / Insper / CONRE-3)

Resumo: Feature Engineering, ou engenharia de atributos, é o processo de transformar os dados, ou criar novas representações das variáveis de interesse, de modo a otimizar, em alguns casos possibilitar, a aplicação da modelagem estatística. Considerando a perspectiva de um pipeline de Machine Learning, a engenharia de features apresenta muitas intersecções com a etapa de dataprep (preparação de dados), em ações como: codificações de features, normalizações e tratamento de dados faltantes. Enquanto que segundo uma perspectiva inferencial, a engenharia de características pode ser vista como uma análise descritiva avançada, com a modelagem de relações por meio de funções matemáticas, interações entre variáveis explicativas, e a estruturação do conhecimento de um modo geral. Neste contexto iremos revisar os principais recursos utilizados atualmente no mundo de ciência de dados, discutindo os principais prós e contras de cada abordagem, bem como a importância aplicada destas transformações, visto o ganho em termos de interpretabilidade das soluções.




Minicurso II - Introdução à análise de dados com Julia

Prof. Matheus Lima Cornejo (Department of Statistics - University of Bologna)

Resumo: Julia é uma linguagem de programação científica. Esta linguagem é perfeitamente adequada para estatística, aprendizado de máquina, ciência de dados e para tarefas computacionais numéricas leves e pesa-das. Julia é gratuito, e a sua comunidade reúne colaboradores das áreas da computação científica, estatística e ciência de dados. Isso coloca esta linguagem de programação como a perfeita combinação entre métodosestatísticos convencionais e as novas tendências do mundo da computação científica. Unindo a simplicidade do Python com a velocidade do C, Julia está participando ativamente da revolução da ciência de dados. Alguns chegam a acreditar que pode ultrapassar o Python e o R,se tornando, assim, a linguagem primária para ciência de dados.




Minicurso III - A Ciência de dados em investimentos financeiros: uma aplicação na otimização de portfólios utilizando R

Profa. Dra. Jacqueline Alves (CBEIH-BH)

Resumo: O número de novos investidores pessoa física está crescendo ano após ano. O número de CPFs cadastrados na B3 (Bolsa de Valores de São Paulo) subiu 92,1% em 2020, passou de 1.681.033 de dezembro de 2019 para 3.229.318 no mesmo mês do ano passado. Esse aumento do número de investidores na B3 é reflexo do avanço da tecnologia, que hoje nos permite comprar e vender ativos pelo smartphone, incentivo da mídia para que mais pessoas comecem a investir e do movimento de queda da taxa básica de juros, a Selic. No entanto, quando começamos a investir na maioria das vezes compramos alguns ativos e olhamos para o risco individual desses ativos. Nessa direção, o objetivo desse minicurso é dar uma breve introdução no R de como otimizar a composição de um portfólio para um dado nível de risco atingir o maior retorno possível.




Sessão Temática I: A ciência de dados a serviço da saúde pública - 16 de junho de 2021

Com vocês, o Observatório Obstétrico Brasileiro!

Profa. Dra. Agatha Sacramento Rodrigues (DEST/UFES)

Resumo: Nessa apresentação, lançamos a identidade visual do Observatório Obstétrico Brasileiro (OOBr), apresentando seus primeiros produtos e o que está por vir. O OOBr é uma plataforma interativa de monitoramento, análises de dados públicos cientificamente embasadas e disseminação de informações relevantes na área de saúde materno-infantil. O OOBr visa ser uma referência de informações acessíveis e confiáveis sobre saúde materno-infantil e ser um suporte importante para a tomada de decisões na área.




Traduzindo Dados Abertos em Saúde no Brasil: uma introdução ao Data Product Design.

Bruno Lorenz & Gabriel Rezende - ODD Studio

Resumo: O Brasil possui diversas bases de dados abertos em saúde. Traduzir esse volume de informações em conhecimento é um grande desafio: como compartilhar o resultado de análises com tomadoras(es) de decisões pouco familiarizadas(os) com a linguagem acadêmica e estatística? Nessa fala, busca-se introduzir conceitos básicos sobre tradução do conhecimento e sobre o Data Product Design, um método de trabalho que facilita o desenvolvimento de produtos de dados direcionados aos mais diversos públicos.




Indice Municipal Amigo da Primeira Infância (IMAPI): monitorando as 5 dimensões da primeira infância

Gabriela Buccini (Department of Environmental and Occupational Health, University of Nevada, Las Vegas)

Resumo: Quase 250 milhões de crianças menores de 5 anos correm o risco de não atingir seu potencial de desenvolvimento devido à pobreza intergeracional, desigualdade, exclusão social e fatores de risco biológicos, portanto, o fortalecimento dos sistemas de desenvolvimento na primeira infância (DPI) tornou-se uma prioridade global. Em resposta, o Nurturing Care Framework (NCF) descreve 5 dimensões para uma abordagem integrada e equitativa que impacta positiviamente no DPI. Com base nessas 5 dimensões, criamos o Índice Municipal Amigo da Primeira Infância (IMAPI) para avaliar e monitorar o ambiente propício para promover o DPI em todos os 5.570 municípios brasileiros. O IMAPI foi criado seguindo 8 etapas metodológicas utilizando uma abordagem participativa e da ciência de dados para criação de um indice municipal, incluindo um índice geral e índices para cada uma das cinco dimensões do NCF. O IMAPI representa a primeira tentativa mundial de selecionar e sintetizar indicadores de cuidados integral da criança usando sistemas de informação de rotina para informar as decisões locais baseadas em evidências.




Data Science Aplicado - A experiência da plataforma SaMI como plataforma para a Saúde Pública no Brasil

Prof. Dr. Tiago Carvalho (INOVIA)

Resumo: O sistema de saúde pública brasileiro produz diariamente um volume gigantesco de dados que muitas vezes é armazenado e sub-utilizado, tornando seu aproveitamento por gestores e cientistas muito aquém do desejado. Em especial, dados ligados à saúde materno-infantil são de especial interesse para a produção de conhecimento especializado que possibilite a redução de problemas sérios como a mortalidade infantil e neonatal. Nesta conversa, o Dr. Tiago Carvalho apresentará a experiência do desenvolvimento da plataforma SaMI, uma Plataforma Inteligente Voltada à Saúde Materno Infantil baseada em Inteligência Artificial e Visualização de Informações, desenvolvida no contexto do Grand Challenges Exploration. Serão apresentados os principais conceitos utilizados na construção da plataforma, bem como as principais formas de visualização propostas para um entendimento melhor das informações, além de modelos de Inteligência Artificial construídos para avaliação do risco de morte neonatal e previsão de taxas de mortalidade.




Integração e disseminação de dados de saúde pública: Como dar vida ao seu próprio conjunto de dados "monstro de Frankenstein", do zero a um artigo de dados

Profa. Rebecca Salles (PCDaS/Fiocruz)

Resumo: Como o personagem fictício, algumas soluções complexas só podem surgir quando todas as suas partes se unem como uma. Pode ser que cada parte da solução seja obtida pela análise de um conjunto de dados diferente (ou "parte do corpo", se preferir). No entanto, você ainda pode não ser capaz de ver o quadro geral e responder às perguntas mais complexas, a menos que junte e integre todas essas partes criando um novo conjunto de dados "monstro". Esta nova "criatura" pode ser grande, mas se for construída com cuidado, você descobrirá que é leal. Ela responderá às perguntas que você sempre teve e o ajudará em suas análises futuras. Este breve tutorial mostra o passo a passo para dar vida ao seu próprio conjunto de dados "monstro de Frankenstein". Usando um exemplo simples, descrevemos as fases de extração, transformação e integração de diferentes conjuntos de dados de saúde pública, e também como disponibilizar os resultados de maneira conveniente. Além disso, descrevemos como compartilhar as capacidades e o potencial de seu novo "amigo", apresentando-o ao mundo por meio da publicação de um artigo de dados.




Sessão Temática II: A ciência de dados na pandemia - 17 de junho de 2021

Pesquisa Continuar Cuidando - Pesquisa por amostragem domiciliar com realização de testes para COVID-19 no Estado da Paraíba

Prof. Dr. Hemilio Fernandes Coelho (UFPB)

Resumo: No período de 03/11 a 22/12/2020 foi realizada a pesquisa por amostragem denominada “Continuar Cuidando PB”, que coletou dados sociodemográficos e sobre sintomas, além de aplicar testes rápidos e do tipo RT-PCR para diagnóstico de COVID-19. A amostra de setores censitários da pesquisa foi do tipo estratificada em quatro macrorregiões de saúde do estado da Paraíba, e subdividida de forma balanceada nesses estratos para coleta ao longo de 8 semanas. Em cada setor censitário selecionado, foi aplicado um protocolo de coleta simplificado utilizando arrolamento dos domicílios e amostragem inversa com sorteio via amostragem de Bernoulli. Esse protocolo permitiu uma realização rápida e organizada da e também permitiu o fornecimento de resultados parciais a cada 2 semanas de coleta. Com isso, a administração da saúde pública na Paraíba teve acesso tempestivo a indicadores que permitiram tomar melhores decisões sobre políticas públicas relativas à gestão da pandemia no Estado da Paraíba, e também possibilitou o fornecimento de uma informação precisa para sociedade sobre a evolução da doença no Estado da Paraíba. A pesquisa foi fruto de uma parceria entre a UFPB e o governo do Estado da Paraíba, e a coleta de dados foi realizada pela SCIENCE em parceria com equipes das secretarias municipais e estadual de saúde.




Correcting notification delay and forecasting of COVID-19 data

Prof. Dr. Alessandro J. Q. Sarnaglia (DEST/UFES)

Resumo: Since the first official case of COVID-19 was reported, many researchers around the world have spent their time trying to understand the dynamics of the virus by modeling and predicting the number of infected and deaths. The rapid spread and highly contagiousness motivate the necessity of monitoring cases in real-time, aiming to keep control of the epidemic. As pointed out by Bastos et al.(2019), some pitfalls like limited infrastructure, laboratory confirmation and logistical problems may cause reporting delay, leading to distortions of the real dynamics of the confirmed cases and deaths. The aim of this study is to propose a suitable statistical methodology for modeling and forecasting daily deaths and reported cases of COVID-19, considering key features as overdispersion of data and correction of notification delay. Both, reporting delays and forecasting consider a Bayesian approach in which the daily deaths and the confirmed cases are modelled using the negative binomial (NB) distribution in order to accommodate the population heterogeneity. For the correction of notification delay, the mean number of occurrences regarding time t notified at time (mean delayed notifications) is associated to the temporal and the delay lag evolution of the notification process through a log link. With regard to daily forecasting, the functional form adopted for the number of deaths and reported cases of COVID-19 is related to the sigmoid growth equation. A variable regarding week days or days off was considered in order to account for possible reduction of the records due to the lower offer of tests on days off. To illustrate the methodology, we analyze data of deaths and infected cases of COVID-19 in Espírito Santo, Brazil. We also obtain long-term predictions.

Sessão Temática III: Ciência de dados e redes de computadores - 18 de junho de 2021

Online Learning under Resource Constraints

Rodolfo Villaça (DI/CT/UFES)

Resumo: Data-driven functions for network operation and management are based upon AI/ML methods whose models are usually trained offline with measurement data collected through monitoring. Online learning provides an alternative with the prospect of shorter learning times and lower overhead, suitable for edge or other resource-constraint environments. We propose an approach to online learning that involves a cache of fixed size to store measurement samples and periodic re-computation of ML models. Key to this approach are sample selection algorithms that decide which samples are stored in the cache and which are evicted. We present and evaluate four sample selection algorithms, all of which are derived from well-studied algorithms, and we specifically argue that feature selection algorithms can be used for our purpose. We perform an extensive evaluation of these algorithms for the task of performance prediction using data from an in-house testbed. We find models that achieve a prediction accuracy close to that obtained through offline learning, but at a much lower cost.




Programmable Switches for in-Networking Classification

Bruno Missi Xavier (Doutorando/PPGI/UFES)

Resumo: Deploying accurate machine learning algorithms into a high-throughput networking environment is a challenging task. On the one hand, machine learning has proved itself useful for traffic classification in many contexts (e.g., intrusion detection, application classification, and early heavy hitter identification). On the other hand, most of the work in the area is related to post-processing (i.e., training and testing are performed offline on previously collected samples) or to scenarios where the traffic has to leave the data plane to be classified (i.e., high latency). In this work, we tackle the problem of creating simple and reasonably accurate machine learning models that can be deployed into the data plane in a way that performance degradation is acceptable. To that purpose, we introduce a framework and discuss issues related to the translation of simple models, for handling individual packets or flows, into the P4 language. We validate our framework with an intrusion detection use case and by deploying a single decision tree into a Netronome SmartNIC (Agilio CX 2x10GbE). Our results show that high-accuracy is achievable (above 95%) with minor performance degradation, even for a large number of flows.




ML-Based DDoS Detection and Identification Using Native Cloud Telemetry Macroscopic Monitoring

João Henrique Corrêa (Doutorando/PPGI/UFES)

Resumo: The detection and identification of Distributed Denial-of-Service (DDoS) attacks remains a challenge in cloud/edge/fog computing environments. It usually requires network middleboxes, such as deep packet inspectors (DPI), for detection task mostly. But clouds and fogs have native powerful telemetry systems that are not yet fully exploited for DDoS detection; and provide so much information that could aid attack identification tasks as well. Machine Learning (ML) algorithms can help one diving into the richness of cloud’s native data collection services, which have a multitude of metrics from both physical and virtual hosts. This paper evaluates the use of ML algorithms over datasets collected from a experimental testbed based on OpenStack. Controlled attack scenarios were used to investigate the ability of ML for tasks such as detecting and identifying SYN_Flood and GET_Flood DDoS attacks mixed, in different proportions, with legitimate clients. kNN and Random Forest ML algorithms were trained and tested, and for evaluation the metrics accuracy, recall, precision, and F1-score were used. Our experiments presented about 87% of accuracy in the detection of SYN_Flood and GET_Flood DDoS attacks, whereas Snort IDS mostly fails to detect the latter attack by processing the corresponding packet traces. Also, the detection of PING_Flood DDoS attack was tested without training as an initial evaluation towards the generalization of the proposal.




Geração de dados de Mobilidade Urbana Utilizando Aprendizado Profundo

Iran Ribeiro (Mestrando/PPGI/UFES)

Resumo: Um dos grandes desafios na coleta e divulgação de dados de mobilidade urbana está no fato de que esses dados possuem informações que podem comprometer a privacidade dos usuários. Uma alternativa a esse problema é a geração de dados sintéticos que possam preservar as características dos dados reais. Este trabalho analisa a eficácia da utilização de um modelo estatístico clássico (ARIMA) e propõe o uso de algoritmos de aprendizado profundo, como as Redes Generativas Adversárias (GANs, em inglês) para geração de séries temporais baseadas em dados de mobilidade urbana. A avaliação dos modelos utilizados foi feita por meio da comparação dos dados sintéticos com os dados reais: visualmente analisa-se a similaridade dos dados sintéticos em relação aos reais e, quantitativamente, por meio dos resíduos dos modelos, verifica-se eficiência de cada modelo na geração dos dados sintéticos. Os resultados mostram que os modelos baseados em aprendizado profundo são capazes de gerar dados com as mesmas características dos dados reais.




Encerramento - Mercado de trabalho dos Estatísticos: Novas perspectivas e novos aprendizados

Prof. Doris Fontes (CONRE-3)

Doris S. M. Fontes é Bacharel em Estatística pelo IME-USP (82), atua na área de pesquisa de mercado desde 1982. Em 2004 foi nomeada pelo CONFE (Conselho Federal de Estatística) Coordenadora Geral do CONRE-3 (Conselho Regional de Estatística da 3ª Região); em 2010 foi eleita Presidente desta regional pelos seus estatísticos registrados e, desde então, participado ativamente da sua diretoria. Tem focado o seu trabalho em divulgação e fortalecimento da estatística no mercado de trabalho e entre estudantes de Ensino Médio. Trata-se de um trabalho voluntário, sem remuneração, com mandato de Presidente até Dezembro de 2021.


Resumo: O mercado de trabalho está em constante mudança e a evolução tecnológica impacta diretamente na nossa atuação profissional. Como devemos aproveitar tantas perspectivas novas e interessantes?





Organização: