Ronnie Alves é pesquisador titular e líder do grupo de pesquisa de Ciências de Dados do ITV. Ronnie integra o ITV desde a fundação do Instituto e trabalha com Ciência de Dados há mais de 20 anos. Como coordenador do grupo, o pesquisador tem como desafio trabalhar com os dados científicos do ITV gerando o máximo de projetos e resultados possíveis. Entre os projetos está o Biolink, plataforma que reúne os dados sobre biodiversidade e permite aos pesquisadores e analistas de meio ambiente produzirem relatórios para suporte ao licenciamento e outros estudos.

Nessa conversa, Ronnie falou sobre a ferramenta, os desafios do grupo e o uso da Inteligência Artificial em projetos científicos. Confira: 

ITV: O que é o grupo de Ciência de Dados e quais são os principais objetivos e desafios desta linha de pesquisa? 

Ronnie: Nosso desafio é captar um problema de colegas pesquisadores e transformá-lo em um problema computacional. O grupo de Ciência de Dados coordena diversas soluções computacionais dentro do ITV. Além de sermos um time de engenharia, nós também fazemos pesquisas. O Biolink é um exemplo disso, pois trata-se de uma ferramenta que resulta na fusão de bases de dados globais de biodiversidade. Um exemplo é: a Vale administra um grande projeto de exploração mineral em Carajás. Mas para que isso seja feito, a primeira informação que se precisa ter é sobre o inventário de fauna e flora que existe naquela região. E nós ajudamos na organização dessas informações. O primeiro desafio, então, é buscar informações sobre as espécies e o seu grau de ameaça. Nesse ponto, o processo já se torna mais complexo. Os analistas precisam conciliar dados de diversas bases públicas para chegar num primeiro levantamento das espécies. Esse é um procedimento manual que dura dias é entregue em alguns minutos pela ferramenta.

ITV: Como? Você pode dar um exemplo? 

Ronnie: Existem diversas bases de dados de biodiversidade. Cada base de dados é disponibilizada de uma forma e com metadados distintos, porém complementares. O analista tem que verificar nesses casos quantas vezes uma determinada espécie foi encontrada na sua região de inventário, por exemplo. Então, esse inventário é um exercício complexo. É nesse ponto que a Ciência de Dados se destaca. Criamos o Biolink para ajudar nesse inventário. Ou seja, foi uma ferramenta que surgiu a partir de uma demanda real de pesquisa e de negócios. Nós desenvolvemos essa ferramenta que permite que os usuários façam os relatórios de uma forma mais rápida e assertiva. O analista consegue ter acesso a todas as espécies de uma determinada área, avaliar riscos com uso de algoritmos de inteligência artificial e compartilhar com os colegas as informações produzidas nos relatórios. É possível também compartilhar os mapas das áreas com toda informação gerada.

ITV: Essa é uma ferramenta de uso exclusivamente interno do ITV e da Vale. Existe a expectativa de ampliar o uso para além do Instituto? 

Ronnie: Sim, existe uma expectativa de abrir para mais pessoas utilizarem a ferramenta. Mas, por enquanto, ela está muito centrada no ITV e na Vale. Estamos em uma fase de coletar feedbacks dos usuários para melhorar o protótipo. Nosso desafio agora é ampliar a base de usuários. É importante ressaltar que nós nos inspiramos em ferramentas que já existem, mas tem um custo elevado (licenças de uso). A diferença é que nosso produto tem, também, um reforço de base de dados e funcionalidades analíticas para as regiões em que a Vale atua.

ITV: E quais outros projetos estão no escopo da Ciência de Dados no ITV? 

Ronnie: Nós temos um projeto em parceria com o grupo de Biodiversidade e Serviços Ecossistêmicos que visa o desenvolvimento de um algoritmo de aprendizado profundo capaz de identificar espécies de morcegos por meio dos sons que eles emitem. A ideia é identificar as espécies em cavernas que são de difícil acesso. Esse trabalho é interessante, pois utiliza outros tipos de dados, que são os de bioacústica. É um algoritmo sofisticado que será treinado para aprender esse padrão de vocalização das espécies de morcego. O objetivo é acelerar as etapas de identificação das espécies nos espectrogramas de frequência. Esses espectros sonoros tem muitas horas de gravação, porém apenas uma pequena parte tem os sinais de vocalização dos morcegos. E a inteligência artificial precisa aprender o padrão de vocalização de cada espécie. É como se fosse uma Alexa para morcegos. 

ITV: Além do grupo de Biodiversidade e Serviços Ecossistêmicos, a Ciência de Dados também tem parceria com outras linhas, certo? 

Ronnie: Sim, temos parceria com o grupo de Tecnologia Ambiental. Nesse projeto, usamos informações de mapas de sensoriamento remoto para analisar toda cobertura do uso do solo e determinar a dinâmica de carbono nas áreas da Vale. Nós desenvolvemos um algoritmo que calcula com base nesses dados de sensoriamento remoto e outras equações que o pessoal usa para gerar os mapas de dinâmicas de carbono. Temos também um projeto com os grupos de Geologia e Recursos Hídricos e Tecnologia Ambiental, que usa o sensoriamento remoto para inferir a qualidade da água de bacias hidrográficas a partir das imagens de satélite, por meio da identificação de sedimentos sólidos em suspensão. Isso poderia ser aplicado, por exemplo, na identificação de regiões de garimpo ilegal. Mas a inteligência precisa ser treinada para associar imagens ou pixels aos dados de medição. São muitas aplicações, mas tudo passa pela captura de dados, pela qualidade desse dado e pelo treinamento dessas inteligências em computadores robustos.

ITV: Como é possível saber se um dado é de qualidade? 

Ronnie: Os dados são todos enviesados, então precisamos ter muito cuidado com isso. Os dados têm que estar, de certa forma, equilibrados para dar justiça nos resultados. Hoje, há pesquisadores que falam que os dados são o novo petróleo, porque sem ele eu não consigo treinar os algoritmos e avançar nos projetos. No ITV, há um trabalho muito intenso de coleta de dados, e também no uso de técnicas para tornar a IA explicável e justa. Mas para que o trabalho tenha qualidade precisamos, também, da informação sobre os próprios dados, que é o que chamamos de metadados. Esse é o motor para fazer essa revolução que estamos vivendo hoje com a Inteligência Artificial. 

ITV: Estamos vendo um crescimento e complexificação do debate sobre o uso de Inteligência Artificial. Vemos que ao mesmo tempo que a IA pode ser uma ferramenta poderosa, ela poderá causar estragos irreversíveis. Como você enxerga esse cenário? 

Ronnie: Eu trabalho com Ciência de Dados há mais de 20 anos. Hoje, a IA já é um assunto mais desmistificado, mas ainda não democratizado. Mas, como você mencionou, é uma ferramenta poderosa e por isso é preciso cuidado. Uma coisa que venho trabalhando muito com meus alunos é a questão da confiabilidade de modelos da IA. Até que ponto eu posso confiar no que os algoritmos estão dizendo? É complicado porque todos eles têm uma técnica por trás, que chamamos de “técnica caixa-preta”. Na maioria dos casos, a IA funciona a partir de uma rede neural complexa. São milhares de combinações possíveis para a chegada de um determinado resultado. É possível entender os caminhos que levaram a IA até esse resultado? Como explicar a motivação que levou a IA ao resultado? Sem os devidos cuidados, a IA pode gerar informações sem o menor sentido, alucinações! Eu não sou da linha catastrófica nesse debate, mas entendo que é uma questão que merece cuidado, pois hoje não tem nada que regulamente o uso de IA. Nosso papel é dizer como as coisas estão sendo feitas. Caso não haja transparência e responsabilização, podemos caminhar para uma situação catastrófica. A melhor forma de democratizar a IA é dar transparência e fazer com que seja uma ferramenta mais confiável. Enquanto não houver uma questão legal envolvida, o uso pode ser delicado.