Por que a evolução da AI não deve subestimar a qualidade dos dados?

Maria Korolov, CIO/EUA

26/02/2018 - 08h04

À medida que a IA é aplicada em uma variedade maior de problemas, as abordagens bem-sucedidas serão aquelas capazes de reconhecer que o sucesso não vem dos algoritmos, mas sim dos dados

As tecnologias de Inteligência Artificial (IA), como o Machine Learning (ML) prometem transformar radicalmente muitas indústrias, mas também representam riscos significativos - muitos dos quais ainda não descobertos, uma vez que só agora essas inovações começam a atingir um público maior.
Já houve uma série de exemplos públicos e embaraçosos de IA que foram ruins, e embaraçosos. A Tay, da Microsoft, passou de um assistente digital inocente para o Twitter a um chatbot racista e louco, em apenas um dia, após ser corrompido por trolls. Há dois anos, o Google teve de barrar as buscas por palavras-chave como “gorila” e “chimpanzé” porque elas retornavam imagens de pessoas negras – e o problema ainda não está totalmente solucionado no app Google Photos.
À medida que mais empresas passam a utilizar a IA, as apostas ficam mais altas. “Acordamos suando”, afirma Ankur Teredesai, diretor de IA da startup KenSci, que aplica Inteligência Artificial a dados de serviços de saúde. “No fim do dia, estamos falando sobre pacientes e vidas reais.”
A plataforma de IA da KenSci faz recomendações de cuidados de saúde para médicos e empresas de seguro. Se houver erros nos registros médicos, ou nos conjuntos de treinamento usados para criar os modelos preditivos, as consequências podem ser fatais. Uma situação que joga luz sobre um fator de risco importante para as implementações de IA: a qualidade da governança de dados das companhias.
Proteções
A KenSci lida com milhões de registros de pacientes de organizações parceiras ao redor do mundo. As informações estão em idiomas, padrões e formatos diferentes, e estão organizadas em modelos diferentes de classificação.
Para resolver esse problema, a KenSci usa ferramentas próprias e de terceiros, e também depende das organizações parceiras.
“Os sistemas de saúde investiram quantidades significativas de esforço para ajustar protocolos e compliance, para assegurar que os seus ativos de dados sejam os mais limpos possíveis”, afirma. “Há cinco ou dez anos, esse era um grande problema. Hoje, por causa da maturidade da digitalização na maioria do mundo ocidental, na Ásia e na Austrália, há uma codificação significativamente menos discrepante. Uma boa parte do mundo seguiu para a padronização.”
Para diminuir os riscos de dependência da IA, a KenSci possui três camadas adicionais de segurança. Em primeiro, há uma linha de frente de defesa contra erros: os médicos que realizam os cuidados.
“Não acreditamos em Inteligência Artificial”, aponta Teredesai. “Acreditamos em Inteligência Assistiva. Deixamos a decisão sobre como agir nas mãos dos especialistas bem-treinados, como os médicos.”
A plataforma da KenSci apenas faz recomendações, destaca. E, na maioria dos casos, essas recomendações nem são para tratamentos. “A maior parte do nosso trabalho é focado em previsões de custos, análise de fluxo de trabalho, e otimizações de fluxo de trabalho. Muitas vezes, estamos a três passos de distância de uma decisão clínica.”
Os especialistas médicos da própria companhia fornecem uma segunda linha de defesa, ao revisar os dados que estão chegando e os limites de como eles podem ser usados. Por exemplo, os dados de resultados de tratamentos com pacientes homens podem não se aplicar a mulheres.
“Temos um processo rigoroso para assegurar que os modelos não sejam registrados se os dados em questão não estiverem corretos para que isso aconteça”, explica.
Por fim, há as revisões externas dos modelos de saída da KenSci, e os fatores que entraram nas decisões da plataforma.
“Nossos pesquisadores estão na vanguarda da justiça e da transparência em IA. Acreditamos na publicação aberta, em distribuir os parâmetros a partir dos quais o modelo está tomando a decisão, para que os especialistas possam não apenas revisar os resultados dos modelos, mas os fatores e as pontuações que entraram nessa classificação. Há muito esforço para garantir que a plataforma da KenSci seja aberta, transparente e possa ser analisada.”
A abordagem da KenSci mostra os tipos de processos que as empresas precisarão adotar à medida que aumentam a sua dependência em relação à IA.
Dados são tudo
Praticamente 90% da Inteligência Artificial dizem respeito à logística de dados, afirma JJ Guy, CTO da Jask. Todos os principais avanços de IA foram impulsionados por avanços nos conjuntos de dados, aponta.
“Os algoritmos são fáceis e interessantes, porque são problemas simples e discretos”, diz. “Coletar, classificar e rotular os conjuntos de dados usados para treinar os algoritmos é o trabalho árduo e difícil – especialmente os conjuntos de dados compreensivos o bastante para refletirem o mundo real.”
Pegue, por exemplo, os apps que fornecem rotas de caminho passo a passo. Eles já estão no mercado há muito tempo, afirma, mas só ficaram bons de verdade mais recentemente – por causa da melhoria na qualidade dos dados.
“O Google montou uma frota de carros que dirigiu e mapeou digitalmente cada rua dos EUA”, afirma. “Eles combinam esses dados com imagens de satélite e outras fontes de dados, e colocam uma equipe de curadores humanos para fazer o polimento manual dos dados representando cada prédio, intersecção e semáforo no mundo.
À medida que a IA é aplicada em uma variedade maior de problemas, as abordagens bem-sucedidas serão aquelas capazes de reconhecer que o sucesso não vem dos algoritmos, mas da qualidade dos dados.”
No entanto, as empresas não costumam perceber a importância de dados antes de já terem iniciado os seus projetos de Inteligência Artificial.
“A maioria das empresas simplesmente não reconhece isso como um problema”, afirma Michele Goetz, analista da Forrester Research. “Quando questionadas sobre os desafios esperados com IA, ter coletas de dados com boa curadoria para treinar a IA está na parte de baixo da lista.”
De acordo com uma pesquisa recente da Forrester, apenas 17% dos entrevistados entendem que o maior desafio é o fato de não “possuírem um acervo bem-curado dos dados que serão usados para treinamento dos sistemas de IA”.
“No entanto, quando as companhias embarcam em projetos de IA, esse é um dos pontos de maior sofrimento e uma das principais barreiras para passar de um piloto ou de uma prova de conceito para um sistema em produção”, destaca a analista.
Um dos principais problemas que podem aparecer não é tanto não haver dados suficientes, mas o fato de esses dados estarem bloqueados e serem de difícil acesso, afirma o fundador e VP de pesquisas da 451 Research, Nick Patience.
“O Machine Learning não vai funcionar se os seus dados estiverem totalmente isolados”, diz. “Caso os seus dados financeiros estejam em sistemas da Oracle, seus dados de RH na Workday, seus contratos em um repositório da Documentum e você não faça nada para criar conexões entre esses silos, você certamente terá problemas”, completa.
Problemas que afetam a IA
Mesmo que você tenha os dados, ainda poderá ter problemas com a qualidade deles, como tendências escondidas dentro dos seus conjuntos de treinamento.
Diversos estudos recentes demonstraram que conjuntos de dados populares usados para treinar reconhecimento de imagem via IA incluíam uma predisposição de gênero. Por exemplo, uma imagem de um homem cozinhando seria identificada erroneamente como uma mulher porque nos dados de treinamento, as cozinheiras eram mulheres.
“Qualquer que seja o viés, se existem vários tipos de discriminação, por raça, gênero ou idade, eles podem ser refletidos nos dados”, aponta o CEO da SpringBoard.ai, Bruce Molloy.
As empresas que estão criando sistemas de IA precisam garantir que os dados e os algoritmos usados para analisá-los estão alinhados com seus princípios, objetivos e valores.
“Você não pode terceirizar valores éticos e de julgamento para a IA”, destaca.
Isso pode ser alcançado a partir de ferramentas de análises que ajudam as pessoas a entenderem como a IA tomou aquela determinada decisão, incluindo auditores internos ou externos, ou paineis de revisão, aponta.
Compliance também é um problema relacionado às fontes de dados – apenas porque uma empresa possui acesso à informação, isso não significa que ela pode e deve usá-la da maneira que quiser.
As empresas já começaram a realizar auditorias nos seus modelos de Machine Learning, e a analisar os dados que vão para esses modelos, afirma o diretor de pesquisas sobre sistemas cognitivos e de IA da IDC, David Schubmehl.
Empresas de auditoria independentes também estão começando a olhar para essa questão, diz o especialista. “Acho que isso vai se tornar parte do processo de auditoria. Mas como todo o restante, é uma área emergente. As companhias ainda estão tentando descobrir quais são as melhores práticas.”
Até que isso aconteça, diz, as empresas vão levar as coisas de forma devagar.
“Penso que estamos nos dias iniciais, em que os modelos de IA ou de Machine Learning estão apenas fornecendo assistência e recomendações para profissionais treinados, em vez de eles mesmos fazerem o trabalho”, afirma. “E as aplicações de IA estão levando mais tempo para serem criadas porque as pessoas estão tentando garantir que os dados estão corretos e integrados de maneira certa e que elas possuem os tipos e conjuntos corretos de dados.
Mesmo dados totalmente precisos podem apresentar problemas em termos de predisposição, afirma o líder global de IA da PricewaterhouseCoopers, Anand Rao. Digamos que uma empresa de seguros com sede no centro oeste dos EUA use seus dados históricos para treinar seus sistemas de IA e então expanda sua atuação para a Flórida. O sistema não seria útil para prever o risco de furacões, por exemplo.
“A história é válida; o dado é válido. Mas as questões mandatórias são onde você usa o modelo e como você usa o modelo?’”, diz.
Aumento de dados falsos
Esses tipos de influências intrínsecas podem ser difíceis de identificar, mas pelo menos eles não envolvem fontes de dados ativamente tentando estragar os resultados.
Pegue o exemplo da disseminação de notícias falsas (fake news) nas redes sociais, que está apenas ficando pior. “É uma corrida armamentista”, afirma Rao.
Enquanto as redes sociais trabalham para combater o problema, os hackers usam as suas próprias IA para criar bots inteligentes o bastante para se passar por humanos, seja para influenciar as redes sociais, ou para convencer os anunciantes que são consumidores reais.
“Já estamos vendo um impacto”, afirma o CEO da Lucidworks, Will Hayes. “Olhe para as eleições (dos EUA) e a amplificação da mensagem com bots e outros manipuladores.”
Esses manipuladores também não são sempre a Rússia ou a China.
“Se uma marca está querendo expandir nas redes sociais, e uma empresa de marketing quer provar que ampliou sua voz, não é preciso ser um engenheiro para pensar em maneiras pelas quais eles podem manipular os dados”, aponta Hayes.
É aí que entra em cena o conhecimento sobre domínios e o bom senso.
“Compreender os padrões e a parte matemática só vai te levar até certo ponto”, explica o CTO da empresa Garrigan Lyman Group, Chris Geiser. “O mais importante é entender todas as suas fontes individuais de dados. Quanto mais você entende os seus dados, e o que você está tentando alcançar e seus indicadores principais de desempenho, mais você poderá apontar para a direção correta a seguir.”
Compare suas fontes de dados
Se uma empresa possui dados vindo de diversas fontes, é importante verificar as informações de uma fonte em relação à outra antes de aplicar qualquer tipo de Aprendizado de Máquina.
Como uma das maiores operadoras de telecom do mundo, a NTT Group gera um grande volume de dados a partir da sua infraestrutura de redes.
“Implementamos Machine Learning para analisar o fluxo de dados pela rede por motivos de segurança”, revela o VP de segurança da NTT, Kenji Takahashi. “Nosso principal objetivo é ter o entendimento completo sobre as infraestruturas de botnet maliciosas escondidas na nossa rede.”
Atualmente, a companhia está investindo em tecnologias para melhorar a qualidade dos dados de treinamento para Machine Learning. Para isso, a NTT usa métodos de “agrupamento” que pegam um voto ponderado de resultados de análises de dados de diferentes fontes, explica.
Esses dados então seguem para uma base de dados de grande escala que os preparam então como dados de treinamento para Aprendizado de Máquina.
“Assim como nas salas de aula, é desastroso aprender qualquer coisa a partir de livros de baixa qualidade e cheios de erros”, afirma. “A qualidade dos dados de treinamento determina a performance dos sistemas de Machine Learning.”
Criando a equipe e as ferramentas para combater o problema
Segundo uma pesquisa publicada em janeiro pela Infosys, 49% dos tomadores de decisão em TI afirmam que não conseguem implementar IA da maneira como querem porque os seus dados não estão prontos.
“A IA está se tornando essencial para estratégias de negócios, mas o gerenciamento de dados permanece como um obstáculo persistente”, afirma o VP e diretor de estratégias e gerenciamento de produtos da Infosys, Sudhir Jha.
Aqui, a liderança é chave, e para algumas companhias em barcando em uma jornada de IA, o primeiro passo pode ser contratar um Chief Data Officer (CDO), afirma o VP global da divisão Leonardo e de IA da SAP, Marc Teerlink, uma vez que as empresas que possuem um CDO fazem um trabalho melhor em termos de gerenciamento de dados. “Lixo entra, lixo sai”, afirma. “Qualidade de dados, propriedade e governança fazem toda a diferença.”
Hoje em dia, a maioria das empresas precisam desenvolver as suas próprias tecnologias para preparar os dados para serem usados em sistemas de IA e ML. Para isso, é preciso ter cientistas de dados, e se você não tem esses profissionais internamente, pode contratar consultores para fazer o trabalho, destaca Rao, da PricewaterhouseCoopers.
Com a estratégia, ferramentas e profissionais certos para o gerenciamento de dados, você pode elevar muito a chance de sucesso da sua empresa na área de Inteligência Artificial.

Fonte: IDGNow!

Biblioteca da Escola de Engenharia e do Instituto de Computação (BEE/UFF)

Pesquisar este blog

Por que a evolução da AI não deve subestimar a qualidade dos dados?

Por que a evolução da AI não deve subestimar a qualidade dos dados?

Comentários

Postar um comentário