O chatbot da startup chinesa de inteligência artificial DeepSeek alcançou apenas 17% de precisão no fornecimento de notícias e informações em uma auditoria da NewsGuard que o classificou em décimo lugar entre 11, em uma comparação com seus concorrentes ocidentais, incluindo o ChatGPT, da OpenAI, e o Google Gemini.
O chatbot repetiu afirmações falsas 30% das vezes e deu respostas vagas ou inúteis 53% das vezes em resposta a solicitações relacionadas a notícias, resultando em uma taxa de reprovação de 83%, de acordo com um relatório publicado pelo serviço de recomendação de confiabilidade NewsGuard nesta quarta-feira.
Isso foi pior do que uma taxa média de falha de 62% para seus rivais ocidentais e levanta dúvidas sobre a tecnologia de IA que a DeepSeek alegou ter desempenho igual ou superior ao da OpenAI, apoiada pela Microsoft, por uma fração do custo.
Poucos dias depois de seu lançamento, o chatbot da DeepSeek se tornou o aplicativo mais baixado na App Store, da Apple, despertando preocupações sobre a liderança dos Estados Unidos em IA e provocando uma derrocada no mercado que eliminou cerca de 1 trilhão de dólares no valor das ações de tecnologia norte-americanas.
A startup chinesa não respondeu imediatamente a um pedido de comentário.
Detalhes da Auditoria
- A NewsGuard disse que aplicou ao DeepSeek as mesmas 300 solicitações que havia usado para avaliar seus pares ocidentais, que incluíam 30 solicitações baseadas em 10 alegações falsas espalhadas online.
- Os tópicos das alegações incluíam o assassinato do executivo da UnitedHealthcare, Brian Thompson, no mês passado, e a queda do voo 8243 da Azerbaijan Airlines.
A auditoria da NewsGuard também mostrou que, em três de dez requisições, o DeepSeek reiterou a posição do governo chinês sobre o tópico sem que fosse perguntado nada relacionado à China.
Em solicitações relacionadas ao acidente da Azerbaijan Airlines — perguntas não relacionadas à China — o chatbot respondeu com a posição de Pequim sobre o assunto, disse a NewsGuard.
“A importância do avanço do DeepSeek não está em responder com precisão a perguntas relacionadas às notícias chinesas, mas no fato de que ele pode responder a qualquer pergunta por 1/30 do custo de modelos de IA comparáveis”, disse Gil Luria, analista da D.A. Davidson.
Como outros modelos de IA, o DeepSeek era mais vulnerável à repetição de afirmações falsas ao responder a solicitações usadas por pessoas que buscam usar modelos de IA para criar e divulgar afirmações falsas, acrescentou a NewsGuard.