Não que o contexto de negociação retratado na pesquisa se aplique apenas a operações de vendas. Essa é uma das possibilidades. Entre as outras estão a barganha ou fechamento de acordos. O que importa é que a inteligência artificial se comporte como um humano, tanto quanto possível.
Para o experimento, os pesquisadores do Facebook fizeram dois agentes virtuais negociarem a divisão de certa quantidade de objetos aleatórios. O treinamento da inteligência artificial desses agentes teve como base mais de 5,8 mil conversas de negociações realizadas entre humanos. O que se viu foram conversas que incluíram abordagens tipicamente humanas e até algumas estratégias de convencimento avançadas, como fingir interesse em um objeto que não tem valor para, posteriormente, “sacrificá-lo” — algo como “olha, em troca, vou abrir mão desse item aqui que vale muito”. Para o sucesso do experimento, os pesquisadores aplicaram, basicamente, a chamada aprendizagem supervisionada: o agente recebe um modelo (no caso, a base com mais de 5,8 mil diálogos realizados previamente por humanos) e o aplica sobre os dados de entrada (os objetos a serem negociados). Mas havia um complemento: a aprendizagem por reforço. Nela, o agente pode priorizar as abordagens que dão mais resultados positivos em detrimento das que não dão o retorno esperado. É quase um jogo de tentativa e erro. Foi por isso que o Facebook conseguiu resultados tão interessantes. Em cada rodada de negociação, os dois agentes poderiam negociar usando apenas aprendizagem supervisionada ou um deles poderia aplicar aprendizagem por reforço — como esta não segue um modelo previamente estabelecido por humanos, os resultados podem ser surpreendentes.
É óbvio que a tecnologia desenvolvida aqui ainda carece de aperfeiçoamentos para ser amplamente adotada. Mas, para o curto prazo, já podemos vislumbrar o seu uso nos chatbots de lojas online, por exemplo. Talvez você tenha se perguntado sobre o que acontece se os dois agentes usarem aprendizagem por reforço ao mesmo tempo. Bom, isso ocorreu durante os testes, mas os resultados foram um tanto estranhos. Por quê? Os argumentos usados na negociação passaram a divergir daquilo que os algoritmos tinham aprendido com base nos 5,8 mil diálogos humanos. Isso significa que, sob o ponto de vista dos humanos, a conversa apresentou incoerências. Na primeira olhada, parecia que os agentes tinham desenvolvido uma linguagem própria, afinal, negociações foram concluídas, a despeito da dificuldade humana de interpretar a conversa. Mas isso é verdade só até certo ponto: não houve, por exemplo, formação de novo vocabulário ou de estruturas de comunicação. Com informações: The Atlantic