RECUPERAÇÃO DE INFORMAÇÃO NA WEB: uma experiência com o modelo de
linguagem de inteligência artificial ChatGPT
INFORMATION RETRIEVAL ON THE WEB: an experience with the ChatGPT artificial
intelligence language model
Patrícia Nascimento Silva1
¹Professora Adjunta no Departamento de
Organização e Tratamento da Informação na
Escola de Ciência da Informação (ECI) da
Universidade Federal de Minas Gerais (UFMG).
Professora no Programa de Pós-Graduação em
Gestão & Organização do Conhecimento
(PPGGOC) ECI/UFMG.
E-mail: patricians@ufmg.br
ACESSO ABERTO
Copyright:Esta obra está licenciada com uma
Licença Creative Commons Atribuição 4.0
Internacional.
Conflito de interesses: A autora declara que
não há conflito de interesses.
Financiamento: Não há.
Declaração de Disponibilidade dos dados:
Todos os dados relevantes estão disponíveis
neste artigo.
Recebido em: 3 mar. 2023.
Aceito em: 26 set. 2023.
Publicado em: 18 out. 2023.
Como citar este artigo:
NASCIMENTO SILVA, Patrícia. Recuperação de
informação na Web: uma experiência com o
modelo de linguagem de inteligência artificial
ChatGPT. Informação em Pauta, Fortaleza, v. 8,
p. 1-19, 2023. DOI: 10.36517/2525-
3468.ip.v8i0.2023.83566.1-19.
RESUMO
Recuperação de informação é um termo recente,
criado em 1951, contudo seu objetivo é almejado
milênios na sociedade. Com a evolução da
informática, na década de 1970, e
principalmente a criação da Web, em 1989, o
termo teve seu significado potencializado em
novos cenários. Os modelos clássicos de
recuperação de informação obtiveram
contribuições das técnicas de computação para
otimizar os resultados e dialogar com os
usuários, como proposto pelo modelo de
linguagem de inteligência artificial ChatGPT,
lançado em 2022. O objetivo deste relato foi
analisar a recuperação de informação na Web
com o ChatGPT. Para tanto, foi selecionado um
domínio: dados abertos, que é originalmente
diverso, e realizadas buscas exploratórias para
identificar as informações e objetos digitais
recuperados, em fevereiro de 2023. O modelo
utilizado no ChatGPT demonstrou uma
capacidade superior aos motores de busca da
Web, ao recuperar informações e recursos de
diferentes fontes e apresentá-las em um texto
organizado e coeso. No entanto, a falta de
referência às fontes utilizadas e de clareza sobre
questões éticas são problemas visualizados na
versão gratuita. Espera-se que com ajustes o
ChatGPT recupere diversos recursos na Web,
alcançando interoperabilidade com outros
sistemas, contribuindo com o intercâmbio de
dados em diversos domínios.
Palavras-chave: recuperação de informação;
inteligência artificial; ChatGPT; assistente
virtual; dados abertos.
Fortaleza, CE
v. 8
2023
ISSN 2525-3468
DOI: 10.36517/2525-3468.ip.v8i0.2023.83566.1-19
RELATO DE EXPERIÊNCIA
2
Inf. Pauta, Fortaleza, CE, v. 8, 2023 | ISSN 2525-3468
ABSTRACT
Information retrieval is a recent term, created in
1951, but its objective has been desired for
millennia in society. With the evolution of
information technology, in the 1970s, and
especially the creation of the Web, in 1989, the
term had its meaning enhanced in new
scenarios. The classic information retrieval
models obtained contributions from computing
techniques to optimize results and dialogue with
users, as proposed by the ChatGPT artificial
intelligence language model, launched in 2022.
The objective of this report was to analyze
information retrieval on the Web with ChatGPT.
For this purpose, a domain was selected: open
data, which is originally diverse, and exploratory
searches were carried out to identify the
information and digital objects recovered, in
February 2023. The model used in ChatGPT
demonstrated a superior capacity to web search
engines, by retrieving information and resources
from different sources and presenting them in
an organized and cohesive text. However, the
lack of reference to the sources used and clarity
on ethical issues are problems seen in the free
version. It is expected that, with adjustments,
ChatGPT will recover several resources on the
Web, achieving interoperability with other
systems, contributing to the exchange of data in
different domains.
Keywords: information retrieval; artificial
intelligence;ChatGPT;virtual assistant; open
data.
1 INTRODUÇÃO
A recuperação de informação é uma área da ciência da computação aplicada a
diversos domínios. Na ciência da informação, a temática trata da representação,
armazenamento, organização e acesso à informação, sempre considerando o contexto do
usuário. Apesar de o termo ter sido criado somente nos anos 1950, por Calvin Moores,
milênios as bibliotecas organizavam a informação com o objetivo de facilitar sua
recuperação.
Durante a década de 1970, vários modelos de recuperação de informação foram
propostos, se tornando base para os sistemas de informação da época. Contudo, além
dos modelos clássicos, evoluções foram percebidas com a criação dos modelos
dinâmicos, especialmente após a criação da Web, em 1989.
Na representação do processo de recuperação, a expressão de busca é o meio que
o usuário emprega para comunicar a sua necessidade informacional para o sistema de
informação, sendo composta por linguagem natural ou artificial. Ao utilizar uma
linguagem artificial é necessário que o usuário tenha conhecimento do tema de interesse
e do seu vocabulário de domínio (Ferneda, 2012).
Com isso, pensado em oferecer facilidades ao usuário, são cada vez mais comuns
sistemas que utilizam a linguagem natural para interação com usuário e tratam a
representação da busca no sistema, traduzindo a necessidade de informação do usuário.
Assistentes virtuais, ou chatbot, foram desenvolvidos para ter uma conversa com um
Nascimento Silva | Recuperação de informação na Web
3
Inf. Pauta, Fortaleza, CE, v. 8, 2023 | ISSN 2525-3468
humano, interagindo em um formato semelhante ao de mensagens instantâneas
(Queiroz; Valls, 2022). O uso de chatbots, associados a aplicativos de mensagens,
aumentou significativamente nos últimos anos e se popularizou em sistemas de
atendimento.
O ChatGPT é uma ferramenta recente, lançada em 30 de novembro de 2022, e tem
fomentado várias discussões entre usuários e pesquisadores. A ferramenta é
disponibilizada de forma gratuita, inicialmente, e possui mais de 100 milhões de
usuários ativos em dois meses, um recorde que supera o crescimento das redes sociais
mais famosas do mundo (Forbes, 2023). A proposta da ferramenta é construir textos,
códigos e outros recursos a partir de um modelo de linguagem de inteligência artificial,
baseado em uma pergunta do usuário, escrita em linguagem natural.
Esta pesquisa é um relato de experiência com orientação prática/tecnológica que
pretende responder a seguinte questão: Quais tipos de informação e recursos são
recuperados pela ferramenta ChatGPT? O objetivo do estudo é analisar a recuperação de
informação na Web com a ferramenta ChatGPT. Para tanto, foi selecionado um domínio e
definidos critérios de busca para analisar a ferramenta. Destaca-se que este relato de
experiência não é exaustivo e trata-se um estudo inicial, integrante de um projeto maior,
e justifica-se para apresentar a nova ferramenta à comunidade acadêmica e fomentar
novos estudos e possíveis aplicações no campo da ciência da informação.
2 MODELOS DINÂMICOS E LINGUAGEM NATURAL
Os modelos dinâmicos são alternativas promissoras e muito estudadas
recentemente que possibilitam ao usuário interagir e interferir diretamente no processo
de recuperação de informação. Baseado em técnicas oriundas da inteligência artificial,
oportuniza a evolução e adaptação da informação de acordo com os interesses de busca
do usuário e interações com o sistema (Baeza-Yates; Ribeiro-Neto, 2013)(Ferneda,
2003). Previamente, a inteligência artificial pode ser definida como uma área da ciência
da computação dirigida para a criação de soluções inteligentes de tecnologia conectadas
com a inteligência humana para resoluções de problemas, aprendizagem, compreensão e
raciocínio lógico (Barr; Feigenbaum, 1981).
4
Nascimento Silva | Recuperação de informação na Web
Inf. Pauta, Fortaleza, CE, v. 8, 2023 | ISSN 2525-3468
O Processamento da Linguagem Natural (PLN) é um conjunto de técnicas
computacionais para análise de textos em um ou mais níveis linguísticos, com o
propósito de simular o processamento humano da língua (Ferneda, 2012). Além disso, é
a área da inteligência artificial responsável por estudar a capacidade que uma máquina
tem de estender a linguagem dos seres humanos, por meio de diversos algoritmos
computacionais.
Uma das primeiras aplicações da linguagem natural em sistemas foi por meio das
questionanswering: sistemas que têm como objetivo fornecer informações precisas e
diretas respondendo a uma pergunta construída por um usuário. A ideia estava
compreendida no usuário escrever uma pergunta, e buscar em um conjunto de bases, a
resposta para tal. uma grande complexidade nesse processo, visto que é necessário
tratar a pergunta, e encontrar nela, o que o usuário está de fato buscando e,
posteriormente, utilizar PLN nos textos que podem conter a resposta, para tratar o que
será apresentado como resposta ao usuário. Em seguida foram desenvolvidos sistemas
tutores inteligentes: sistemas que utilizam diversos conceitos de PLN e constroem uma
“rede de conhecimentocom diversos fatos, relações e regras, que permitem ao sistema
realizar um diálogo com um indivíduo, sistemas de automação de tarefas: sistema que
auxiliam em tarefas administrativas e gerenciais de uma empresa, passando por
questões como agendamento de reuniões, compras de passagens aéreas e até detecção
de erros ortográficos, assistentes virtuais: sistemas que auxiliam as pessoas em tarefas
cotidianas, que vão desde realizar uma busca, mandar uma mensagem, verificar preços,
ou até mesmo realizar uma compra e sistemas de tradução automática: sistemas que
buscam a correspondência direta entre a língua original e a traduzida. Estas aplicações
também aplicam a inteligência artificial e o PLN em sistemas (Coneglian, 2020).
Modelos baseados na Web se configuraram como as primeiras máquinas de busca
e eram fundamentalmente sistemas de recuperação de informação cuja estratégia de
ranqueamento era baseada em modelos tradicionais. As diferenças estavam nas coleções
que eram compostas por páginas Web, e não mais em documentos, que precisavam ser
coletadas e pertenciam a coleções muito maiores. Com isso, cada palavra da consulta
recuperava muitas páginas com muitos documentos associados a um único resultado
(Baeza-Yates; Ribeiro-Neto, 2013). Conforme Ferneda (2003, p.15) “os sistemas de
recuperação de informação devem representar o conteúdo dos documentos do corpus e
apresentá-los ao usuário de uma maneira que lhe permita uma rápida seleção dos itens