Pesquisa semântica
Descubra o poder da pesquisa semântica! Saiba como a IA, a PNL e o ML melhoram a precisão da pesquisa ao compreender a intenção e o contexto do utilizador.
A pesquisa semântica representa um avanço significativo na recuperação de informação, indo além da simples correspondência de palavras-chave para compreender a intenção e o significado contextual por detrás das consultas dos utilizadores. Em vez de se limitar a procurar ocorrências literais de palavras, a pesquisa semântica utiliza técnicas de Inteligência Artificial (IA), nomeadamente do Processamento de Linguagem Natural (PLN), para compreender as nuances da linguagem, as relações entre palavras e o objetivo subjacente do utilizador. Isto permite que os sistemas de pesquisa forneçam resultados mais relevantes e precisos, interpretando o que o utilizador pretende encontrar, em vez de apenas os termos específicos que digitou. É um componente essencial para tornar as interações com os sistemas de informação, desde a pesquisa na Web até às bases de dados internas, mais naturais e intuitivas, melhorando fundamentalmente a eficácia da recuperação de informações.
Como funciona a pesquisa semântica
Na sua essência, a pesquisa semântica utiliza conceitos de PNL e aprendizagem automática (ML) para decifrar o significado incorporado no texto ou noutros tipos de dados. O processo envolve muitas vezes a conversão de dados (como palavras, frases, documentos ou mesmo imagens) em representações numéricas denominadas " embeddings". Estas incorporações, normalmente vectores de elevada dimensão, captam a essência semântica dos dados. Os itens com significados, conceitos ou contextos semelhantes são posicionados mais próximos uns dos outros neste espaço vetorial.
Quando um utilizador efectua uma pesquisa, a sua consulta (que pode ser um texto em linguagem natural, uma imagem, etc.) é também convertida num embedding utilizando o mesmo modelo de ML. O sistema emprega então técnicas de pesquisa vetorial, muitas vezes alimentadas por bases de dados vectoriais especializadas como Pinecone ou Milvus, para encontrar eficientemente itens no seu índice cujas incorporações são mais próximas (mais semelhantes) à incorporação da consulta. Esta semelhança é normalmente medida utilizando métricas de distância como a semelhança cosseno ou a distância euclidiana. Os modelos avançados de aprendizagem profunda (DL), incluindo arquitecturas como os transformadores (por exemplo, BERT), são frequentemente utilizados para gerar estas poderosas incorporações sensíveis ao contexto. Há anos que os principais motores de pesquisa, como a Pesquisa Google, incorporam a compreensão semântica para melhorar a qualidade dos resultados para além da simples frequência de palavras-chave.
Aplicações da pesquisa semântica
A pesquisa semântica melhora várias aplicações em que é crucial compreender a intenção do utilizador ou o contexto dos dados:
- Pesquisa Web melhorada: Ir além das palavras-chave para compreender o tópico e a intenção por detrás de uma pesquisa (por exemplo, pesquisar "melhor local para ver as luzes do norte no inverno" produz resultados sobre locais específicos e horas ideais, e não apenas páginas que contêm essas palavras exactas).
- Descoberta de produtos no comércio eletrónico: Permitir que os utilizadores procurem produtos utilizando linguagem descritiva e natural (por exemplo, encontrar "sapatos confortáveis para estar de pé todo o dia" em vez de precisarem de conhecer marcas ou nomes de produtos específicos). Esta opção integra-se frequentemente em sistemas de recomendação.
- Gestão do conhecimento interno: Permitir que os funcionários de uma organização encontrem documentos, relatórios ou conhecimentos relevantes através de pesquisas baseadas em conceitos e significados, melhorando o acesso à informação em ferramentas como o Ultralytics HUB.
- Chatbots de apoio ao cliente: Potenciar os chatbots e os assistentes virtuais para compreender melhor as perguntas dos utilizadores e fornecer respostas mais precisas ou artigos de ajuda relevantes, muitas vezes tirando partido de grandes modelos de linguagem (LLM).
- Recomendação de conteúdo: Sugerir artigos, vídeos ou música com base na semelhança semântica com o conteúdo com que o utilizador interagiu anteriormente. Plataformas como o Spotify utilizam conceitos semelhantes.
- Exploração de dados: Ferramentas como o Ultralytics Explorer Dashboard podem utilizar a semelhança semântica para ajudar os utilizadores a navegar e a compreender grandes conjuntos de dados, incluindo conjuntos de dados de imagens utilizados na visão computacional (CV). Por exemplo, encontrar imagens semanticamente semelhantes a uma imagem selecionada num conjunto de dados como o COCO.
Pesquisa semântica vs. conceitos relacionados
É útil distinguir a pesquisa semântica dos termos relacionados:
- Pesquisa por palavra-chave: Esta abordagem tradicional faz corresponder as palavras ou frases literais de uma consulta a documentos que contêm esses termos exactos. Falta-lhe a compreensão dos sinónimos, do contexto ou da intenção do utilizador. A pesquisa semântica tem como objetivo ultrapassar estas limitações.
- Pesquisa vetorial: Este é um método utilizado para encontrar itens semelhantes com base na proximidade das suas incorporações vectoriais. Embora a pesquisa vetorial seja um componente central de muitas implementações modernas de pesquisa semântica (tratando da parte da recuperação eficiente), a pesquisa semântica é o conceito mais amplo que inclui a compreensão do significado e do contexto da consulta e dos dados em primeiro lugar, muitas vezes através de modelos sofisticados de PNL.
- Gráfico de conhecimento: Um gráfico de conhecimento estrutura a informação como entidades e relações. Embora possa melhorar significativamente a pesquisa semântica, fornecendo um contexto estruturado e permitindo um raciocínio complexo(as consultas SPARQL são comuns neste caso), a pesquisa semântica também pode funcionar diretamente em dados não estruturados utilizando incorporações sem uma estrutura gráfica explícita. Trata-se de tecnologias complementares.
- Reconhecimento de entidades nomeadas (NER): O NER identifica entidades específicas (como nomes, locais, organizações) no texto. Pode ser um passo num pipeline de PNL que alimenta a pesquisa semântica através da extração de conceitos-chave, mas não é a pesquisa semântica em si, que se centra no significado geral e na semelhança.
A pesquisa semântica desempenha um papel vital na criação de sistemas de IA mais inteligentes e fáceis de utilizar, colmatando a lacuna entre a linguagem humana e a compreensão da máquina para um acesso à informação e uma interação mais eficazes em vários domínios, desde as pesquisas quotidianas na Web até às aplicações de IA especializadas, como as construídas utilizando os modelos Ultralytics YOLO para pesquisa ou análise visual no Ultralytics HUB.