GPT-4o: Modelo Omni AI da OpenAI - Detalhes e caraterísticas

Na segunda-feira, 13 de maio de 2024, a OpenAI anunciou o lançamento do seu novo modelo principal, GPT-4o, em que o "o" significa "omni". O GPT-4o é um modelo avançado de IA multimodal para interações de texto, áudio e visão em tempo real, oferecendo um processamento mais rápido, suporte multilingue e maior segurança.

Está a trazer para a mesa capacidades de IA generativa nunca antes vistas. Com base nos pontos fortes de conversação do ChatGPT, as funcionalidades do GPT-4o marcam um avanço substancial na forma como as pessoas encaram a IA. Agora podemos falar com o GPT-4o como se fosse uma pessoa real. Vamos mergulhar e ver exatamente do que o GPT-4o é capaz!

Conhecer a GPT-4o

Na atualização de primavera da OpenAI, foi revelado que, embora o GPT-4o seja tão inteligente como o GPT-4, pode processar dados mais rapidamente e está melhor equipado para lidar com texto, visão e áudio. Ao contrário de versões anteriores que se concentraram em tornar os modelos mais inteligentes, esta versão foi feita tendo em conta a necessidade de tornar a IA mais fácil de utilizar pelo público em geral.

__wf_reserved_inherit — Figura 1. Atualização da primavera da OpenAI

O modo de voz do ChatGPT, que foi lançado no final do ano passado, envolvia três modelos diferentes que se juntavam para transcrever entradas vocais, compreender e gerar respostas escritas e converter texto em voz para que o utilizador pudesse ouvir uma resposta. Este modo tinha problemas de latência e não parecia muito natural. O GPT-4o pode processar nativamente texto, visão e áudio de uma só vez para dar ao utilizador a impressão de que está a participar numa conversa natural.

Além disso, ao contrário do modo de voz, agora pode interromper o GPT-4o enquanto ele está a falar, e ele vai reagir tal como uma pessoa faria. Faz uma pausa e ouve, e depois dá a sua resposta em tempo real com base no que disse. Também pode expressar emoções através da sua voz e compreender o seu tom.

Caraterísticas interessantes do GPT-4o

A avaliação do modelo do GPT-4o mostra o quão avançado ele é. Um dos resultados mais interessantes encontrados foi o facto de o GPT-4o melhorar muito o reconhecimento da fala em comparação com o Whisper-v3 em todas as línguas, especialmente naquelas que são menos utilizadas.

O desempenho do ASR (Reconhecimento Automático de Fala) de áudio mede a precisão com que um modelo transcreve a linguagem falada para texto. O desempenho do GPT-4o é monitorizado pela Taxa de Erro de Palavras (WER), que mostra a percentagem de palavras incorretamente transcritas (WER inferior significa melhor qualidade). O gráfico abaixo mostra o WER mais baixo do GPT-4o em várias regiões, demonstrando a sua eficácia na melhoria do reconhecimento de voz para línguas com menos recursos.

Aqui está um olhar para mais algumas das caraterísticas únicas do GPT-4o:

Mais rápido - É duas vezes mais rápido que o GPT-4 Turbo. Pode responder a entradas de áudio em apenas 232 milissegundos, semelhante aos tempos de resposta de conversas humanas.
‍
Custo-benefício - A versão API do GPT-4o é 50% mais barata que o GPT-4 Turbo.
‍
Memória - O GPT-4o tem a capacidade de manter a consciência em diferentes conversas. Consegue lembrar-se do que está a falar em diferentes conversas.
‍
Multilingue - O GPT-4o foi treinado para melhorar a velocidade e a qualidade em 50 línguas diferentes.

Exemplos do que o GPT-4o pode fazer

Agora pode usar o GPT-4o no seu telemóvel, ligar a câmara e pedir ao GPT-4o, tal como faria a um amigo, para adivinhar o seu estado de espírito com base na sua expressão facial. O GPT-4o pode vê-lo através da câmara e responder.

Pode até utilizá-lo para o ajudar a resolver problemas de matemática, mostrando ao GPT-4o o que está a escrever através de vídeo. Em alternativa, pode partilhar o seu ecrã e este pode tornar-se um tutor útil na Khan Academy, pedindo-lhe que aponte as diferentes partes de um triângulo em geometria, como se mostra abaixo.

Para além de ajudar as crianças com a matemática, os programadores podem ter conversas com o GPT-4o para depurar o seu código. Isto é possível graças à introdução do ChatGPT como uma aplicação de ambiente de trabalho. Se realçar e copiar o seu código utilizando CTRL "C" enquanto fala com a aplicação de voz GPT-4o para ambiente de trabalho, esta será capaz de ler o seu código. Ou pode utilizá-lo para traduzir conversas entre programadores que falam línguas diferentes.

As possibilidades com o GPt-4o parecem infinitas. Uma das demonstrações mais interessantes da OpenAI utilizou dois telemóveis para mostrar o GPt-4o a falar com diferentes instâncias de si próprio e a cantar em conjunto.

Aplicações GPT-4o

Como demonstrado numa demonstração, o GPT-4o pode tornar o mundo mais acessível para pessoas com deficiências visuais. Pode ajudá-las a interagir e a deslocarem-se de forma mais segura e independente. Por exemplo, os utilizadores podem ligar o seu vídeo e mostrar ao GPT-4o uma vista da rua. O GPT-4o pode então fornecer descrições em tempo real do ambiente, como a identificação de obstáculos, a leitura de sinais de trânsito ou a orientação para um local específico. Pode até ajudá-los a chamar um táxi, alertando-os quando um táxi se aproxima.

Do mesmo modo, a GPT-4o pode transformar vários sectores com as suas capacidades avançadas. No comércio retalhista, pode melhorar o serviço ao cliente, fornecendo assistência em tempo real, respondendo a perguntas e ajudando os clientes a encontrar produtos tanto online como na loja. Digamos que está a olhar para uma prateleira de produtos e não consegue escolher o produto que procura, o GPT-4o pode ajudá-lo.

No sector da saúde, o GPT-4o pode ajudar no diagnóstico, analisando os dados do paciente, sugerindo possíveis doenças com base nos sintomas e oferecendo orientação sobre as opções de tratamento. Também pode apoiar os profissionais médicos resumindo os registos dos pacientes, fornecendo acesso rápido à literatura médica e até mesmo oferecendo tradução linguística em tempo real para comunicar com pacientes que falam línguas diferentes. Estes são apenas alguns exemplos. As aplicações da GPT-4o facilitam a vida quotidiana, oferecendo uma assistência adaptada e contextualizada e eliminando as barreiras à informação e à comunicação.

GPT-4o e segurança do modelo

Tal como as versões anteriores do GPT, que tiveram impacto em centenas de milhões de vidas, o GPT-4o irá provavelmente interagir com áudio e vídeo em tempo real a nível global, tornando a segurança um elemento crucial nestas aplicações. A OpenAI teve o cuidado de construir o GPT-4o com o objetivo de reduzir os riscos potenciais.

Para garantir a segurança e a fiabilidade, a OpenAI implementou medidas de segurança rigorosas. Estas incluem a filtragem de dados de treino, o refinamento do comportamento do modelo após o treino e a incorporação de novos sistemas de segurança para gerir as saídas de voz. Além disso, o GPT-4o foi extensivamente testado por mais de 70 especialistas externos em áreas como a psicologia social, parcialidade e justiça, e desinformação. Os testes externos garantem que quaisquer riscos introduzidos ou ampliados pelas novas funcionalidades são identificados e tratados.

Para manter elevados padrões de segurança, a OpenAI está a lançar as funcionalidades do GPT-4o gradualmente ao longo das próximas semanas. Um lançamento faseado permite à OpenAI monitorizar o desempenho, resolver quaisquer problemas e recolher feedback dos utilizadores. A adoção de uma abordagem cuidadosa garante que o GPT-4o fornece capacidades avançadas, mantendo os mais elevados padrões de segurança e utilização ética.

Experimente o GPT-4o você mesmo

O GPT-4o está disponível para acesso gratuito. Para experimentar as capacidades de conversação em tempo real mencionadas acima, pode descarregar a aplicação ChatGPT da Google Play Store ou da Apple App Store diretamente para o seu telemóvel.

Depois de iniciar a sessão, pode selecionar o GPT-4o na lista apresentada tocando nos três pontos no canto superior direito do ecrã. Depois de navegar para um chat ativado com GPT-4o, se tocar no sinal de mais no canto inferior esquerdo do ecrã, verá várias opções de entrada. No canto inferior direito do ecrã, verá um ícone de auscultadores. Ao selecionar o ícone dos auscultadores, ser-lhe-á perguntado se deseja experimentar uma versão mãos-livres do GPT-4o. Depois de concordar, poderá experimentar o GPT-4o, como mostrado abaixo.

Se quiser integrar as capacidades avançadas do GPT-4o nos seus próprios projectos, este está disponível como uma API para programadores. Permite-lhe incorporar o poderoso reconhecimento de voz do GPT-4o, o suporte multilingue e as capacidades de conversação em tempo real nas suas aplicações. Ao utilizar a API, pode melhorar as experiências do utilizador, criar aplicações mais inteligentes e levar a tecnologia de IA de ponta a diferentes sectores.

GPT-4o: Ainda não é totalmente humano

Embora o GPT-4o seja muito mais avançado do que os modelos anteriores de IA, é importante lembrar que o GPT-4o tem as suas próprias limitações. A OpenAI mencionou que, por vezes, pode mudar aleatoriamente de língua enquanto fala, passando do inglês para o francês. Também já viram o GPT-4o traduzir incorretamente entre línguas. À medida que mais pessoas experimentarem o modelo, perceberemos em que é que o GPT-4o se destaca e em que é que precisa de ser melhorado.

O resultado final

O GPT-4o da OpenAI abre novas portas para a IA com o seu processamento avançado de texto, visão e áudio, oferecendo interações naturais e semelhantes às humanas. Destaca-se em termos de velocidade, eficiência de custos e suporte multilingue. O GPT-4o é uma ferramenta versátil para a educação, acessibilidade e assistência em tempo real. À medida que os utilizadores exploram as capacidades do GPT-4o, o feedback irá impulsionar a sua evolução. O GPT-4o prova que a IA está realmente a mudar o nosso mundo e a tornar-se parte da nossa vida quotidiana.

Explore o nosso repositório GitHub e junte-se à nossa comunidade para mergulhar mais fundo na IA. Visite as nossas páginas de soluções para ver como a IA está a transformar indústrias como o fabrico e a agricultura.

O GPT-4o da OpenAI mostra o potencial da IA

Conhecer a GPT-4o

Caraterísticas interessantes do GPT-4o

Exemplos do que o GPT-4o pode fazer

Aplicações GPT-4o

GPT-4o e segurança do modelo

Experimente o GPT-4o você mesmo

GPT-4o: Ainda não é totalmente humano

O resultado final

Ler mais nesta categoria

Explorar o Google Beam: uma ferramenta de videoconferência 3D de última geração

Como a visão por computador nos jardins zoológicos pode melhorar o tratamento dos animais

Visão computacional em geologia: Redefinindo a ciência da terra

Vamos construir juntos o futuro
da IA!

O GPT-4o da OpenAI mostra o potencial da IA

Conhecer a GPT-4o

Caraterísticas interessantes do GPT-4o

Exemplos do que o GPT-4o pode fazer

Aplicações GPT-4o

GPT-4o e segurança do modelo

Experimente o GPT-4o você mesmo

GPT-4o: Ainda não é totalmente humano

O resultado final

Ler mais nesta categoria

Explorar o Google Beam: uma ferramenta de videoconferência 3D de última geração

Como a visão por computador nos jardins zoológicos pode melhorar o tratamento dos animais

Visão computacional em geologia: Redefinindo a ciência da terra

Vamos construir juntos o futuro da IA!

Vamos construir juntos o futuro
da IA!