Photo: VCG

Photo : VCG

De nombreux passionnés d'IA ont passé une autre nuit blanche alors qu'OpenAI a annoncé lundi un nouveau modèle phare qui fait vibrer les professionnels de l'industrie. Ce modèle peut traduire plus de 50 langues en temps réel, et il est également plus « humain » – avec des temps de réponse désormais comparables à ceux des humains. De plus, il peut chanter, reconnaître les émotions et fournir aux utilisateurs des « valeurs émotionnelles » encore meilleures que celles des humains.

Dans l'annonce, OpenAI a déclaré que le nouveau modèle GPT-4o fournit une intelligence de niveau GPT-4 mais qu'il est beaucoup plus rapide et que des améliorations ont été apportées à ses capacités en matière de texte, de voix et de vision.

Lorsque le Chine Direct a demandé sur OpenAI ce que GPT-4o pouvait faire, le modèle le plus récent donne la réponse suivante : « Voici quelques fonctionnalités clés de GPT-4o telles que la compréhension et la génération du langage naturel : GPT-4o excelle dans la compréhension et la génération de langages humains. comme du texte, lui permettant de tenir des conversations, de répondre à des questions et de fournir des explications détaillées. » Le GPT-4o est particulièrement meilleur en termes de compréhension visuelle et audio par rapport à tous les modèles existants, a indiqué la société.

Le nouveau modèle, adorablement surnommé par les internautes « assistant personnel numérique », peut engager des conversations parlées en temps réel. Par exemple, lors de la démonstration de lundi, les dirigeants d'OpenAI lui ont demandé de résoudre un problème de mathématiques et de raconter une histoire au coucher avec différents niveaux de « drame » dans la voix. Le modèle a accompli les tâches de manière convaincante.

L'IA a ensuite raconté l'histoire avec une voix de robot stéréotypée, comme l'exigeaient les dirigeants, puis de nouveau d'une manière chantée qui a fait rire tout le monde.

L'ensemble du processus de communication s'est déroulé de manière fluide et naturelle, comme parler avec un être humain. À un moment donné, en entendant le souffle haletant d'un cadre, GPT-4o lui a dit de « se calmer », tout en plaisantant : « Vous n'êtes pas un vide ». nettoyeur. »

Mira Murati, directrice de la technologie d'OpenAI, a déclaré que la version mise à jour de ChatGPT aura désormais également des capacités de mémoire, ce qui signifie qu'elle pourra apprendre des conversations précédentes avec les utilisateurs et effectuer des traductions en temps réel, a rapporté CNN. Selon l'entreprise, l'outil prend désormais en charge plus de 50 langues.

Certains internautes sur la plateforme des réseaux sociaux X ont partagé une démo de GPT-4o montrant des étudiants partageant l'écran de leur iPad avec le nouveau GPT-4o, l'IA parlant avec eux et les aidant à apprendre en temps réel.

« Imaginez donner ça à tous les étudiants du monde », a déclaré un internaute. « L'avenir est tellement brillant. »

Un habitant de Pékin du nom de Chen a déclaré mardi au Chine Direct, alors qu'il essayait le nouveau modèle tôt le matin, que « la partie la plus impressionnante était la démonstration en direct. Au cours de la conversation vocale avec GPT-4o, trois personnes l'ont interrompu au hasard, mais GPT -4o a répondu extrêmement rapidement et avec un ton très riche, c'était comme discuter avec un humain.

Étant donné que beaucoup de ses amis travaillent dans le domaine de la traduction et de l'interprétation, Chen a déclaré, un peu inquiétant : « GPT-4o a également servi de traducteur en temps réel lors de l'événement, traduisant de manière transparente entre l'italien et l'anglais. bientôt sans emploi. »

Shen Yang, professeur étudiant l'IA et les médias à l'Université Tsinghua de Pékin, a déclaré mardi au Chine Direct que l'objectif principal de cette mise à niveau est d'élargir la base d'utilisateurs d'OpenAI en collaborant avec Siri de l'iPhone, afin que sa base d'utilisateurs puisse, espérons-le, s'étendre du 100 millions d'utilisateurs actifs hebdomadaires actuels à un milliard.

« Cette mise à niveau marque un passage de la simulation de la conscience à la simulation de la vie, en mettant l'accent sur les voix, les images et les éléments visuels. De plus, il existe un potentiel de marché important dans les dispositifs matériels intégrant l'IA, où GPT-4o jouera un rôle dans une meilleure compréhension du monde », a déclaré Shen.

Pour l’IA, les aspects les plus importants sont ses capacités de raisonnement et d’intelligence, selon l’expert. Shen estime que le nouveau modèle « équivaut désormais à un niveau de doctorat » en termes de capacités de résolution de problèmes. En termes de traitement d'image, les améliorations sont tout à fait notables, notamment une meilleure cohérence de l'image, une réduction des illusions d'IA et une meilleure intégration des scènes de texte et d'image.

« Je pense qu'il existe effectivement un fossé entre la Chine et les Etats-Unis. [in terms of AI technology], et j'ai toujours insisté sur ce point », a déclaré Zhou Hongyi, fondateur et président de 360 ​​Security Technology, au Chine Direct dans une interview précédente. « Ce n'est qu'en reconnaissant l'écart que nous pourrons savoir comment rattraper notre retard. Si vous n’admettez pas qu’il y a un écart et pensez que nous sommes tous très en avance, il n’y a aucune chance de rattraper notre retard. »

Cependant, Zhou a déclaré que la principale différence entre la Chine et les États-Unis en matière d'IA réside dans « la détermination de la direction technique », mais une fois que la direction sera déterminée, avec le fort avantage de la Chine dans ses capacités d'apprentissage rapide, l'écart sera réduit d'ici un ou deux ans. . L'année 2024 pourrait devenir « l'année d'application » pour la Chine dans le domaine de l'IA, a noté M. Zhou.

A lire également