28 mars5 min de lecture

OpenAI fait évoluer ChatGPT vers une version audio, offrant ainsi une nouvelle dimension à son agent conversationnel

En 2018, OpenAI a lancé le projet ChatGPT avec pour objectif de créer un modèle de langage avancé capable de comprendre et de produire du texte de manière conversationnelle et fluide. Depuis un an, ce service rencontre un succès mondial, attirant en moyenne plus de 13 millions de visiteurs uniques par jour. En septembre 2023, OpenAI a annoncé plusieurs mises à jour, dont la plus notable est l'introduction d'une version audio de ChatGPT, offrant ainsi aux utilisateurs de nouveaux canaux pour interagir avec cette technologie.

-Découvrez tout ce qu'il faut savoir sur ChatGPT, le chatbot propulsé par l'intelligence artificielle.

OpenAI, une entreprise établie à San Francisco, en Californie, et fondée en 2015 par Sam Altman, se spécialise dans la recherche en Intelligence Artificielle (IA). S'appuyant sur les avancées en Deep Learning et en Traitement Automatique du Langage Naturel (NLP), ses équipes ont œuvré pour développer un agent capable de simuler des conversations humaines.

La première version, GPT-1, dévoilée en 2018, a marqué un tournant dans la capacité des machines à générer du texte cohérent en réaction à divers types de requêtes. Les versions ultérieures, GPT-2 en 2019 et GPT-3 en 2020, ont ensuite renforcé l'efficacité de cette IA.

- ChatGPT-4, la version qui propulse l'assistant à l'échelle mondiale

Il s'agit là d'un des modèles de langage les plus avancés et sophistiqués, dévoilé au début de l'année 2023. GPT-4 est équipé d'un réseau de neurones alimenté par 100 000 milliards de paramètres. Selon ses concepteurs, "GPT-4 est 82 % moins susceptible de répondre aux demandes de contenu non autorisé et 40 % plus susceptible de produire des réponses factuelles".

Lors du premier Devday le 6 novembre, une conférence spécialement dédiée aux développeurs, la société dirigée par Sam Altman a annoncé le lancement prochain de GPT-4 Turbo. Doté d'une capacité accrue, il peut traiter une fenêtre contextuelle de 128 000 tokens, soit quatre fois la taille de GPT-4. Cela équivaut à environ 300 pages, soit la taille de livres célèbres tels que Harry Potter à l'école des sorciers de J.K. Rowling ou I, Robot d'Isaac Asimov.

-Appréhender le mécanisme de l'Intelligence Artificielle de GPT.

Le fonctionnement de l'Intelligence Artificielle de GPT, ou "Generative Pre-trained Transformer", repose sur un réseau de neurones artificiels appelé Transformer. Ce réseau est conçu pour traiter des données séquentielles en prenant en compte le contexte global de la séquence.

Pour apprendre la structure du langage, l'algorithme est entraîné sur de vastes ensembles de données textuelles. Il utilise ensuite des blocs d'encodeurs et de décodeurs pour capturer le contexte global. L'apprentissage supervisé consiste à fournir des exemples de données étiquetées afin d'ajuster les poids du réseau, qui sont ensuite optimisés pour minimiser les erreurs et améliorer les performances.

-OpenAI enrichit ChatGPT de nouvelles capacités grâce à l'audio.

Les équipes dirigées par Sam Altman ont introduit de nouvelles fonctionnalités pour améliorer l'interaction avec le chatbot. À présent, non seulement il peut voir, mais il peut aussi parler et entendre.

-Quelles sont les capacités de la nouvelle version de ChatGPT-4 ?

La toute dernière version de ChatGPT-4, le système de conversation artificielle, offre des capacités étendues. Il est désormais capable de traiter des entrées multimodales, ce qui signifie qu'il peut prendre en charge du texte, des images ou du son, et produire des réponses adaptées dans le même mode ou un mode différent. Il peut commenter une image, générer une image à partir d'une description textuelle ou transcrire un fichier audio et en tirer une rédaction.

Cette nouvelle version peut également gérer des entrées et des sorties plus longues et plus complexes, allant jusqu'à 25 000 mots. Plus fiable et plus créatif, il est capable de comprendre des instructions plus nuancées que ses prédécesseurs. Une autre avancée majeure est que l'outil est désormais alimenté par des données récentes, contrairement aux versions précédentes qui utilisaient des données antérieures à 2021. Ainsi, il peut désormais parcourir le web pour proposer des informations issues d'articles actuels.

Selon OpenAI, cette version est également plus sûre et plus éthique, car elle a été entraînée avec des données plus diversifiées et est équipée de mécanismes de filtrage et de modération pour éviter de produire des contenus offensants, trompeurs ou dangereux. Cependant, cette version demeure la plus secrète jamais sortie, ce qui rend difficile l'obtention d'informations permettant une évaluation objective de ses capacités et performances.

Comment l'Intelligence Artificielle donne-t-elle une voix à ChatGPT ?

La mise au point des fonctionnalités audio de ChatGPT repose sur deux modèles distincts. Tout d'abord, Whisper, son outil open source de reconnaissance vocale, convertit les paroles entendues en contenu textuel avant de les transmettre au chatbot. Ensuite, un nouveau modèle de synthèse vocale transforme les réponses de ChatGPT en mots parlés.

Ce dernier est capable de générer un son humain à partir d'un texte et d'un échantillon vocal de quelques secondes seulement. Il propose cinq voix synthétiques très réalistes, chacune développée en collaboration avec des professionnels du métier de comédien. Cet outil est également utilisé par d'autres entreprises telles que Spotify, qui l'utilise par exemple pour traduire certains de ses podcasts dans différentes langues.

Quelles sont les possibilités offertes aux utilisateurs grâce à la fonction audio de ChatGPT ?

Grâce à la puissance de GPT-4, l'assistant est capable d'engager des conversations orales naturelles avec les utilisateurs. Il peut ainsi raconter des histoires originales à partir de quelques instructions ou suggestions. De plus, il peut aider à la rédaction ou à l'amélioration de contenu en réagissant aux retours verbaux de l'utilisateur. Comme un véritable assistant virtuel, il peut également raconter des blagues, réciter des poèmes, répondre à des questions et même donner son avis.

Comment accéder aux nouvelles fonctionnalités du service d'OpenAI ?

Les nouvelles fonctionnalités sont d'abord disponibles pour les abonnés ChatGPT Plus et Enterprise via l'application mobile Android et iOS. Pour utiliser la fonction vocale, il suffit de se rendre dans les paramètres de l'application et d'activer les "nouvelles fonctionnalités". Ensuite, en appuyant sur le bouton du casque (situé dans le coin supérieur droit de l'écran d'accueil), l'utilisateur peut sélectionner sa voix préférée.

Il est également à noter que Bing Chat de Microsoft est également compatible avec GPT-4. Ainsi, les fonctionnalités peuvent être utilisées gratuitement avec une limite quotidienne via le service Microsoft Edge ou l'application Bing sur Android ou iOS. Une extension Chrome est également disponible, permettant de consulter les réponses de Bing Chat à côté des résultats de recherche de Google.

L'Intelligence Artificielle est désormais omniprésente dans notre quotidien, influençant le développement technologique et économique dans presque tous les secteurs d'activité. Elle ouvre également de nombreuses opportunités de carrière. IA school forme ainsi les futurs experts en sciences de l'IA et de la Data à travers des cursus complets. Avec ces formations, les étudiants acquièrent une maîtrise des outils techniques et

Une formation
d'un monde qui change

contact@bi-geek.net

(+216) 58 611 283

OpenAI fait évoluer ChatGPT vers une version audio, offrant ainsi une nouvelle dimension à son agent conversationnel

Posts récents

Comments

Formulaire d'abonnement