La Chine publie le premier grand modèle de langage d'IA pour la recherche sur les livres anciens

Illustration du grand modèle de langage de l’intelligence artificielle Xunzi Photo : njau.edu.cn

Une équipe de recherche universitaire de la province du Jiangsu, dans l’est de la Chine, a récemment publié le premier grand modèle linguistique (LLM) de Chine, un type d’algorithme d’intelligence artificielle (IA) qui utilise des techniques d’apprentissage profond et des ensembles de données massivement volumineux pour aider à mener des recherches sur les livres anciens chinois.

Le LLM pour les livres anciens a été conçu pour traiter intelligemment les textes anciens, promouvoir un développement innovant dans la recherche et la préservation des livres anciens chinois, améliorer l’efficacité et la qualité de l’héritage de la culture traditionnelle chinoise et faciliter une intégration profonde entre les LLM et le traitement des livres anciens. livres.

Le LLM « Xunzi », du nom de Xun Zi, l’un des philosophes les plus célèbres de la Chine ancienne pour son classique confucéen Xunzi, contient la grande majorité des livres et documents anciens chinois, y compris les collections de la « Bibliothèque complète en quatre sections » ou « Siku Quanshu », avec un corpus à grande échelle de plus de 2 milliards de caractères et de mots chinois.

La recherche sur les classiques traditionnels chinois est un travail minutieux et laborieux, même pour les universitaires et les experts, sans parler des apprenants moyens. Ainsi, traduire des textes anciens en chinois moderne est l’une de ses fonctions les plus importantes, a déclaré au Chine Direct Wang Dongbo, professeur du Collège de gestion de l’information de l’Université agricole de Nanjing à Nanjing, Jiangsu, qui a dirigé l’équipe de recherche.

Grâce au modèle, les chercheurs peuvent rapidement résumer les textes anciens et connaître les thèmes des livres anciens. Le modèle peut également extraire des informations clés des textes anciens, telles que des personnages, des événements et des lieux, pour trier les informations avec efficacité.

En outre, le modèle peut également générer automatiquement des poèmes anciens conformes aux règles de grammaire et de prosodie avec les invites que les utilisateurs lui donnent pour inspirer les amateurs de poésie. Il peut également traduire avec précision des textes anciens en chinois moderne pour aider les chercheurs à comprendre le sens et la connotation originale des textes anciens.

Dirigée par Wang Dongbo, professeur du Collège de gestion de l’information de l’Université agricole de Nanjing, Jiangsu, l’équipe de recherche travaille dans le domaine de la numérisation des livres et documents anciens depuis une décennie. Soutenue par la forte puissance de calcul de l’université et basée sur les scénarios d’application fournis par Zhonghua Book Company, l’équipe de recherche a réalisé le premier LLM open source de Chine pour les textes anciens en IA.

Le LLM a été publié sur des sites Web tels que github.com et modelscope.cn en tant que logiciel open source, permettant aux utilisateurs de le télécharger et de l’utiliser gratuitement.

« Nous avons formé Xunzi en utilisant du Big Data basé sur des livres anciens qui peuvent être obtenus gratuitement sur Internet, tout comme la manière dont OpenAI a formé ChatGPT. Même si nous y avons consacré beaucoup d’efforts, de main-d’œuvre et d’argent, nous le partageons toujours gratuitement dans le but d’encourager davantage de personnes à étudier et à prêter attention à la culture traditionnelle chinoise », a déclaré Wang.