PowerInfer est un moteur d'inférence LLM qui a pour objective d'optimiser au maximum l'inférence de modèle sur des machines à usage personnel.
Cet article est un aperçu rapide, si vous voulez en savoir plus, voici le github qui explique comment utiliser le moteur : https://github.com/SJTU-IPADS/PowerInfer
Ce modèle annonce des performances extraordinaires, de l'ordre de dix fois plus rapide que le moteur llama.
Dans un but d'optimisation, l'équipe qui travaille sur le moteur a décidé d'utiliser un design basé sur la notion de localité. Ce design permet de ne pas activer certains neurones et liaisons entre neurones basé sur leur utilisation, en employant deux concepts : la sparse activation qui a pour but de réduire le nombre de neurones activés et les hot/cold neurones dans le but de prédire les neurones actifs.
Voici un article intéressant sur la "sparse activation" : https://medium.com/geekculture/sparse-weight-activation-training-reduce-memory-and-training-time-in-machine-learning-8c0fad7d5def
L'implémentation de ces concepts permets d'augmenter grandement les performances du moteur d'inférence avec une dégradation des performances qui reste très limitée.
Si vous compilez powerinfer avec l'option qui va bien le moteur va répartir la charge entre le CPU et le GPU pour obtenir les meilleures performances possibles.
De même, avec le combo RAM / VRAM, le moteur va utiliser les deux mémoires pour pouvoir charger des modèles gros demandeur de mémoire. Bien évidemment, plus de VRAM est disponible, plus l'inférence sera performante. Une option est disponible pour limiter la consommation de VRAM si besoin.
Ce moteur d'inférence est actuellement compatible avec deux modèles :
L'équipe a annoncé supporter le modèle Mistral-7B dans le futur proche.
PowerInfer est testé et supporté sur les configurations suivantes :
A mon sens ce moteur d'inférence parait intéressant, selon les objectives pour lesquels il a était conçu : pouvoir inférer facilement et efficacement sur une machine locale avec du matériel accessible.
Ce n'est que le début du projet, les informations sur l'avancée du projet sont disponibles à ce lien : https://github.com/orgs/SJTU-IPADS/projects/2/views/2
Avec le développement de fonctionnalités, ce genre de moteur d'inférence pourrait permettre de démocratiser l'inférence en local sur des machines personnelles.
Pour aller plus loin, si vous aimez les documents de recherches, voici le whitepaper de PowerInfer : https://arxiv.org/abs/2312.12456
Get our best articles every month.
Père Castor, raconte-moi N8N N8N (prononcez « n-huit-n » ou « nodemation » si vous voulez faire classe). C'est un outil qui permet de connecter vos...
ArticleL'intelligence artificielle s'est invitée dans le quotidien des marketeurs à une vitesse record. En quelques mois, des outils comme ChatGPT,...
ArticleLe risque ? Créer une \"illusion de compétence\" tout en laissant les véritables lacunes stratégiques se creuser. La solution est pourtant simple et...
ArticleÀ lire avec la voix de Stallone : « plus de puces, plus de data, plus de milliards, le maître du monde ». Je viens de regarder le dernier numéro du...
ArticleSoyons clairs : si vous dirigez une organisation de taille significative aujourd'hui, la complexité des données—leur volume, leur vitesse de...
ArticleOn parle ici d'une transformation fondamentale, un changement de paradigme comparable à l'arrivée d'Internet ou de l'électricité dans l'industrie....