Ollama#

Ollama est une plateforme open-source qui vous permet d’exécuter et de personnaliser de grands modèles de langage (LLM) sur votre machine locale. Voici comment cela fonctionne :

Bibliothèque de modèles#

Ollama prend en charge divers modèles, notamment Llama 3, Mistral, Gemma, etc. Vous pouvez les télécharger et les exécuter localement. Par exemple :

  • Llama 3 (8B) : Réponses créatives et cohérentes.

  • Mistral (7B) : Adapté aux applications de chat neuronal.

  • Gemma (2B) : Un modèle plus petit pour des réponses plus rapides.

Et d’autres comme Phi 3, Moondream et Starling.

Personnalisation#

Vous pouvez personnaliser les modèles à l’aide de prompts. Par exemple, ajuster la température (plus élevée pour la créativité, plus basse pour la cohérence) ou définir un message système. Ollama prend également en charge l’importation de modèles depuis GGUF, PyTorch ou Safetensors.

Exécution des modèles#

Utilisez l’interface en ligne de commande (CLI) pour exécuter les modèles. Par exemple :

$ollama run llama3

Assurez-vous d’avoir suffisamment de RAM (au moins 8 Go) pour les modèles plus grands.

Prise en charge Docker#

Ollama propose une image Docker officielle pour un déploiement facile.