✓
Rlama Download

Document AI question-answering CLI tool built with Go/Cobra connecting to local Ollama models for RAG systems, featuring web crawling, interactive wizard, directory/website watching, API server, advanced chunking strategies, vector storage, Hugging Face integration with 45,000+ GGUF models, and Apache 2.0 license.

⭐ 1,089 stars on GitHub

Latest Release: v0.1.39

About Software
About software content is created by automation system. If you want to complain, visit our complaint page.

RLAMA is a powerful AI-driven question-answering tool for documents, seamlessly integrating with local Ollama models. Enables creating, managing, and interacting with Retrieval-Augmented Generation (RAG) systems tailored to documentation needs. Note: Project temporarily paused due to work/university commitments. Vision: becoming definitive tool for creating local RAG systems for everyone. Completed features: basic RAG system creation via CLI, document processing with multiple formats (.txt, .md, .pdf, etc.), document chunking with advanced semantic strategies (fixed, semantic, hierarchical, hybrid), vector storage of document embeddings, context retrieval with basic semantic search and configurable context size, Ollama integration with seamless connection to models, cross-platform support (Linux/macOS/Windows), easy one-line installation, API server with HTTP endpoints for RAG capabilities integration, web crawling for creating RAGs from websites, guided RAG setup wizard with interactive interface, and Hugging Face integration accessing 45,000+ GGUF models from HuggingFace Hub.

Roadmap: Small LLM Optimization (Q2 2025) with prompt compression, adaptive chunking, minimal context retrieval, parameter optimization; Advanced Embedding Pipeline (Q2-Q3 2025) with multi-model embedding support, hybrid retrieval techniques, embedding evaluation tools, automated embedding cache; User Experience Enhancements (Q3 2025) with lightweight web interface, knowledge graph visualization, domain-specific templates; Enterprise Features (Q4 2025) with multi-user access control, enterprise system integration, knowledge quality monitoring, system integration API, AI agent creation framework; Next-Gen Retrieval Innovations (Q1 2026) with multi-step retrieval, cross-modal retrieval, feedback-based optimization, knowledge graphs & symbolic reasoning. Tech stack: Go for core language, Cobra for CLI, Ollama API for embeddings/completions, local filesystem-based storage (JSON files), custom cosine similarity for embedding retrieval. Architecture: cmd/ (CLI commands), internal/ (client/domain/repository/service), pkg/ (shared utilities). Data flow: Documents → Document Processing → Embedding Generation → Storage (~/.rlama) → Query (embedding comparison) → Response Generation. Prerequisites: Ollama installed and running. Installation via 'curl -fsSL https://raw.githubusercontent.com/dontizi/rlama/main/install.sh | sh'. Available commands: rag, crawl-rag, wizard, watch/watch-off, check-watched, web-watch/web-watch-off, check-web-watched, run, api, list, delete, list-docs, list-chunks, view-chunk, add-docs, crawl-add-docs, update-model, update, version, hf-browse, run-hf. Apache 2.0 license.

Use Cases:

Document AI question-answering tool connecting to local Ollama models for creating, managing, and interacting with RAG systems
CLI tool with Go/Cobra featuring web crawling (crawl-rag), interactive wizard setup, directory/website watching, API server, document management
Advanced chunking strategies (fixed, semantic, hierarchical, hybrid), vector storage with cosine similarity, multi-format support (.txt, .md, .pdf)
Hugging Face integration accessing 45,000+ GGUF models, adaptive chunking for small LLMs, minimal context retrieval, embedding pipeline
Installation via curl one-liner, architecture with cmd/internal/pkg, data flow: document processing → embedding generation → storage → query/response

Downloads

v0.1.39 May 24, 2025

rlama_windows_amd64.exeexe