Système d'assistance vocal personnel

JARVIS

L'intelligence artificielle locale. Aucun cloud. Aucune limite.

SYSTÈME EN LIGNE| RTX 4070 SUPER| 100% LOCAL| ~2s LATENCE

Capacités

Tout tourne sur votre machine — rien ne sort de votre réseau.

Vocal natif

Wake word « Jarvis » détecté localement via OpenWakeWord. Transcription Faster-Whisper — précision native français, aucune donnée transmise.

pour le code
wake_word.py

OpenWakeWord

# détection wake word locale, 0 latence réseau
from openwakeword import Model

model = Model(wakeword_models=["jarvis"])

while listening:
    chunk = mic.read(1280)
    score = model.predict(chunk)["jarvis"]
    if score > 0.5:
        stt.transcribe(buffer, lang="fr")

57 actions locales

57 intents reconnus par regex en ~10ms — sans LLM. Ouvrir Chrome sur l'écran 2, jouer Spotify, entourer un élément, générer une image… tout s'exécute en local instantanément.

pour le code
intents.py · regex 8-12ms

57 patterns compilés

# un parmi 57 — match en O(1), zero LLM
INTENT_OPEN_APP = re.compile(
  r"^(ouvre|lance)\s+(?P<app>[\w ]+?)"
  r"(?:\s+(?:sur|en)\s+(?P<loc>.+))?$",
  re.IGNORECASE
)

if m := INTENT_OPEN_APP.match(text):
    dispatch(OPEN_APP, m.groupdict())

Cerveau adaptatif

Qwen 2.5 14B pour la conversation, DeepSeek R1 14B pour le raisonnement complexe. Sélection automatique par complexité et VRAM disponible — 3B à 32B selon votre GPU.

pour le code
router.py

Routage adaptatif

# sélection en ~5ms selon complexité + VRAM
def select_model(complexity, vram_gb):
    if complexity == "REASONING":
        return "deepseek-r1:14b"
    if vram_gb >= 24: return "qwen2.5:32b"
    if vram_gb >= 12: return "qwen2.5:14b"
    if vram_gb >=  8: return "qwen2.5:7b"
    return "qwen2.5:3b"

100% privé

Aucun token ne quitte votre réseau. Mode confidentiel désactive les fallbacks cloud. Whisper, Ollama, Edge-TTS, LLaVA — tout tourne sur votre machine.

pour le code
privacy.py · audit OK

Mode confidentiel

# aucune sortie réseau. point.
PRIVACY_MODE = True
CLOUD_FALLBACKS = []  # désactivés

assert all(m.is_local for m in models)
assert outbound_bytes_since_boot == 0

# vous pouvez couper internet — ça marche

Mémoire & contexte

Faits permanents persistants entre sessions. Semi-auto : Jarvis détecte vos déclarations mémorisables et demande confirmation. La mémoire fait autorité sur les connaissances du modèle.

pour le code
memory.py · FAISS + JSON

Mémoire sémantique

# fait local, embedding local, persistance JSON
def memorize(fact: str):
    facts.append(fact)
    emb = encoder.encode(fact)
    index.add(np.array([emb]))
    save_json("memory.json", facts)

def recall(query):
    return facts[index.search(query, k=3)]

Vision & overlay

OCR Tesseract + UIA + LLaVA 7B local. « Entoure le bouton OK » fonctionne réellement : pipeline 5 couches qui trouve et encadre n'importe quel élément visible à l'écran.

pour le code
overlay.py · pipeline 5 couches

Pipeline overlay

# fallback en cascade jusqu'à trouver la cible
def find(query):
    return (
        Win32Finder().find(query)
        or UIAFinder().find(query)
        or OCRFinder().find(query)
        or LLaVAFinder().find(query)
        or BannerFallback(query)
    )

draw_frame(find("bouton OK").rect)
0
actions locales
~2s
latence (warm)
100%
données locales
0
modèles LLM actifs

Essayez Jarvis

Démo textuelle — aperçu limité de l'assistant

5/5 messages restants DÉMO · MODE TEXTE

Limite atteinte. Installez Jarvis pour l'expérience complète.

Architecture

De votre voix à la réponse audio — chaque étape tourne en local.

Voix utilisateur
OpenWakeWordwake word local
Faster-Whisper STTtranscription locale
Intent Detection57 regex, ~10ms
Action locale22 modules
LLM RouterQwen / R1
Edge-TTSstreaming vocal FR
Réponse audio

Stack technique

  • Python 3.13 + PyQt6 (UI native Windows)
  • Ollama (runtime LLM local — Qwen 2.5 3B/14B/32B)
  • DeepSeek R1 14B (raisonnement chaîne-de-pensée)
  • Faster-Whisper (STT offline, toutes langues)
  • OpenWakeWord (détection wake word locale)
  • Edge-TTS streaming (11 voix françaises)
  • SDXL Turbo / SDXL / Playground v2.5 (image gen)
  • LLaVA 7B (analyse visuelle locale)
  • Tesseract OCR + UI Automation (vision écran)
  • FAISS + sentence-transformers (mémoire sémantique)
  • MapLibre GL (carte 3D terrain)
  • 22 modules d'automatisation (Win32, Spotify, Outlook…)

57 actions locales

Détectées en ~10ms par regex — sans LLM, sans latence

SURVOLEZ LA CONSTELLATION 15 catégories · 57 intents · ~10ms par regex
hoverhub ou intent · vue d'ensemble

Système

  • ACK_WAKE
  • SELF_INTRO
  • SELF_DIAG
  • STOP_SPEAKING
  • TOGGLE_LISTEN
  • PRIVACY_MODE
  • PERSONALITY_SWITCH

Applications

  • OPEN_APP
  • CLOSE_APP
  • MOVE_APP

Mémoire

  • MEMORIZE
  • RECALL
  • FORGET
  • MEMORY_CONFIRM
  • MEMORY_REJECT

Vision écran

  • SCREEN_CAPTURE
  • VISION
  • OVERLAY_HIGHLIGHT

Cartes

  • MAP_OPEN
  • MAP_GOTO
  • MAP_VIEW
  • MAP_CLOSE
  • MAP_MODE

Musique

  • SPOTIFY_PLAY
  • SPOTIFY_STATUS
  • MUSIC_PLAY_PAUSE
  • MUSIC_NEXT
  • MUSIC_PREV
  • VOLUME

Fichiers

  • FILE_ANALYZE
  • FIND_FILE

Projets

  • PROJECT_LAUNCH
  • PROJECT_CREATE
  • PROJECT_ADD_APP
  • PROJECT_ADD_FILE
  • PROJECT_LIST
  • PROJECT_DELETE

Image gen

  • IMAGE_GEN
  • IMAGE_REGEN

Agenda

  • CALENDAR_LIST
  • CALENDAR_ADD
  • EMAIL_LIST
  • NOTE
  • CALCULATOR

Routines

  • ROUTINE_ADD
  • ROUTINE_LIST
  • ROUTINE_DELETE

Info

  • TIME_DATE
  • WEATHER
  • WEB_SEARCH

Présence

  • PRESENCE_START
  • PRESENCE_STOP

Training

  • TRAIN_FEEDBACK
  • TRAIN_CREATE_MODEL

Système PC

  • SYSTEM_POWER
57 / 57 intents
Zero LLM — Zero latence réseau — Zero cloud

À propos

Un assistant avec une personnalité — et des lois non négociables.

La personnalité Jarvis

  • Direct — aucune circonlocution, aucune formule creuse
  • Honnête — dit « je ne sais pas » plutôt qu'inventer
  • Adaptatif — ton différent selon votre émotion détectée
  • Concis — 1-2 phrases en mode vocal par défaut
  • Mémoire autoritaire — vos faits persistent entre sessions
  • Admet ses erreurs — simplement, sans justification excessive

Ne dit jamais :

  • « Bien sûr Monsieur ! »
  • « Excellente question »
  • « Permettez-moi de… »
  • « En tant qu'assistant IA… »
  • Listes à puces en vocal
  • Inventions de capacités

Sélection automatique du modèle

VRAM
Modèle LLM
Vision
≥24 GB
Qwen 2.5 32B
LLaVA 13B
12-16 GB
Qwen 2.5 14BVotre config
LLaVA 7B
8 GB
Qwen 2.5 7B
LLaVA 7B
<8 GB
Qwen 2.5 3B
LLaVA 7B

* La détection VRAM est automatique au démarrage. Aucune configuration manuelle.