Reconnaissance vocale et synthèse de parole

Dans cet article, nous allons explorer comment créer une application vocale simple en Python qui peut répondre à vos commandes vocales. Elle utilise des bibliothèques populaires comme pyaudio, pyttsx3, vosk, et fuzzywuzzy pour accomplir plusieurs tâches telles que donner l’heure actuelle, afficher la date, ou même fermer l’application.

Objectif de l’application

L’objectif principal de cette application est de permettre à l’utilisateur d’interagir avec un programme en utilisant la voix. Grâce à la reconnaissance vocale, l’application écoute les commandes de l’utilisateur et répond en conséquence. Nous allons notamment implémenter des fonctions qui répondent à des requêtes comme :

« Quelle heure est-il ? »
« Quelle est la date du jour ? »
« Arrêter l’application »

L’application utilise également un moteur de synthèse vocale pour répondre oralement à l’utilisateur, et gère les erreurs en cas de mauvaise commande.

Bibliothèques utilisées

Voici les bibliothèques principales que nous allons utiliser :

pyaudio : Cette bibliothèque permet de gérer l’audio, ici utilisée pour capter la voix via le microphone.
pyttsx3 : Utilisée pour la synthèse vocale. Elle permet de transformer un texte en parole.
vosk : C’est une bibliothèque de reconnaissance vocale qui convertit l’audio en texte.
fuzzywuzzy : Une bibliothèque pour comparer les chaînes de caractères et déterminer la meilleure correspondance entre la commande vocale et les intentions prédéfinies.

Fonctionnement de l’application

Initialisation du moteur de synthèse vocale
Nous commençons par initialiser le moteur de synthèse vocale (TTS) avec pyttsx3. Cela permettra à l’application de répondre vocalement.
Reconnaissance vocale avec Vosk
Nous utilisons la bibliothèque Vosk pour la reconnaissance vocale. Elle permet de capter l’audio du microphone et de le convertir en texte. Ce texte est ensuite comparé aux intentions prédéfinies.
Traitement des intentions
Nous avons défini un dictionnaire des intentions, qui associe des phrases à des fonctions spécifiques comme afficher l’heure, la date ou quitter l’application.
Interaction avec l’utilisateur
L’application écoute continuellement les commandes vocales et répond en conséquence. Elle peut également fermer l’application si l’utilisateur le demande.

Les modèles

Les modèles peuvent être téléchargés https://alphacephei.com/vosk/models

Nous avons effectués les tests avec les deux modèles en français:

French	Size
vosk-model-small-fr-0.22	41M	23.95 (cv test) 19.30 (mtedx) 27.25 (podcast)	Lightweight wideband model for Android/iOS and RPi	Apache 2.0
vosk-model-fr-0.22	1.4G	14.72 (cv test) 11.64 (mls) 13.10 (mtedx) 21.61 (podcast) 13.22 (voxpopuli)	Big accurate model for servers	Apache 2.0

Pour les installer , dézipper les fichiers et copier les répertoires dans le répertoire de travail:

Dépendances

Pour faire fonctionner l’application vocale que nous avons développée, vous devez installer les dépendances suivantes avec pip. Voici la liste des bibliothèques nécessaires et la commande pour les installer :

pyaudio : Permet de capturer l’audio à partir du microphone.
pyttsx3 : Pour la synthèse vocale (convertir du texte en parole).
vosk : Pour la reconnaissance vocale.
fuzzywuzzy : Pour effectuer des comparaisons de texte avec une méthode de correspondance floue.

Exécutez la commande suivante dans votre terminal pour installer ces dépendances :

Shell

pip install pyaudio pyttsx3 vosk fuzzywuzzy

Remarques supplémentaires :

pyaudio : Peut nécessiter l’installation de certains prérequis système, comme les bibliothèques portaudio. Si vous rencontrez des problèmes d’installation sur certaines plateformes, vous pouvez consulter les solutions spécifiques à votre système d’exploitation.
vosk : Vous devrez télécharger le modèle de reconnaissance vocale (par exemple, vosk-model-small-fr-0.22) et le spécifier dans le code pour qu’il fonctionne correctement.
fuzzywuzzy : La version de base est suffisante, mais pour de meilleures performances avec de grands ensembles de données, vous pouvez aussi installer python-Levenshtein.

Si vous souhaitez également installer python-Levenshtein pour accélérer les opérations de correspondance de texte, vous pouvez le faire avec la commande suivante :

Shell

pip install python-Levenshtein

Le code complet

Python

import pyaudio, json, pyttsx3, locale, sys
from datetime import datetime
from vosk import Model, KaldiRecognizer
from fuzzywuzzy import process

def say(phrase):
    global tts_engine
    print(phrase)
    tts_engine.say(phrase)
    tts_engine.runAndWait()

def quitter_app():
    response = "L'application va se fermer."
    say(response)
    try:
        stream.stop_stream()
        stream.close()
        mic.terminate()
    except Exception:
        pass
    sys.exit()
        
def aff_heure():
    heure_actuelle = datetime.now()
    heure_claire = heure_actuelle.strftime("%H heures %M")
    if heure_claire.startswith("0"):
            heure_claire = heure_claire[1:]
    say(f"Il est {heure_claire}.")
    
def aff_date():
    date_actuelle = datetime.now()
    date_claire = date_actuelle.strftime("%d %B %Y")
    if date_claire.startswith("0"):
        date_claire = date_claire[1:]
    say(f"Nous sommes le {date_claire}.")
    
def aide():
    say("Tu peux me demander la date ou l'heure actuelle ou encore de quitter l'application")
        
intentions = {
    "quelle heure est-il": "aff_heure",
    "donne-moi l'heure": "aff_heure",
    "quelle est la date du jour": "aff_date",
    "quel jour sommes-nous": "aff_date",
    "arreter l'application": "quitter_app",
    "quitter l'application": "quitter_app",
    "je voudrais de l'aide":"aide",
}

def process_phrase(phrase):
    match, score = process.extractOne(phrase.lower(), intentions.keys())
    if score > 80:
        say(f"Correspondance trouvée : '{match}' avec un score de {score}")
        func_name = intentions[match]  
        try:
            globals()[func_name]() 
        except Exception:
            say(f"La fonction n' a pas été trouvée ou une erreur s'est produite lors de son exécution.")  
    else:
        say(f"Je ne comprends pas cette phrase. (Score : {score})")

tts_engine = pyttsx3.init()
locale.setlocale(locale.LC_TIME, 'fr_FR.UTF-8')
say("Chargement du modèle…")
model_directory = "vosk-model-small-fr-0.22"
model = Model(model_directory)
recognizer = KaldiRecognizer(model, 16000)  
mic = pyaudio.PyAudio()
stream = mic.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=8192)
stream.start_stream()
say(f"Modèle chargé : {model_directory}")
aide()
say("Pose-moi une question")
try:
    while True:
        data = stream.read(4096, exception_on_overflow=False)
        if len(data) == 0:
            break
        if recognizer.AcceptWaveform(data):
            stream.stop_stream()
            result = recognizer.Result()
            result_dict = json.loads(result)
            text = result_dict.get("text", "")
            if text:
                process_phrase(text)
            stream.start_stream()    
except Exception as e:
    say(e)
    quitter_app()

Grimeco

Reconnaissance vocale et synthèse de parole

Objectif de l’application

Bibliothèques utilisées

Fonctionnement de l’application

Les modèles

Dépendances

Remarques supplémentaires :

Le code complet

A DECOUVRIR EGALEMENT

Raspberry Radio Internet (Partie II)

🖧 Activer le Wi-Fi sur un Asus X205TA sous Debian 11

Mesure d’un niveau d’eau avec un ESP32

Laisser un commentaire Annuler la réponse