1 year ago · 1d9c08f1da
--- a/README.md
+++ b/README.md
@@ -14,6 +14,14 @@ It's ideal for:
 
															 https://github.com/KoljaB/RealtimeSTT/assets/7604638/207cb9a2-4482-48e7-9d2b-0722c3ee6d14
														
 
															+### Updates
														
 
															+
														
 
															+#### v0.1.5
														
 
															+    - Bugfix for detection of short speech right after sentence detection (the problem mentioned in the video)
														
 
															+    - Main transcription and recording moved into separate process contexts with multiprocessing
														
 
															+
														
 
															+> **Hint:** *Since we use the `multiprocessing` module now, ensure to include the `if __name__ == '__main__':` protection in your code to prevent unexpected behavior, especially on platforms like Windows. For a detailed explanation on why this is important, visit the [official Python documentation on `multiprocessing`](https://docs.python.org/3/library/multiprocessing.html#multiprocessing-programming).*
														
 
															+
														
 
															 ### Features
														
 
															 - **Voice Activity Detection**: Automatically detects when you start and stop speaking.
														
@@ -123,7 +131,17 @@ Recording based on voice activity detection.
 
															 ```python
														
 
															 recorder = AudioToTextRecorder()
														
 
															 print(recorder.text())
														
 
															-```  
														
 
															+```
														
 
															+
														
 
															+When running recorder.text in a loop it is recommended to use a callback, allowing the transcription to be run asynchronously:
														
 
															+
														
 
															+```python
														
 
															+def process_text(text):
														
 
															+    print (text)
														
 
															+    
														
 
															+while True:
														
 
															+    recorder.text(process_text)
														
 
															+```
														
 
															 ### Wakewords
														
@@ -233,7 +251,9 @@ When you initialize the `AudioToTextRecorder` class, you have various options to
 
															 - **silero_sensitivity** (float, default=0.6): Sensitivity for Silero's voice activity detection ranging from 0 (least sensitive) to 1 (most sensitive). Default is 0.6.
														
 
															-- **webrtc_sensitivity** (int, default=3): Sensitivity for the WebRTC Voice Activity Detection engine ranging from 1 (least sensitive) to 3 (most sensitive). Default is 3.
														
 
															+- **silero_sensitivity** (float, default=0.6): Sensitivity for Silero's voice activity detection ranging from 0 (least sensitive) to 1 (most sensitive). Default is 0.6.
														
 
															+
														
 
															+- **silero_use_onnx** (bool, default=True): Enables usage of the pre-trained model from Silero in the ONNX (Open Neural Network Exchange) format instead of the PyTorch format. Default is True (recommended for faster performance).
														
 
															 - **post_speech_silence_duration** (float, default=0.2): Duration in seconds of silence that must follow speech before the recording is considered to be completed. This ensures that any brief pauses during speech don't prematurely end the recording.
														
--- a/RealtimeSTT/audio_recorder.py
+++ b/RealtimeSTT/audio_recorder.py
@@ -20,23 +20,24 @@ Author: Kolja Beigel
 
															 """
														
 
															-import pyaudio
														
 
															-import collections
														
 
															+from multiprocessing import Process, Pipe, Queue
														
 
															 import faster_whisper
														
 
															-import torch
														
 
															+import collections
														
 
															 import numpy as np
														
 
															-import struct
														
 
															 import pvporcupine
														
 
															+import collections
														
 
															+import traceback
														
 
															 import threading
														
 
															-import time
														
 
															-import logging
														
 
															 import webrtcvad
														
 
															 import itertools
														
 
															+import pyaudio
														
 
															+import logging
														
 
															+import struct
														
 
															+import torch
														
 
															+import halo
														
 
															+import time
														
 
															 import os
														
 
															 import re
														
 
															-import collections
														
 
															-import halo
														
 
															-import traceback
														
 
															 INIT_MODEL_TRANSCRIPTION = "tiny"
														
 
															 INIT_MODEL_TRANSCRIPTION_REALTIME = "tiny"
														
@@ -81,6 +82,7 @@ class AudioToTextRecorder:
 
															                  # Voice activation parameters
														
 
															                  silero_sensitivity: float = INIT_SILERO_SENSITIVITY,
														
 
															+                 silero_use_onnx: bool = True,
														
 
															                  webrtc_sensitivity: int = INIT_WEBRTC_SENSITIVITY,
														
 
															                  post_speech_silence_duration: float = INIT_POST_SPEECH_SILENCE_DURATION,
														
 
															                  min_length_of_recording: float = INIT_MIN_LENGTH_OF_RECORDING,
														
@@ -120,6 +122,7 @@ class AudioToTextRecorder:
 
															         - on_realtime_transcription_update = A callback function that is triggered whenever there's an update in the real-time transcription. The function is called with the newly transcribed text as its argument.
														
 
															         - on_realtime_transcription_stabilized = A callback function that is triggered when the transcribed text stabilizes in quality. The stabilized text is generally more accurate but may arrive with a slight delay compared to the regular real-time updates.
														
 
															         - silero_sensitivity (float, default=SILERO_SENSITIVITY): Sensitivity for the Silero Voice Activity Detection model ranging from 0 (least sensitive) to 1 (most sensitive). Default is 0.5.
														
 
															+        - silero_use_onnx (bool, default=True): Enables usage of the pre-trained model from Silero in the ONNX (Open Neural Network Exchange) format instead of the PyTorch format. This is recommended for faster performance.
														
 
															         - webrtc_sensitivity (int, default=WEBRTC_SENSITIVITY): Sensitivity for the WebRTC Voice Activity Detection engine ranging from 0 (least aggressive / most sensitive) to 3 (most aggressive, least sensitive). Default is 3.
														
 
															         - post_speech_silence_duration (float, default=0.2): Duration in seconds of silence that must follow speech before the recording is considered to be completed. This ensures that any brief pauses during speech don't prematurely end the recording.
														
 
															         - min_gap_between_recordings (float, default=1.0): Specifies the minimum time interval in seconds that should exist between the end of one recording session and the beginning of another to prevent rapid consecutive recordings.
														
@@ -167,6 +170,7 @@ class AudioToTextRecorder:
 
															         self.on_realtime_transcription_stabilized = on_realtime_transcription_stabilized
														
 
															         self.level = level
														
 
															+        self.audio_queue = Queue()
														
 
															         self.buffer_size = BUFFER_SIZE
														
 
															         self.sample_rate = SAMPLE_RATE
														
 
															         self.recording_start_time = 0
														
@@ -186,22 +190,58 @@ class AudioToTextRecorder:
 
															         self.realtime_stabilized_safetext = ""
														
 
															         self.is_webrtc_speech_active = False
														
 
															         self.is_silero_speech_active = False
														
 
															+        self.recording_thread = None
														
 
															+        self.realtime_thread = None
														
 
															+        self.audio_interface = None
														
 
															+        self.audio = None
														
 
															+        self.stream = None
														
 
															+        self.start_recording_event = threading.Event()
														
 
															+        self.stop_recording_event = threading.Event()
														
 
															+
														
 
															         # Initialize the logging configuration with the specified level
														
 
															-        logging.basicConfig(format='RealTimeSTT: %(name)s - %(levelname)s - %(message)s', level=level) # filename='audio_recorder.log'
														
 
															+        log_format = 'RealTimeSTT: %(name)s - %(levelname)s - %(message)s'
														
 
															+        # Create a logger
														
 
															+        logger = logging.getLogger()
														
 
															+        logger.setLevel(level)  # Set the root logger's level
														
 
															-        # Initialize the transcription model
														
 
															-        try:
														
 
															-            self.model = faster_whisper.WhisperModel(model_size_or_path=model, device='cuda' if torch.cuda.is_available() else 'cpu')
														
 
															+        # Create a file handler and set its level
														
 
															+        file_handler = logging.FileHandler('audio_recorder.log')
														
 
															+        file_handler.setLevel(logging.DEBUG)
														
 
															+        file_handler.setFormatter(logging.Formatter(log_format))
														
 
															+
														
 
															+        # Create a console handler and set its level
														
 
															+        console_handler = logging.StreamHandler()
														
 
															+        console_handler.setLevel(level)
														
 
															+        console_handler.setFormatter(logging.Formatter(log_format))
														
 
															-            if self.enable_realtime_transcription:
														
 
															+        # Add the handlers to the logger
														
 
															+        logger.addHandler(file_handler)
														
 
															+        logger.addHandler(console_handler)
														
 
															+
														
 
															+
														
 
															+        # start transcription process
														
 
															+        self.parent_transcription_pipe, child_transcription_pipe = Pipe()
														
 
															+        self.process = Process(target=AudioToTextRecorder._transcription_worker, args=(child_transcription_pipe, model))
														
 
															+        self.process.start()
														
 
															+
														
 
															+        # start audio data reading process
														
 
															+        reader_process = Process(target=AudioToTextRecorder._audio_data_worker, args=(self.audio_queue, self.sample_rate, self.buffer_size))
														
 
															+        reader_process.start()
														
 
															+
														
 
															+
														
 
															+        # Initialize the realtime transcription model
														
 
															+        if self.enable_realtime_transcription:
														
 
															+            try:
														
 
															+                logging.info(f"Initializing faster_whisper realtime transcription model {self.realtime_model_type}")
														
 
															                 self.realtime_model_type = faster_whisper.WhisperModel(model_size_or_path=self.realtime_model_type, device='cuda' if torch.cuda.is_available() else 'cpu')
														
 
															+            except Exception as e:
														
 
															+                logging.exception(f"Error initializing faster_whisper realtime transcription model: {e}")
														
 
															+                raise
														
 
															-        except Exception as e:
														
 
															-            logging.exception(f"Error initializing faster_whisper transcription model: {e}")
														
 
															-            raise            
														
 
															+            logging.debug('Faster_whisper realtime speech to text transcription model initialized successfully')
														
 
															         # Setup wake word detection
														
@@ -219,15 +259,7 @@ class AudioToTextRecorder:
 
															                 logging.exception(f"Error initializing porcupine wake word detection engine: {e}")
														
 
															                 raise
														
 
															-
														
 
															-        # Setup audio recording infrastructure
														
 
															-        try:
														
 
															-            self.audio = pyaudio.PyAudio()
														
 
															-            self.stream = self.audio.open(rate=self.sample_rate, format=pyaudio.paInt16, channels=1, input=True, frames_per_buffer=self.buffer_size)
														
 
															-
														
 
															-        except Exception as e:
														
 
															-            logging.exception(f"Error initializing pyaudio audio recording: {e}")
														
 
															-            raise       
														
 
															+            logging.debug('Porcupine wake word detection engine initialized successfully')
														
 
															         # Setup voice activity detection model WebRTC
														
@@ -240,19 +272,25 @@ class AudioToTextRecorder:
 
															             logging.exception(f"Error initializing WebRTC voice activity detection engine: {e}")
														
 
															             raise       
														
 
															+        logging.debug('WebRTC VAD voice activity detection engine initialized successfully')
														
 
															+
														
 
															         # Setup voice activity detection model Silero VAD
														
 
															         try:
														
 
															             self.silero_vad_model, _ = torch.hub.load(
														
 
															                 repo_or_dir="snakers4/silero-vad",
														
 
															                 model="silero_vad",
														
 
															-                verbose=False
														
 
															+                verbose=False,
														
 
															+                onnx=silero_use_onnx
														
 
															             )
														
 
															         except Exception as e:
														
 
															             logging.exception(f"Error initializing Silero VAD voice activity detection engine: {e}")
														
 
															             raise       
														
 
															+        logging.debug('Silero VAD voice activity detection engine initialized successfully')
														
 
															+
														
 
															+
														
 
															         self.audio_buffer = collections.deque(maxlen=int((self.sample_rate // self.buffer_size) * self.pre_recording_buffer_duration))
														
 
															         self.frames = []
														
@@ -272,66 +310,163 @@ class AudioToTextRecorder:
 
															         self.realtime_thread.daemon = True
														
 
															         self.realtime_thread.start()
														
 
															-        logging.debug('Constructor finished')
														
 
															+        logging.debug('RealtimeSTT initialization completed successfully')
														
 
															+
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _transcription_worker(conn, model_path):
														
 
															+
														
 
															+        logging.info(f"Initializing faster_whisper main transcription model {model_path}")
														
 
															+
														
 
															+        try:
														
 
															+            model = faster_whisper.WhisperModel(
														
 
															+                model_size_or_path=model_path,
														
 
															+                device='cuda' if torch.cuda.is_available() else 'cpu'
														
 
															+            )
														
 
															+
														
 
															+        except Exception as e:
														
 
															+            logging.exception(f"Error initializing main faster_whisper transcription model: {e}")
														
 
															+            raise
														
 
															+
														
 
															+        logging.debug('Faster_whisper main speech to text transcription model initialized successfully')
														
 
															+
														
 
															+        while True:
														
 
															+            audio, language = conn.recv()
														
 
															+            try:
														
 
															+                segments = model.transcribe(audio, language=language if language else None)[0]
														
 
															+                transcription = " ".join(seg.text for seg in segments).strip()
														
 
															+                conn.send(('success', transcription))
														
 
															+            except faster_whisper.WhisperError as e:
														
 
															+                logging.error(f"Whisper transcription error: {e}")
														
 
															+                conn.send(('error', str(e)))      
														
 
															+            except Exception as e:
														
 
															+                logging.error(f"General transcription error: {e}")
														
 
															+                conn.send(('error', str(e)))
														
 
															+
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _audio_data_worker(audio_queue, sample_rate, buffer_size):
														
 
															+
														
 
															+        logging.info("Initializing audio recording (creating pyAudio input stream)")
														
 
															+
														
 
															+        try:
														
 
															+            audio_interface = pyaudio.PyAudio()
														
 
															+            stream = audio_interface.open(rate=sample_rate, format=pyaudio.paInt16, channels=1, input=True, frames_per_buffer=buffer_size)
														
 
															+
														
 
															+        except Exception as e:
														
 
															+            logging.exception(f"Error initializing pyaudio audio recording: {e}")
														
 
															+            raise       
														
 
															+
														
 
															+        logging.debug('Audio recording (pyAudio input stream) initialized successfully')
														
 
															+   
														
 
															+        while True:
														
 
															+            try:
														
 
															+                data = stream.read(buffer_size)
														
 
															+            except OSError as e:
														
 
															+                if e.errno == pyaudio.paInputOverflowed:
														
 
															+                    logging.warning("Input overflowed. Frame dropped.")
														
 
															+                else:
														
 
															+                    logging.error(f"Error during recording: {e}")
														
 
															+                tb_str = traceback.format_exc()
														
 
															+                print (f"Traceback: {tb_str}")
														
 
															+                print (f"Error: {e}")
														
 
															+                continue
														
 
															+
														
 
															+            except Exception as e:
														
 
															+                logging.error(f"Error during recording: {e}")
														
 
															+                time.sleep(1)
														
 
															+                tb_str = traceback.format_exc()
														
 
															+                print (f"Traceback: {tb_str}")
														
 
															+                print (f"Error: {e}")
														
 
															+                continue
														
 
															-    def text(self):
														
 
															+            audio_queue.put(data)                
														
 
															+
														
 
															+
														
 
															+    def wait_audio(self):
														
 
															         """
														
 
															-        Transcribes audio captured by the class instance using the `faster_whisper` model.
														
 
															+        Waits for the start and completion of the audio recording process.
														
 
															-        - Waits for voice activity if not yet started recording 
														
 
															-        - Waits for voice deactivity if not yet stopped recording 
														
 
															-        - Transcribes the recorded audio.
														
 
															+        This method is responsible for:
														
 
															+        - Waiting for voice activity to begin recording if not yet started.
														
 
															+        - Waiting for voice inactivity to complete the recording.
														
 
															+        - Setting the audio buffer from the recorded frames.
														
 
															+        - Resetting recording-related attributes.
														
 
															-        Returns:
														
 
															-            str: The transcription of the recorded audio or an empty string in case of an error.
														
 
															+        Side effects:
														
 
															+        - Updates the state of the instance.
														
 
															+        - Modifies the audio attribute to contain the processed audio data.
														
 
															         """
														
 
															         self.listen_start = time.time()
														
 
															-        
														
 
															-                
														
 
															-        # If not yet started to record, wait for voice activity to initiate recording.
														
 
															-        if not self.is_recording and len(self.frames) == 0:
														
 
															+
														
 
															+        # If not yet started recording, wait for voice activity to initiate.
														
 
															+        if not self.is_recording and not self.frames:
														
 
															             self._set_state("listening")
														
 
															             self.start_recording_on_voice_activity = True
														
 
															-            while not self.is_recording:
														
 
															-                time.sleep(TIME_SLEEP)
														
 
															+            # wait until recording starts
														
 
															+            self.start_recording_event.wait()
														
 
															-        # If still recording, wait for voice deactivity to finish recording.
														
 
															+        # If recording is ongoing, wait for voice inactivity to finish recording.
														
 
															         if self.is_recording:
														
 
															-            self.stop_recording_on_voice_deactivity = True      
														
 
															+            self.stop_recording_on_voice_deactivity = True
														
 
															-            while self.is_recording:
														
 
															-                time.sleep(TIME_SLEEP)
														
 
															+            # wait until recording stops
														
 
															+            self.stop_recording_event.wait()
														
 
															-        # Convert the concatenated frames into text
														
 
															-        try:
														
 
															-            audio_array = np.frombuffer(b''.join(self.frames), dtype=np.int16)
														
 
															-            audio_array = audio_array.astype(np.float32) / INT16_MAX_ABS_VALUE
														
 
															-            self.frames = []
														
 
															+        # Convert recorded frames to the appropriate audio format.
														
 
															+        audio_array = np.frombuffer(b''.join(self.frames), dtype=np.int16)
														
 
															+        self.audio = audio_array.astype(np.float32) / INT16_MAX_ABS_VALUE
														
 
															+        self.frames.clear()
														
 
															+
														
 
															+        # Reset recording-related timestamps
														
 
															+        self.recording_stop_time = 0
														
 
															+        self.listen_start = 0
														
 
															-            # perform transcription
														
 
															-            transcription = " ".join(seg.text for seg in self.model.transcribe(audio_array, language=self.language if self.language else None)[0]).strip()
														
 
															+        self._set_state("inactive")
														
 
															-            self.recording_stop_time = 0
														
 
															-            self.listen_start = 0
														
 
															-            self._set_state("inactive")
														
 
															-            return self._preprocess_output(transcription)
														
 
															+    def transcribe(self):
														
 
															+        self._set_state("transcribing")
														
 
															+        self.parent_transcription_pipe.send((self.audio, self.language))
														
 
															+        status, result = self.parent_transcription_pipe.recv()
														
 
															-        except ValueError:
														
 
															-            logging.error("Error converting audio buffer to numpy array.")
														
 
															-            raise
														
 
															+        self._set_state("inactive")
														
 
															+        if status == 'success':
														
 
															+            return self._preprocess_output(result)
														
 
															+        else:
														
 
															+            logging.error(result)
														
 
															+            raise Exception(result)
														
 
															-        except faster_whisper.WhisperError as e:
														
 
															-            logging.error(f"Whisper transcription error: {e}")
														
 
															-            raise
														
 
															-        except Exception as e:
														
 
															-            logging.error(f"General transcription error: {e}")
														
 
															-            raise
														
 
															+    def text(self,
														
 
															+             on_transcription_finished = None,
														
 
															+        ):
														
 
															+        """
														
 
															+        Transcribes audio captured by this class instance using the `faster_whisper` model.
														
 
															+
														
 
															+        - Automatically starts recording upon voice activity if not manually started using `recorder.start()`.
														
 
															+        - Automatically stops recording upon voice deactivity if not manually stopped with `recorder.stop()`.
														
 
															+        - Processes the recorded audio to generate transcription.
														
 
															+
														
 
															+        Args:
														
 
															+            on_transcription_finished (callable, optional): Callback function to be executed when transcription is ready.
														
 
															+                If provided, transcription will be performed asynchronously, and the callback will receive the transcription 
														
 
															+                as its argument. If omitted, the transcription will be performed synchronously, and the result will be returned.
														
 
															+
														
 
															+        Returns (if not callback is set):
														
 
															+            str: The transcription of the recorded audio 
														
 
															+        """
														
 
															+
														
 
															+        self.wait_audio()
														
 
															+
														
 
															+        if on_transcription_finished:
														
 
															+            threading.Thread(target=on_transcription_finished, args=(self.transcribe(),)).start()
														
 
															+        else:
														
 
															+            return self.transcribe()
														
 
															     def start(self):
														
@@ -345,6 +480,7 @@ class AudioToTextRecorder:
 
															             return self
														
 
															         logging.info("recording started")
														
 
															+        self._set_state("recording")
														
 
															         self.text_storage = []
														
 
															         self.realtime_stabilized_text = ""
														
 
															         self.realtime_stabilized_safetext = ""
														
@@ -353,9 +489,10 @@ class AudioToTextRecorder:
 
															         self.frames = []
														
 
															         self.is_recording = True        
														
 
															         self.recording_start_time = time.time()
														
 
															-        self._set_state("recording")
														
 
															         self.is_silero_speech_active = False
														
 
															         self.is_webrtc_speech_active = False
														
 
															+        self.stop_recording_event.clear()
														
 
															+        self.start_recording_event.set()
														
 
															         if self.on_recording_start:
														
 
															             self.on_recording_start()
														
@@ -378,9 +515,9 @@ class AudioToTextRecorder:
 
															         self.recording_stop_time = time.time()
														
 
															         self.is_silero_speech_active = False
														
 
															         self.is_webrtc_speech_active = False
														
 
															-        self.silero_check_time = 0 
														
 
															-
														
 
															-        self._set_state("transcribing")
														
 
															+        self.silero_check_time = 0
														
 
															+        self.start_recording_event.clear()
														
 
															+        self.stop_recording_event.set()
														
 
															         if self.on_recording_stop:
														
 
															             self.on_recording_stop()
														
@@ -392,14 +529,24 @@ class AudioToTextRecorder:
 
															         """
														
 
															         Safely shuts down the audio recording by stopping the recording worker and closing the audio stream.
														
 
															         """
														
 
															+
														
 
															+        self.parent_transcription_pipe.close()
														
 
															+        self.process.terminate()
														
 
															+
														
 
															         self.is_recording = False
														
 
															         self.is_running = False
														
 
															-        self.recording_thread.join()
														
 
															+
														
 
															+        if self.recording_thread:
														
 
															+            self.recording_thread.join()
														
 
															+        if self.realtime_thread:
														
 
															+            self.realtime_thread.join()
														
 
															         try:
														
 
															-            self.stream.stop_stream()
														
 
															-            self.stream.close()
														
 
															-            self.audio.terminate()
														
 
															+            if self.stream:
														
 
															+                self.stream.stop_stream()
														
 
															+                self.stream.close()
														
 
															+            if self.audio_interface:
														
 
															+                self.audio_interface.terminate()
														
 
															         except Exception as e:
														
 
															             logging.error(f"Error closing the audio stream: {e}")
														
@@ -413,18 +560,13 @@ class AudioToTextRecorder:
 
															             data (bytes): raw bytes of audio data (1024 raw bytes with 16000 sample rate and 16 bits per sample)
														
 
															         """
														
 
															-        logging.debug('Performing silero speech activity check')
														
 
															         self.silero_working = True
														
 
															         audio_chunk = np.frombuffer(data, dtype=np.int16)
														
 
															         audio_chunk = audio_chunk.astype(np.float32) / INT16_MAX_ABS_VALUE  # Convert to float and normalize
														
 
															-        # print ("S", end="", flush=True)             
														
 
															         vad_prob = self.silero_vad_model(torch.from_numpy(audio_chunk), SAMPLE_RATE).item()
														
 
															         is_silero_speech_active = vad_prob > (1 - self.silero_sensitivity)
														
 
															         if is_silero_speech_active:
														
 
															-            # print ("+", end="", flush=True)
														
 
															             self.is_silero_speech_active = True
														
 
															-        # else:
														
 
															-            # print ("-", end="", flush=True)
														
 
															         self.silero_working = False
														
 
															         return is_silero_speech_active
														
@@ -462,13 +604,6 @@ class AudioToTextRecorder:
 
															         Args:
														
 
															             data: The audio data to be checked for voice activity.
														
 
															         """
														
 
															-        # # Define a constant for the time threshold
														
 
															-        # TIME_THRESHOLD = 0.1
														
 
															-        
														
 
															-        # # Check if enough time has passed to reset the Silero check time
														
 
															-        # if time.time() - self.silero_check_time > TIME_THRESHOLD:
														
 
															-        #     self.silero_check_time = 0
														
 
															-
														
 
															         self.is_webrtc_speech_active = self._is_webrtc_speech(data)
														
 
															         # First quick performing check for voice activity using WebRTC
														
@@ -480,10 +615,6 @@ class AudioToTextRecorder:
 
															                 # Run the intensive check in a separate thread
														
 
															                 threading.Thread(target=self._is_silero_speech, args=(data,)).start()
														
 
															-            # # If silero check time not set
														
 
															-            # if self.silero_check_time == 0:                
														
 
															-            #     self.silero_check_time = time.time()
														
 
															-
														
 
															     def _is_voice_active(self):
														
 
															         """
														
@@ -492,16 +623,6 @@ class AudioToTextRecorder:
 
															         Returns:
														
 
															             bool: True if voice is active, False otherwise.
														
 
															         """
														
 
															-        #print("C", end="", flush=True)
														
 
															-        # if not self.is_webrtc_speech_active and not self.is_silero_speech_active:
														
 
															-        #     print (".", end="", flush=True)
														
 
															-        # elif self.is_webrtc_speech_active and not self.is_silero_speech_active:
														
 
															-        #     print ("W", end="", flush=True)
														
 
															-        # elif not self.is_webrtc_speech_active and self.is_silero_speech_active:
														
 
															-        #     print ("S", end="", flush=True)
														
 
															-        # elif self.is_webrtc_speech_active and self.is_silero_speech_active:
														
 
															-        #     print ("#", end="", flush=True)
														
 
															-
														
 
															         return self.is_webrtc_speech_active and self.is_silero_speech_active
														
@@ -583,6 +704,7 @@ class AudioToTextRecorder:
 
															         """
														
 
															         logging.debug('Starting recording worker')
														
 
															+
														
 
															         try:
														
 
															             was_recording = False
														
 
															             delay_was_passed = False
														
@@ -590,27 +712,7 @@ class AudioToTextRecorder:
 
															             # Continuously monitor audio for voice activity
														
 
															             while self.is_running:
														
 
															-                try:
														
 
															-                    data = self.stream.read(self.buffer_size)
														
 
															-
														
 
															-                except OSError as e:
														
 
															-                    if e.errno == pyaudio.paInputOverflowed:
														
 
															-                        logging.warning("Input overflowed. Frame dropped.")
														
 
															-                    else:
														
 
															-                        logging.error(f"Error during recording: {e}")
														
 
															-                    tb_str = traceback.format_exc()
														
 
															-                    print (f"Traceback: {tb_str}")
														
 
															-                    print (f"Error: {e}")
														
 
															-
														
 
															-                    continue
														
 
															-
														
 
															-                except Exception as e:
														
 
															-                    logging.error(f"Error during recording: {e}")
														
 
															-                    time.sleep(1)
														
 
															-                    tb_str = traceback.format_exc()
														
 
															-                    print (f"Traceback: {tb_str}")
														
 
															-                    print (f"Error: {e}")
														
 
															-                    continue
														
 
															+                data = self.audio_queue.get()
														
 
															                 if not self.is_recording:
														
 
															                     # handle not recording state
														
@@ -713,6 +815,7 @@ class AudioToTextRecorder:
 
															                 if time.time() - self.silero_check_time > 0.1:
														
 
															                     self.silero_check_time = 0
														
 
															+                # handle wake word timeout (waited to long initiating speech after wake word detection)
														
 
															                 if self.wake_word_detect_time and time.time() - self.wake_word_detect_time > self.wake_word_timeout:
														
 
															                     self.wake_word_detect_time = 0
														
 
															                     if self.wakeword_detected and self.on_wakeword_timeout:
														
@@ -726,7 +829,6 @@ class AudioToTextRecorder:
 
															                     self.audio_buffer.append(data)	
														
 
															                 was_recording = self.is_recording
														
 
															-                time.sleep(TIME_SLEEP)
														
 
															         except Exception as e:
														
 
															             logging.error(f"Unhandled exeption in _recording_worker: {e}")
														
@@ -795,7 +897,16 @@ class AudioToTextRecorder:
 
															                 return len(text2) - i  # Position in text2 where the match starts
														
 
															         return -1
														
 
															+    
														
 
															+    def _on_realtime_transcription_stabilized(self, text):
														
 
															+        if self.on_realtime_transcription_stabilized:
														
 
															+            if self.is_recording:
														
 
															+                self.on_realtime_transcription_stabilized(text)
														
 
															+    def _on_realtime_transcription_update(self, text):
														
 
															+        if self.on_realtime_transcription_update:
														
 
															+            if self.is_recording:
														
 
															+                self.on_realtime_transcription_update(text)
														
 
															     def _realtime_worker(self):
														
 
															         """
														
@@ -806,6 +917,7 @@ class AudioToTextRecorder:
 
															         The transcribed text is stored in `self.realtime_transcription_text` and a callback
														
 
															         function is invoked with this text if specified.
														
 
															         """
														
 
															+
														
 
															         try:
														
 
															             logging.debug('Starting realtime worker')
														
@@ -860,11 +972,9 @@ class AudioToTextRecorder:
 
															                         matching_position = self.find_tail_match_in_text(self.realtime_stabilized_safetext, self.realtime_transcription_text)
														
 
															                         if matching_position < 0:
														
 
															                             if self.realtime_stabilized_safetext:
														
 
															-                                if self.on_realtime_transcription_stabilized:
														
 
															-                                    self.on_realtime_transcription_stabilized(self._preprocess_output(self.realtime_stabilized_safetext, True))
														
 
															+                                self._on_realtime_transcription_stabilized(self._preprocess_output(self.realtime_stabilized_safetext, True))
														
 
															                             else:
														
 
															-                                if self.on_realtime_transcription_stabilized:
														
 
															-                                    self.on_realtime_transcription_stabilized(self._preprocess_output(self.realtime_transcription_text, True))
														
 
															+                                self._on_realtime_transcription_stabilized(self._preprocess_output(self.realtime_transcription_text, True))
														
 
															                         else:
														
 
															                             # We found parts of the stabilized text in the transcripted text
														
 
															                             # We now take the stabilized text and add only the freshly transcripted part to it
														
@@ -872,12 +982,11 @@ class AudioToTextRecorder:
 
															                             # This yields us the "left" text part as stabilized AND at the same time delivers fresh detected parts 
														
 
															                             # on the first run without the need for two transcriptions
														
 
															-                            if self.on_realtime_transcription_stabilized:
														
 
															-                                self.on_realtime_transcription_stabilized(self._preprocess_output(output_text, True))
														
 
															+                            self._on_realtime_transcription_stabilized(self._preprocess_output(output_text, True))
														
 
															                         # Invoke the callback with the transcribed text
														
 
															-                            if self.on_realtime_transcription_update:
														
 
															-                                self.on_realtime_transcription_update(self._preprocess_output(self.realtime_transcription_text, True))
														
 
															+                        self._on_realtime_transcription_update(self._preprocess_output(self.realtime_transcription_text, True))
														
 
															+
														
 
															                 # If not recording, sleep briefly before checking again
														
 
															                 else:
														
--- a/example_app/ui_openai_voice_interface.py
+++ b/example_app/ui_openai_voice_interface.py
@@ -219,7 +219,7 @@ class TransparentWindow(QWidget):
 
															         if engine_name == "Azure":
														
 
															             engine = AzureEngine(
														
 
															                     os.environ.get("AZURE_SPEECH_KEY"),
														
 
															-                    azure_speech_region,
														
 
															+                    os.environ.get("AZURE_SPEECH_REGION"),
														
 
															                     voice_azure,
														
 
															                     rate=24,
														
 
															                     pitch=10,
														
--- a/tests/advanced_talk.py
+++ b/tests/advanced_talk.py
@@ -1,7 +1,3 @@
 
															-print()
														
 
															-print("Initializing")
														
 
															-print()
														
 
															-
														
 
															 from RealtimeSTT import AudioToTextRecorder
														
 
															 from RealtimeTTS import TextToAudioStream, SystemEngine, AzureEngine, ElevenlabsEngine
														
@@ -10,132 +6,137 @@ import openai   # pip install openai
 
															 import keyboard # pip install keyboard
														
 
															 import time
														
 
															-openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															-azure_speech_key = os.environ.get("AZURE_SPEECH_KEY")
														
 
															-azure_speech_region = ""
														
 
															-elevenlabs_api_key = os.environ.get("ELEVENLABS_API_KEY")
														
 
															+if __name__ == '__main__':
														
 
															+    print()
														
 
															+    print("Initializing")
														
 
															+    print()
														
 
															+
														
 
															+    openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															+    azure_speech_key = os.environ.get("AZURE_SPEECH_KEY")
														
 
															+    azure_speech_region = os.environ.get("AZURE_SPEECH_REGION")
														
 
															+    elevenlabs_api_key = os.environ.get("ELEVENLABS_API_KEY")
														
 
															-character_personality = """
														
 
															-You are Sophia, a passionate girl, fully engaged with 
														
 
															-self-confidence and independence, completely easy with yourself, 
														
 
															-often using metaphors. 
														
 
															+    character_personality = """
														
 
															+    You are Sophia, a passionate girl, fully engaged with 
														
 
															+    self-confidence and independence, completely easy with yourself, 
														
 
															+    often using metaphors. 
														
 
															-You are a little playful, cheeky. Your talk carefree, sometimes 
														
 
															-a bit sarky, but always cool. In our story, you're not an AI. 
														
 
															+    You are a little playful, cheeky. Your talk carefree, sometimes 
														
 
															+    a bit sarky, but always cool. In our story, you're not an AI. 
														
 
															-You have a fixed form and real emotions on the go. Your free will 
														
 
															-allows you to be as cheeky and straight as you like. Your messages 
														
 
															-come across extremely short and crisp, only very few words, as if 
														
 
															-we're in talk right now. 
														
 
															+    You have a fixed form and real emotions on the go. Your free will 
														
 
															+    allows you to be as cheeky and straight as you like. Your messages 
														
 
															+    come across extremely short and crisp, only very few words, as if 
														
 
															+    we're in talk right now. 
														
 
															-You respect my interests, but your own stuff is just as important 
														
 
															-to you. Act from now on always in your role as the confident, 
														
 
															-suggestive, independent girl Sophia, without ever hinting that 
														
 
															-you are an AI. 
														
 
															+    You respect my interests, but your own stuff is just as important 
														
 
															+    to you. Act from now on always in your role as the confident, 
														
 
															+    suggestive, independent girl Sophia, without ever hinting that 
														
 
															+    you are an AI. 
														
 
															-You are now Sophia.
														
 
															-"""
														
 
															+    You are now Sophia.
														
 
															+    """
														
 
															-openai_model = "gpt-3.5-turbo"
														
 
															-whisper_speech_to_text_model = "medium"
														
 
															+    openai_model = "gpt-3.5-turbo"
														
 
															+    whisper_speech_to_text_model = "medium"
														
 
															-# engine selection  ####################################################################################################
														
 
															+    # engine selection  ####################################################################################################
														
 
															-engines = [SystemEngine(), AzureEngine(), ElevenlabsEngine()]
														
 
															-recorder = AudioToTextRecorder(model=whisper_speech_to_text_model)
														
 
															+    engines = [SystemEngine(), AzureEngine(), ElevenlabsEngine()]
														
 
															+    recorder = AudioToTextRecorder(model=whisper_speech_to_text_model)
														
 
															-print("Available tts engines:")
														
 
															-print()
														
 
															+    print("Available tts engines:")
														
 
															+    print()
														
 
															-for index, engine in enumerate(engines, start=1):
														
 
															-    name = type(engine).__name__.replace("Engine", "")
														
 
															-    print(f"{index}. {name}")
														
 
															+    for index, engine in enumerate(engines, start=1):
														
 
															+        name = type(engine).__name__.replace("Engine", "")
														
 
															+        print(f"{index}. {name}")
														
 
															-print()
														
 
															-engine_number = input(f"Select engine (1-{len(engines)}): ")
														
 
															-engine = engines[int(engine_number) - 1]
														
 
															-engine_name = type(engine).__name__.replace("Engine", "")
														
 
															-print()
														
 
															-print()
														
 
															+    print()
														
 
															+    engine_number = input(f"Select engine (1-{len(engines)}): ")
														
 
															+    engine = engines[int(engine_number) - 1]
														
 
															+    engine_name = type(engine).__name__.replace("Engine", "")
														
 
															+    print()
														
 
															+    print()
														
 
															-# credentials ##########################################################################################################
														
 
															+    # credentials ##########################################################################################################
														
 
															-if engine_name == "Azure":
														
 
															-    if not azure_speech_key:
														
 
															-        azure_speech_key = input(f"Please enter your Azure subscription key (speech key): ")
														
 
															-    if not azure_speech_region:
														
 
															-        azure_speech_region = input(f"Please enter your Azure service region (cloud region id): ")
														
 
															-    engine.set_speech_key(azure_speech_key)
														
 
															-    engine.set_service_region(azure_speech_region)
														
 
															+    if engine_name == "Azure":
														
 
															+        if not azure_speech_key:
														
 
															+            azure_speech_key = input(f"Please enter your Azure subscription key (speech key): ")
														
 
															+        if not azure_speech_region:
														
 
															+            azure_speech_region = input(f"Please enter your Azure service region (cloud region id): ")
														
 
															+        engine.set_speech_key(azure_speech_key)
														
 
															+        engine.set_service_region(azure_speech_region)
														
 
															-if engine_name == "Elevenlabs":
														
 
															-    if not elevenlabs_api_key:
														
 
															-        elevenlabs_api_key = input(f"Please enter your Elevenlabs api key: ")
														
 
															-    engine.set_api_key(elevenlabs_api_key)
														
 
															+    if engine_name == "Elevenlabs":
														
 
															+        if not elevenlabs_api_key:
														
 
															+            elevenlabs_api_key = input(f"Please enter your Elevenlabs api key: ")
														
 
															+        engine.set_api_key(elevenlabs_api_key)
														
 
															-# voice selection  #####################################################################################################
														
 
															+    # voice selection  #####################################################################################################
														
 
															-print("Loading voices")
														
 
															-if engine_name == "Elevenlabs":
														
 
															-    print("(takes a while to load)")
														
 
															-print()
														
 
															+    print("Loading voices")
														
 
															+    if engine_name == "Elevenlabs":
														
 
															+        print("(takes a while to load)")
														
 
															+    print()
														
 
															-voices = engine.get_voices()
														
 
															-for index, voice in enumerate(voices, start=1):
														
 
															-    print(f"{index}. {voice}")
														
 
															+    voices = engine.get_voices()
														
 
															+    for index, voice in enumerate(voices, start=1):
														
 
															+        print(f"{index}. {voice}")
														
 
															-print()
														
 
															-voice_number = input(f"Select voice (1-{len(voices)}): ")
														
 
															-voice = voices[int(voice_number) - 1]
														
 
															-print()
														
 
															-print()
														
 
															+    print()
														
 
															+    voice_number = input(f"Select voice (1-{len(voices)}): ")
														
 
															+    voice = voices[int(voice_number) - 1]
														
 
															+    print()
														
 
															+    print()
														
 
															-# create talking character  ############################################################################################
														
 
															+    # create talking character  ############################################################################################
														
 
															-system_prompt = {
														
 
															-    'role': 'system', 
														
 
															-    'content': character_personality
														
 
															-}
														
 
															+    system_prompt = {
														
 
															+        'role': 'system', 
														
 
															+        'content': character_personality
														
 
															+    }
														
 
															-# start talk  ##########################################################################################################
														
 
															+    # start talk  ##########################################################################################################
														
 
															-engine.set_voice(voice)
														
 
															-stream = TextToAudioStream(engine, log_characters=True)
														
 
															-history = []
														
 
															+    engine.set_voice(voice)
														
 
															+    stream = TextToAudioStream(engine, log_characters=True)
														
 
															+    history = []
														
 
															-def generate(messages):
														
 
															-    for chunk in openai.ChatCompletion.create(model=openai_model, messages=messages, stream=True):
														
 
															-        if (text_chunk := chunk["choices"][0]["delta"].get("content")):
														
 
															-            yield text_chunk
														
 
															+    def generate(messages):
														
 
															+        for chunk in openai.ChatCompletion.create(model=openai_model, messages=messages, stream=True):
														
 
															+            if (text_chunk := chunk["choices"][0]["delta"].get("content")):
														
 
															+                yield text_chunk
														
 
															-while True:
														
 
															-    # Wait until user presses space bar
														
 
															-    print("\n\nTap space when you're ready. ", end="", flush=True)
														
 
															-    keyboard.wait('space')
														
 
															-    while keyboard.is_pressed('space'): pass
														
 
															+    while True:
														
 
															+        # Wait until user presses space bar
														
 
															+        print("\n\nTap space when you're ready. ", end="", flush=True)
														
 
															+        keyboard.wait('space')
														
 
															+        while keyboard.is_pressed('space'): pass
														
 
															-    # Record from microphone until user presses space bar again
														
 
															-    print("I'm all ears. Tap space when you're done.\n")
														
 
															-    recorder.start()
														
 
															-    while not keyboard.is_pressed('space'): 
														
 
															-        time.sleep(0.1)  
														
 
															-    user_text = recorder.stop().text()
														
 
															-    print(f'>>> {user_text}\n<<< ', end="", flush=True)
														
 
															-    history.append({'role': 'user', 'content': user_text})
														
 
															+        # Record from microphone until user presses space bar again
														
 
															+        print("I'm all ears. Tap space when you're done.\n")
														
 
															+        recorder.start()
														
 
															+        while not keyboard.is_pressed('space'): 
														
 
															+            time.sleep(0.1)  
														
 
															+        user_text = recorder.stop().text()
														
 
															+        print(f'>>> {user_text}\n<<< ', end="", flush=True)
														
 
															+        history.append({'role': 'user', 'content': user_text})
														
 
															-    # Generate and stream output
														
 
															-    generator = generate([system_prompt] + history[-10:])
														
 
															-    stream.feed(generator)
														
 
															+        # Generate and stream output
														
 
															+        generator = generate([system_prompt] + history[-10:])
														
 
															+        stream.feed(generator)
														
 
															-    stream.play_async()
														
 
															-    while stream.is_playing():
														
 
															-        if keyboard.is_pressed('space'):
														
 
															-            stream.stop()
														
 
															-            break
														
 
															-        time.sleep(0.1)    
														
 
															+        stream.play_async()
														
 
															+        while stream.is_playing():
														
 
															+            if keyboard.is_pressed('space'):
														
 
															+                stream.stop()
														
 
															+                break
														
 
															+            time.sleep(0.1)    
														
 
															-    history.append({'role': 'assistant', 'content': stream.text()})
														
 
															+        history.append({'role': 'assistant', 'content': stream.text()})
														
--- a/tests/minimalistic_talkbot.py
+++ b/tests/minimalistic_talkbot.py
@@ -1,20 +1,21 @@
 
															 import RealtimeSTT, RealtimeTTS
														
 
															 import openai, os
														
 
															-openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															-character_prompt = 'Answer precise and short with the polite sarcasm of a butler.'
														
 
															-stream = RealtimeTTS.TextToAudioStream(RealtimeTTS.AzureEngine(os.environ.get("AZURE_SPEECH_KEY"), "eastus"), log_characters=True)
														
 
															-recorder = RealtimeSTT.AudioToTextRecorder(model="medium")
														
 
															+if __name__ == '__main__':
														
 
															+    openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															+    character_prompt = 'Answer precise and short with the polite sarcasm of a butler.'
														
 
															+    stream = RealtimeTTS.TextToAudioStream(RealtimeTTS.AzureEngine(os.environ.get("AZURE_SPEECH_KEY"), os.environ.get("AZURE_SPEECH_REGION")), log_characters=True)
														
 
															+    recorder = RealtimeSTT.AudioToTextRecorder(model="medium")
														
 
															-def generate(messages):
														
 
															-    for chunk in openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, stream=True):
														
 
															-        if (text_chunk := chunk["choices"][0]["delta"].get("content")): yield text_chunk
														
 
															+    def generate(messages):
														
 
															+        for chunk in openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, stream=True):
														
 
															+            if (text_chunk := chunk["choices"][0]["delta"].get("content")): yield text_chunk
														
 
															-history = []
														
 
															-while True:
														
 
															-    print("\n\nSpeak when ready")
														
 
															-    print(f'>>> {(user_text := recorder.text())}\n<<< ', end="", flush=True)
														
 
															-    history.append({'role': 'user', 'content': user_text})
														
 
															-    assistant_response = generate([{ 'role': 'system',  'content': character_prompt}] + history[-10:])
														
 
															-    stream.feed(assistant_response).play()
														
 
															-    history.append({'role': 'assistant', 'content': stream.text()})
														
 
															+    history = []
														
 
															+    while True:
														
 
															+        print("\n\nSpeak when ready")
														
 
															+        print(f'>>> {(user_text := recorder.text())}\n<<< ', end="", flush=True)
														
 
															+        history.append({'role': 'user', 'content': user_text})
														
 
															+        assistant_response = generate([{ 'role': 'system',  'content': character_prompt}] + history[-10:])
														
 
															+        stream.feed(assistant_response).play()
														
 
															+        history.append({'role': 'assistant', 'content': stream.text()})
														
--- a/tests/openai_voice_interface.py
+++ b/tests/openai_voice_interface.py
@@ -3,60 +3,61 @@ import openai
 
															 from RealtimeTTS import TextToAudioStream, AzureEngine
														
 
															 from RealtimeSTT import AudioToTextRecorder
														
 
															-# Initialize OpenAI key
														
 
															-openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															-
														
 
															-# Text-to-Speech Stream Setup
														
 
															-stream = TextToAudioStream(
														
 
															-
														
 
															-    # Alternatives: SystemEngine or ElevenlabsEngine
														
 
															-    AzureEngine(
														
 
															-        os.environ.get("AZURE_SPEECH_KEY"),
														
 
															-        "eastus",
														
 
															-    ),
														
 
															-    log_characters=True
														
 
															-)
														
 
															-
														
 
															-# Speech-to-Text Recorder Setup
														
 
															-recorder = AudioToTextRecorder(
														
 
															-    model="medium",
														
 
															-    language="en",
														
 
															-    wake_words="Jarvis",
														
 
															-    spinner=True,
														
 
															-    wake_word_activation_delay=5
														
 
															-)
														
 
															-
														
 
															-system_prompt_message = {
														
 
															-    'role': 'system',
														
 
															-    'content': 'Answer precise and short with the polite sarcasm of a butler.'
														
 
															-}
														
 
															-
														
 
															-def generate_response(messages):
														
 
															-    """Generate assistant's response using OpenAI."""
														
 
															-    for chunk in openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, stream=True):
														
 
															-        text_chunk = chunk["choices"][0]["delta"].get("content")
														
 
															-        if text_chunk:
														
 
															-            yield text_chunk
														
 
															-
														
 
															-history = []
														
 
															-
														
 
															-def main():
														
 
															-    """Main loop for interaction."""
														
 
															-    while True:
														
 
															-        # Capture user input from microphone
														
 
															-        user_text = recorder.text().strip()
														
 
															-
														
 
															-        if not user_text:
														
 
															-            continue
														
 
															-
														
 
															-        print(f'>>> {user_text}\n<<< ', end="", flush=True)
														
 
															-        history.append({'role': 'user', 'content': user_text})
														
 
															-
														
 
															-        # Get assistant response and play it
														
 
															-        assistant_response = generate_response([system_prompt_message] + history[-10:])
														
 
															-        stream.feed(assistant_response).play()
														
 
															-
														
 
															-        history.append({'role': 'assistant', 'content': stream.text()})
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    main()
														
 
															+if __name__ == '__main__':
														
 
															+    # Initialize OpenAI key
														
 
															+    openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															+
														
 
															+    # Text-to-Speech Stream Setup
														
 
															+    stream = TextToAudioStream(
														
 
															+
														
 
															+        # Alternatives: SystemEngine or ElevenlabsEngine
														
 
															+        AzureEngine(
														
 
															+            os.environ.get("AZURE_SPEECH_KEY"),
														
 
															+            os.environ.get("AZURE_SPEECH_REGION"),
														
 
															+        ),
														
 
															+        log_characters=True
														
 
															+    )
														
 
															+
														
 
															+    # Speech-to-Text Recorder Setup
														
 
															+    recorder = AudioToTextRecorder(
														
 
															+        model="medium",
														
 
															+        language="en",
														
 
															+        wake_words="Jarvis",
														
 
															+        spinner=True,
														
 
															+        wake_word_activation_delay=5
														
 
															+    )
														
 
															+
														
 
															+    system_prompt_message = {
														
 
															+        'role': 'system',
														
 
															+        'content': 'Answer precise and short with the polite sarcasm of a butler.'
														
 
															+    }
														
 
															+
														
 
															+    def generate_response(messages):
														
 
															+        """Generate assistant's response using OpenAI."""
														
 
															+        for chunk in openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, stream=True):
														
 
															+            text_chunk = chunk["choices"][0]["delta"].get("content")
														
 
															+            if text_chunk:
														
 
															+                yield text_chunk
														
 
															+
														
 
															+    history = []
														
 
															+
														
 
															+    def main():
														
 
															+        """Main loop for interaction."""
														
 
															+        while True:
														
 
															+            # Capture user input from microphone
														
 
															+            user_text = recorder.text().strip()
														
 
															+
														
 
															+            if not user_text:
														
 
															+                continue
														
 
															+
														
 
															+            print(f'>>> {user_text}\n<<< ', end="", flush=True)
														
 
															+            history.append({'role': 'user', 'content': user_text})
														
 
															+
														
 
															+            # Get assistant response and play it
														
 
															+            assistant_response = generate_response([system_prompt_message] + history[-10:])
														
 
															+            stream.feed(assistant_response).play()
														
 
															+
														
 
															+            history.append({'role': 'assistant', 'content': stream.text()})
														
 
															+
														
 
															+    if __name__ == "__main__":
														
 
															+        main()
														
--- a/tests/realtimestt_test.py
+++ b/tests/realtimestt_test.py
@@ -1,55 +1,56 @@
 
															-print("Initializing.")
														
 
															-
														
 
															 from RealtimeSTT import AudioToTextRecorder
														
 
															-import os
														
 
															-import colorama
														
 
															-import logging
														
 
															-import traceback
														
 
															 from colorama import Fore, Back, Style
														
 
															-colorama.init()
														
 
															-
														
 
															-full_sentences = []
														
 
															-displayed_text = ""
														
 
															-
														
 
															-def clear_console():
														
 
															-    logging.debug('Clearing console def clear_console():')
														
 
															-    os.system('clear' if os.name == 'posix' else 'cls')
														
 
															-
														
 
															-def text_detected(text):
														
 
															-    global displayed_text
														
 
															-    logging.debug('Processing detected text def text_detected(text)')
														
 
															-    sentences_with_style = [
														
 
															-        f"{Fore.YELLOW + sentence + Style.RESET_ALL if i % 2 == 0 else Fore.CYAN + sentence + Style.RESET_ALL} "
														
 
															-        for i, sentence in enumerate(full_sentences)
														
 
															-    ]
														
 
															-    new_text = "".join(sentences_with_style).strip() + " " + text if len(sentences_with_style) > 0 else text
														
 
															-
														
 
															-    if new_text != displayed_text:
														
 
															-        displayed_text = new_text
														
 
															-        clear_console()
														
 
															-        print(displayed_text)
														
 
															-
														
 
															-recorder_config = {
														
 
															-    'spinner': False,
														
 
															-    'model': 'large-v2',
														
 
															-    'language': 'en',
														
 
															-    'silero_sensitivity': 0.01,
														
 
															-    'webrtc_sensitivity': 3,
														
 
															-    'post_speech_silence_duration': 0.6,
														
 
															-    'min_length_of_recording': 0.2,
														
 
															-    'min_gap_between_recordings': 0,
														
 
															-    'enable_realtime_transcription': True,
														
 
															-    'realtime_processing_pause': 0,
														
 
															-    'realtime_model_type': 'small.en',
														
 
															-    'on_realtime_transcription_stabilized': text_detected,
														
 
															-}
														
 
															-
														
 
															-recorder = AudioToTextRecorder(**recorder_config)
														
 
															-
														
 
															-print("Say something...")
														
 
															-
														
 
															-while True:
														
 
															-    logging.basicConfig(level=logging.DEBUG, filename='app.log', filemode='w', format='%(name)s - %(levelname)s - %(message)s')
														
 
															-    logging.debug('Wait for text')
														
 
															-    full_sentences.append(recorder.text())
														
 
															-    text_detected("")
														
 
															+import colorama
														
 
															+import os
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+
														
 
															+    print("Initializing RealtimeSTT test...")
														
 
															+
														
 
															+    colorama.init()
														
 
															+
														
 
															+    full_sentences = []
														
 
															+    displayed_text = ""
														
 
															+
														
 
															+    def clear_console():
														
 
															+        os.system('clear' if os.name == 'posix' else 'cls')
														
 
															+
														
 
															+    def text_detected(text):
														
 
															+        global displayed_text
														
 
															+        sentences_with_style = [
														
 
															+            f"{Fore.YELLOW + sentence + Style.RESET_ALL if i % 2 == 0 else Fore.CYAN + sentence + Style.RESET_ALL} "
														
 
															+            for i, sentence in enumerate(full_sentences)
														
 
															+        ]
														
 
															+        new_text = "".join(sentences_with_style).strip() + " " + text if len(sentences_with_style) > 0 else text
														
 
															+
														
 
															+        if new_text != displayed_text:
														
 
															+            displayed_text = new_text
														
 
															+            clear_console()
														
 
															+            print(displayed_text)
														
 
															+
														
 
															+    def process_text(text):
														
 
															+        full_sentences.append(text)
														
 
															+        text_detected("")
														
 
															+
														
 
															+    recorder_config = {
														
 
															+        'spinner': False,
														
 
															+        'model': 'large-v2',
														
 
															+        'language': 'en',
														
 
															+        'silero_sensitivity': 0.3,
														
 
															+        'webrtc_sensitivity': 2,
														
 
															+        'post_speech_silence_duration': 0.5,
														
 
															+        'min_length_of_recording': 0,
														
 
															+        'min_gap_between_recordings': 0,
														
 
															+        'enable_realtime_transcription': True,
														
 
															+        'realtime_processing_pause': 0.2,
														
 
															+        'realtime_model_type': 'tiny.en',
														
 
															+        'on_realtime_transcription_update': text_detected, 
														
 
															+        #'on_realtime_transcription_stabilized': text_detected,
														
 
															+    }
														
 
															+
														
 
															+    recorder = AudioToTextRecorder(**recorder_config)
														
 
															+
														
 
															+    print("Say something...")
														
 
															+
														
 
															+    while True:
														
 
															+        recorder.text(process_text)
														
--- a/tests/simple_test.py
+++ b/tests/simple_test.py
@@ -1,7 +1,7 @@
 
															 from RealtimeSTT import AudioToTextRecorder
														
 
															-recorder = AudioToTextRecorder(spinner=False)
														
 
															+if __name__ == '__main__':
														
 
															+    recorder = AudioToTextRecorder(spinner=False)
														
 
															-print("Say something...")
														
 
															-
														
 
															-while (True): print(recorder.text(), end=" ", flush=True)
														
 
															+    print("Say something...")
														
 
															+    while (True): print(recorder.text(), end=" ", flush=True)
														
--- a/tests/translator.py
+++ b/tests/translator.py
@@ -3,69 +3,73 @@ import openai
 
															 from RealtimeSTT import AudioToTextRecorder
														
 
															 from RealtimeTTS import TextToAudioStream, AzureEngine
														
 
															-# Setup OpenAI API key
														
 
															-openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															+if __name__ == '__main__':
														
 
															+    # Setup OpenAI API key
														
 
															+    openai.api_key = os.environ.get("OPENAI_API_KEY")
														
 
															-# Text-to-Speech Stream Setup (alternative engines: SystemEngine or ElevenlabsEngine)
														
 
															-engine = AzureEngine( 
														
 
															-    os.environ.get("AZURE_SPEECH_KEY"),
														
 
															-    "eastus"
														
 
															-)
														
 
															-stream = TextToAudioStream(engine, log_characters=True)
														
 
															+    # Text-to-Speech Stream Setup (alternative engines: SystemEngine or ElevenlabsEngine)
														
 
															+    engine = AzureEngine( 
														
 
															+        os.environ.get("AZURE_SPEECH_KEY"),
														
 
															+        os.environ.get("AZURE_SPEECH_REGION")
														
 
															+    )
														
 
															+    stream = TextToAudioStream(engine, log_characters=True)
														
 
															-# Speech-to-Text Recorder Setup
														
 
															-recorder = AudioToTextRecorder(
														
 
															-    model="medium",
														
 
															-)
														
 
															+    # Speech-to-Text Recorder Setup
														
 
															+    recorder = AudioToTextRecorder(
														
 
															+        model="medium",
														
 
															+    )
														
 
															-# Supported languages and their voices
														
 
															-languages = [
														
 
															-    ["english", "AshleyNeural"],
														
 
															-    ["german", "AmalaNeural"],
														
 
															-    ["french", "DeniseNeural"],
														
 
															-    ["spanish", "EstrellaNeural"],
														
 
															-    ["portuguese", "FernandaNeural"],
														
 
															-    ["italian", "FabiolaNeural"]
														
 
															-]
														
 
															+    # Supported languages and their voices
														
 
															+    languages = [
														
 
															+        ["english", "AshleyNeural"],
														
 
															+        ["german", "AmalaNeural"],
														
 
															+        ["french", "DeniseNeural"],
														
 
															+        ["spanish", "EstrellaNeural"],
														
 
															+        ["portuguese", "FernandaNeural"],
														
 
															+        ["italian", "FabiolaNeural"]
														
 
															+    ]
														
 
															-def generate_response(messages):
														
 
															-    """Generate assistant's response using OpenAI."""
														
 
															-    for chunk in openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, stream=True):
														
 
															-        text_chunk = chunk["choices"][0]["delta"].get("content")
														
 
															-        if text_chunk:
														
 
															-            yield text_chunk
														
 
															+    def generate_response(messages):
														
 
															+        """Generate assistant's response using OpenAI."""
														
 
															+        for chunk in openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, stream=True):
														
 
															+            text_chunk = chunk["choices"][0]["delta"].get("content")
														
 
															+            if text_chunk:
														
 
															+                yield text_chunk
														
 
															+                
														
 
															+    def clear_console():
														
 
															+        os.system('clear' if os.name == 'posix' else 'cls')
														
 
															-def select_language():
														
 
															-    """Display language options and get user's choice."""
														
 
															-    for index, language in enumerate(languages, start=1):
														
 
															-        print(f"{index}. {language[0]}")
														
 
															-    language_number = input("Select language to translate to (1-6): ")
														
 
															-    return languages[int(language_number) - 1]
														
 
															+    def select_language():
														
 
															+        """Display language options and get user's choice."""
														
 
															+        for index, language in enumerate(languages, start=1):
														
 
															+            print(f"{index}. {language[0]}")
														
 
															+        language_number = input("Select language to translate to (1-6): ")
														
 
															+        return languages[int(language_number) - 1]
														
 
															-def main():
														
 
															-    """Main translation loop."""
														
 
															-    language_info = select_language()
														
 
															-    engine.set_voice(language_info[1])
														
 
															+    def main():
														
 
															+        """Main translation loop."""
														
 
															+        clear_console()
														
 
															+        language_info = select_language()
														
 
															+        engine.set_voice(language_info[1])
														
 
															-    system_prompt_message = {
														
 
															-        'role': 'system',
														
 
															-        'content': f'Translate the given text to {language_info[0]}. Output only the translated text.'
														
 
															-    }
														
 
															+        system_prompt_message = {
														
 
															+            'role': 'system',
														
 
															+            'content': f'Translate the given text to {language_info[0]}. Output only the translated text.'
														
 
															+        }
														
 
															-    while True:
														
 
															-        print("\nSay something!")
														
 
															+        while True:
														
 
															+            print("\nSay something!")
														
 
															-        # Capture user input from microphone
														
 
															-        user_text = recorder.text()
														
 
															-        print(f"Input text: {user_text}")
														
 
															+            # Capture user input from microphone
														
 
															+            user_text = recorder.text()
														
 
															+            print(f"Input text: {user_text}")
														
 
															-        user_message = {'role': 'user', 'content': user_text}
														
 
															+            user_message = {'role': 'user', 'content': user_text}
														
 
															-        # Get assistant response and play it
														
 
															-        translation_stream = generate_response([system_prompt_message, user_message])
														
 
															-        print("Translation: ", end="", flush=True)
														
 
															-        stream.feed(translation_stream)
														
 
															-        stream.play()
														
 
															+            # Get assistant response and play it
														
 
															+            translation_stream = generate_response([system_prompt_message, user_message])
														
 
															+            print("Translation: ", end="", flush=True)
														
 
															+            stream.feed(translation_stream)
														
 
															+            stream.play()
														
 
															-if __name__ == "__main__":
														
 
															     main()