11 månader sedan · 64ff132374
--- a/RealtimeSTT/audio_recorder.py
+++ b/RealtimeSTT/audio_recorder.py
@@ -29,7 +29,6 @@ Author: Kolja Beigel
 
				 from typing import Iterable, List, Optional, Union
			
 
				 import torch.multiprocessing as mp
			
 
				 import torch
			
 
				-from typing import List, Union
			
 
				 from ctypes import c_bool
			
 
				 from openwakeword.model import Model
			
 
				 from scipy.signal import resample
			
@@ -49,6 +48,7 @@ import platform
 
				 import pyaudio
			
 
				 import logging
			
 
				 import struct
			
 
				+import base64
			
 
				 import queue
			
 
				 import halo
			
 
				 import time
			
@@ -541,6 +541,7 @@ class AudioToTextRecorder:
 
				         self.start_recording_event = threading.Event()
			
 
				         self.stop_recording_event = threading.Event()
			
 
				         self.last_transcription_bytes = None
			
 
				+        self.last_transcription_bytes_b64 = None
			
 
				         self.initial_prompt = initial_prompt
			
 
				         self.suppress_tokens = suppress_tokens
			
 
				         self.use_wake_words = wake_words or wakeword_backend in {'oww', 'openwakeword', 'openwakewords'}
			
@@ -1209,7 +1210,7 @@ class AudioToTextRecorder:
 
				                 if self.transcribe_count == 0:
			
 
				                     logging.debug("Adding transcription request, no early transcription started")
			
 
				                     start_time = time.time()  # Start timing
			
 
				-                    self.parent_transcription_pipe.send((self.audio, self.language))
			
 
				+                    self.parent_transcription_pipe.send((audio_copy, self.language))
			
 
				                     self.transcribe_count += 1
			
 
				 
			
 
				                 while self.transcribe_count > 0:
			
@@ -1223,7 +1224,8 @@ class AudioToTextRecorder:
 
				                     segments, info = result
			
 
				                     self.detected_language = info.language if info.language_probability > 0 else None
			
 
				                     self.detected_language_probability = info.language_probability
			
 
				-                    self.last_transcription_bytes = audio_copy
			
 
				+                    self.last_transcription_bytes = copy.deepcopy(audio_copy)                    
			
 
				+                    self.last_transcription_bytes_b64 = base64.b64encode(self.last_transcription_bytes.tobytes()).decode('utf-8')
			
 
				                     transcription = self._preprocess_output(segments)
			
 
				                     end_time = time.time()  # End timing
			
 
				                     transcription_time = end_time - start_time
			
--- a/RealtimeSTT/audio_recorder_client.py
+++ b/RealtimeSTT/audio_recorder_client.py
@@ -199,6 +199,8 @@ class AudioToTextRecorderClient:
 
				         self.autostart_server = autostart_server
			
 
				 
			
 
				         # Instance variables
			
 
				+        self.muted = False
			
 
				+        self.recording_thread = None
			
 
				         self.is_running = True
			
 
				         self.connection_established = threading.Event()
			
 
				         self.recording_start = threading.Event()
			
@@ -214,7 +216,8 @@ class AudioToTextRecorderClient:
 
				             if self.debug_mode:
			
 
				                 print("STT server is running and connected.")
			
 
				 
			
 
				-        self.start_recording()
			
 
				+        if self.use_microphone:
			
 
				+            self.start_recording()
			
 
				 
			
 
				     def text(self, on_transcription_finished=None):
			
 
				         self.realtime_text = ""
			
@@ -255,11 +258,45 @@ class AudioToTextRecorderClient:
 
				                 threading.Thread(target=on_transcription_finished, args=(self.final_text,)).start()
			
 
				 
			
 
				             return self.final_text
			
 
				+
			
 
				         except KeyboardInterrupt:
			
 
				             if self.debug_mode:
			
 
				                 print("KeyboardInterrupt in record_and_send_audio, exiting...")
			
 
				             raise KeyboardInterrupt
			
 
				 
			
 
				+        except Exception as e:
			
 
				+            print(f"Error in AudioToTextRecorderClient.text(): {e}")
			
 
				+            return ""
			
 
				+
			
 
				+    def feed_audio(self, chunk, original_sample_rate=16000):
			
 
				+        metadata = {"sampleRate": original_sample_rate}
			
 
				+        metadata_json = json.dumps(metadata)
			
 
				+        metadata_length = len(metadata_json)
			
 
				+        message = struct.pack('<I', metadata_length) + metadata_json.encode('utf-8') + chunk
			
 
				+
			
 
				+        if self.is_running:
			
 
				+            self.data_ws.send(message, opcode=websocket.ABNF.OPCODE_BINARY)
			
 
				+
			
 
				+    def set_microphone(self, microphone_on=True):
			
 
				+        """
			
 
				+        Set the microphone on or off.
			
 
				+        """
			
 
				+        self.muted = not microphone_on
			
 
				+        #self.call_method("set_microphone", [microphone_on])
			
 
				+        # self.use_microphone.value = microphone_on
			
 
				+
			
 
				+    def abort(self):
			
 
				+        self.call_method("abort")
			
 
				+
			
 
				+    def wakeup(self):
			
 
				+        self.call_method("wakeup")
			
 
				+
			
 
				+    def clear_audio_queue(self):
			
 
				+        self.call_method("clear_audio_queue")
			
 
				+
			
 
				+    def stop(self):
			
 
				+        self.call_method("stop")
			
 
				+
			
 
				     def connect(self):
			
 
				         if not self.ensure_server_running():
			
 
				             print("Cannot start STT server. Exiting.")
			
@@ -423,9 +460,19 @@ class AudioToTextRecorderClient:
 
				                 print("Recording and sending audio...")
			
 
				 
			
 
				             while self.is_running:
			
 
				+                if self.muted:
			
 
				+                    time.sleep(0.01)
			
 
				+                    continue
			
 
				+
			
 
				                 try:
			
 
				                     audio_data = self.stream.read(CHUNK)
			
 
				 
			
 
				+                    if self.on_recorded_chunk:
			
 
				+                        self.on_recorded_chunk(audio_data)
			
 
				+
			
 
				+                    if self.muted:
			
 
				+                        continue
			
 
				+
			
 
				                     if self.recording_start.is_set():
			
 
				                         metadata = {"sampleRate": self.device_sample_rate}
			
 
				                         metadata_json = json.dumps(metadata)
			
@@ -503,6 +550,12 @@ class AudioToTextRecorderClient:
 
				             elif data.get('type') == 'vad_detect_start':
			
 
				                 if self.on_vad_detect_start:
			
 
				                     self.on_vad_detect_start()
			
 
				+            elif data.get('type') == 'wakeword_detection_start':
			
 
				+                if self.on_wakeword_detection_start:
			
 
				+                    self.on_wakeword_detection_start()
			
 
				+            elif data.get('type') == 'wakeword_detection_end':
			
 
				+                if self.on_wakeword_detection_end:
			
 
				+                    self.on_wakeword_detection_end()
			
 
				 
			
 
				             else:
			
 
				                 print(f"Unknown data message format: {data}")
			
@@ -533,6 +586,30 @@ class AudioToTextRecorderClient:
 
				         if self.debug_mode:
			
 
				             print("Data WebSocket connection opened.")
			
 
				 
			
 
				+    def set_parameter(self, parameter, value):
			
 
				+        command = {
			
 
				+            "command": "set_parameter",
			
 
				+            "parameter": parameter,
			
 
				+            "value": value
			
 
				+        }
			
 
				+        self.control_ws.send(json.dumps(command))
			
 
				+
			
 
				+    def get_parameter(self, parameter):
			
 
				+        command = {
			
 
				+            "command": "get_parameter",
			
 
				+            "parameter": parameter
			
 
				+        }
			
 
				+        self.control_ws.send(json.dumps(command))
			
 
				+
			
 
				+    def call_method(self, method, args=None, kwargs=None):
			
 
				+        command = {
			
 
				+            "command": "call_method",
			
 
				+            "method": method,
			
 
				+            "args": args or [],
			
 
				+            "kwargs": kwargs or {}
			
 
				+        }
			
 
				+        self.control_ws.send(json.dumps(command))
			
 
				+
			
 
				     def shutdown(self):
			
 
				         self.is_running = False
			
 
				         #self.stop_event.set()
			
--- a/server/stt_cli_client.py
+++ b/server/stt_cli_client.py
@@ -80,6 +80,7 @@ import threading
 
				 import time
			
 
				 import struct
			
 
				 import socket
			
 
				+import subprocess
			
 
				 import shutil
			
 
				 from urllib.parse import urlparse
			
 
				 import queue 
			
@@ -92,8 +93,8 @@ CHUNK = 1024
 
				 FORMAT = pyaudio.paInt16
			
 
				 CHANNELS = 1
			
 
				 RATE = 44100
			
 
				-DEFAULT_CONTROL_URL = "ws://localhost:8011"
			
 
				-DEFAULT_DATA_URL = "ws://localhost:8012"
			
 
				+DEFAULT_CONTROL_URL = "ws://127.0.0.1:8011"
			
 
				+DEFAULT_DATA_URL = "ws://127.0.0.1:8012"
			
 
				 
			
 
				 # Initialize colorama
			
 
				 from colorama import init, Fore, Style
			
--- a/server/stt_server.py
+++ b/server/stt_server.py
@@ -119,7 +119,7 @@ allowed_methods = [
 
				     'clear_audio_queue',
			
 
				     'wakeup',
			
 
				     'shutdown',
			
 
				-    'text',  # Allow 'text' method to initiate transcription
			
 
				+    'text',
			
 
				 ]
			
 
				 allowed_parameters = [
			
 
				     'silero_sensitivity',
			
@@ -127,8 +127,8 @@ allowed_parameters = [
 
				     'post_speech_silence_duration',
			
 
				     'listen_start',
			
 
				     'recording_stop_time',
			
 
				-    'recorderActive',
			
 
				-    # Add other parameters as needed
			
 
				+    'last_transcription_bytes',
			
 
				+    'last_transcription_bytes_b64',
			
 
				 ]
			
 
				 
			
 
				 # Queues and connections for control and data
			
@@ -308,7 +308,6 @@ def _recorder_thread(loop):
 
				     
			
 
				     def process_text(full_sentence):
			
 
				         full_sentence = preprocess_text(full_sentence)
			
 
				-        prev_text = ""
			
 
				         message = json.dumps({
			
 
				             'type': 'fullSentence',
			
 
				             'text': full_sentence
			
@@ -367,16 +366,24 @@ async def control_handler(websocket, path):
 
				                             # Optionally send a response back to the client
			
 
				                             await websocket.send(json.dumps({"status": "success", "message": f"Parameter {parameter} set to {value}"}))
			
 
				                         else:
			
 
				-                            print(f"Parameter {parameter} is not allowed or does not exist")
			
 
				-                            await websocket.send(json.dumps({"status": "error", "message": f"Parameter {parameter} is not allowed or does not exist"}))
			
 
				+                            if not parameter in allowed_parameters:
			
 
				+                                print(f"Parameter {parameter} is not allowed (set_parameter)")
			
 
				+                                await websocket.send(json.dumps({"status": "error", "message": f"Parameter {parameter} is not allowed (set_parameter)"}))
			
 
				+                            else:
			
 
				+                                print(f"Parameter {parameter} does not exist (set_parameter)")
			
 
				+                                await websocket.send(json.dumps({"status": "error", "message": f"Parameter {parameter} does not exist (set_parameter)"}))
			
 
				                     elif command == "get_parameter":
			
 
				                         parameter = command_data.get("parameter")
			
 
				                         if parameter in allowed_parameters and hasattr(recorder, parameter):
			
 
				                             value = getattr(recorder, parameter)
			
 
				                             await websocket.send(json.dumps({"status": "success", "parameter": parameter, "value": value}))
			
 
				                         else:
			
 
				-                            print(f"Parameter {parameter} is not allowed or does not exist")
			
 
				-                            await websocket.send(json.dumps({"status": "error", "message": f"Parameter {parameter} is not allowed or does not exist"}))
			
 
				+                            if not parameter in allowed_parameters:
			
 
				+                                print(f"Parameter {parameter} is not allowed (get_parameter)")
			
 
				+                                await websocket.send(json.dumps({"status": "error", "message": f"Parameter {parameter} is not allowed (get_parameter)"}))
			
 
				+                            else:
			
 
				+                                print(f"Parameter {parameter} does not exist (get_parameter)")
			
 
				+                                await websocket.send(json.dumps({"status": "error", "message": f"Parameter {parameter} does not exist (get_parameter)"}))
			
 
				                     elif command == "call_method":
			
 
				                         method_name = command_data.get("method")
			
 
				                         if method_name in allowed_methods:
			
@@ -434,6 +441,7 @@ async def broadcast_audio_messages():
 
				         message = await audio_queue.get()
			
 
				         for conn in list(data_connections):
			
 
				             try:
			
 
				+                # print(f"Sending message: {message}")
			
 
				                 await conn.send(message)
			
 
				             except websockets.exceptions.ConnectionClosed:
			
 
				                 data_connections.remove(conn)