init commit of working ts

lalalune · lalalune · commit c6cbc4f1b3cc · 2024-03-07T01:28:59.000-08:00
diff --git a/nodemon.json b/nodemon.json
@@ -0,0 +1,6 @@
+{
+    "watch": ["src"],
+    "ext": "ts",
+    "ignore": ["src/**/*.spec.ts"],
+    "exec": "node --loader ts-node/esm src/index.ts"
+}
diff --git a/package-lock.json b/package-lock.json
diff --git a/package.json b/package.json
@@ -1,29 +1,37 @@
 {
-  "name": "ruby",
+  "name": "bgent-discord-voice",
   "version": "1.0.0",
   "description": "",
-  "main": "main.js",
+  "main": "dist/index.js",
+  "type": "module",
+  "types": "dist/index.d.ts",
   "scripts": {
-    "test": "echo \"Error: no test specified\" && exit 1"
+    "build": "tsc",
+    "start": "node --loader ts-node/esm src/index.ts",
+    "watch": "tsc --watch",
+    "dev": "nodemon"
   },
   "author": "",
   "license": "MIT",
   "dependencies": {
     "@discordjs/voice": "^0.16.1",
     "@supabase/supabase-js": "^2.39.7",
     "@types/fluent-ffmpeg": "^2.1.24",
-    "bgent": "^0.0.22",
+    "bgent": "^0.0.32",
     "discord.js": "^14.14.1",
     "dotenv": "^16.3.1",
     "ffmpeg-static": "^5.2.0",
     "libsodium-wrappers": "^0.7.13",
+    "nodemon": "^3.1.0",
     "openai": "^4.24.1",
     "opusscript": "^0.0.8",
     "prism-media": "^1.3.5",
     "uuid-by-string": "^4.0.0",
     "ws": "^8.16.0"
   },
   "devDependencies": {
-    "@types/node": "^20.10.7"
+    "@types/node": "^20.10.7",
+    "ts-node": "^10.9.2",
+    "typescript": "^5.4.2"
   }
 }
diff --git a/src/discordClient.ts b/src/discordClient.ts
@@ -3,7 +3,7 @@ import { BaseGuildVoiceChannel, ChannelType, Client, GatewayIntentBits, Guild, G
 import { EventEmitter } from "events";
 import prism from "prism-media";
 import { Readable, pipeline } from "stream";
-import settings from "./settings";
+import settings from "./settings.ts";
 
 // These values are chosen for compatibility with picovoice components
 const DECODE_FRAME_SIZE = 1024;
@@ -39,9 +39,9 @@ export default class DiscordClient extends EventEmitter {
         });
         this.client.login(this.apiToken);
         this.client.on('voiceStateUpdate', (oldState, newState) => {
-            if (newState.member.user.bot) return;
+            if (newState?.member?.user.bot) return;
             if (newState.channelId != null && newState.channelId != oldState.channelId) {
-                this.joinChannel(newState.channel);
+                this.joinChannel(newState.channel as BaseGuildVoiceChannel);
             }
         });
         this.client.on('guildCreate', (guild) => {
@@ -62,12 +62,12 @@ export default class DiscordClient extends EventEmitter {
     private async scanGuild(guild: Guild) {
         // Iterate through all voice channels fetching the largest one with at least one connected member
         const channels = (await guild.channels.fetch())
-            .filter(channel => channel.type == ChannelType.GuildVoice);
-        var chosenChannel: BaseGuildVoiceChannel = null;
+            .filter(channel => channel?.type == ChannelType.GuildVoice);
+        let chosenChannel: BaseGuildVoiceChannel | null = null;
 
         for (const [id, channel] of channels) {
             const voiceChannel = channel as BaseGuildVoiceChannel;
-            if (voiceChannel.members.size > 0 && (chosenChannel == null || voiceChannel.members.size > chosenChannel.members.size)) {
+            if (voiceChannel.members.size > 0 && (chosenChannel === null || voiceChannel.members.size > chosenChannel.members.size)) {
                 chosenChannel = voiceChannel;
             }
         }
@@ -93,14 +93,15 @@ export default class DiscordClient extends EventEmitter {
 
         connection.receiver.speaking.on('start', (userId) => {
             const user = channel.members.get(userId);
-            if (user.user.bot) return;
+            if(!user) return;
+            if (user?.user.bot) return;
             this.monitorMember(user, channel);
             this.streams.get(userId)?.emit('speakingStarted');
         });
 
         connection.receiver.speaking.on('end', async (userId) => {
             const user = channel.members.get(userId);
-            if (user.user.bot) return;
+            if (user?.user.bot) return;
             this.streams.get(userId)?.emit('speakingStopped');
         });
     }
@@ -109,6 +110,7 @@ export default class DiscordClient extends EventEmitter {
         const userId = member.id;
         const userName = member.displayName;
         const connection = getVoiceConnection(member.guild.id);
+        if(!connection) return;
         const receiveStream = connection.receiver.subscribe(userId, {
             autoDestroy: true,
             emitClose: true
diff --git a/src/elevenlabs.ts b/src/elevenlabs.ts
@@ -1,7 +1,7 @@
 import { Readable } from "stream";
 import { WebSocket } from "ws";
-import settings from "./settings";
-import { prependWavHeader } from "./util";
+import settings from "./settings.ts";
+import { prependWavHeader } from "./util.ts";
 
 export async function textToSpeechStreaming(text: string): Promise<Readable> {
     console.log("11 TTS: " + text);
@@ -33,10 +33,10 @@ export async function textToSpeechStreaming(text: string): Promise<Readable> {
         throw new Error(`Received status ${status} from Eleven Labs API: ${errorBodyString}`);
     }
     
-    let reader = response.body.getReader();
+    let reader = response?.body?.getReader();
     let readable = new Readable({
         read() {
-            reader.read().then(({ done, value }) => {
+            reader?.read().then(({ done, value }) => {
                 if (done) {
                     this.push(null);
                 } else {
@@ -173,7 +173,7 @@ export class ElevenLabsConverter extends Readable {
     private inputEnded: boolean = false;
     private outputEnded: boolean = false;
     private startTime: number;
-    private openTime: number;
+    private openTime: number | undefined
     private buffers: Buffer[] = [];
     private draining: boolean = false;
     private firstDataTime: number = -1;
@@ -231,7 +231,7 @@ export class ElevenLabsConverter extends Readable {
             } else if (response.audio) {
                 if (this.firstDataTime == -1) {
                     this.firstDataTime = Date.now();
-                    console.log(`First audio packet received after ${this.firstDataTime - this.openTime}ms`);
+                    console.log(`First audio packet received after ${this.firstDataTime - (this.openTime || 0)}ms`);
                 }
                 let audioChunk = Buffer.from(response.audio, 'base64');
                 console.log(`Received audio chunk of length ${audioChunk.length}`);
diff --git a/src/index.ts b/src/index.ts
@@ -1,13 +1,13 @@
 import { SupabaseClient, createClient } from "@supabase/supabase-js";
-import { BgentRuntime, Message } from "bgent";
+import { BgentRuntime, Content, Message, State, composeContext, embeddingZeroVector, messageHandlerTemplate, parseJSONObjectFromText } from "bgent";
 import { UUID } from 'crypto';
 import dotenv from "dotenv";
 import { Readable } from "stream";
 import getUuid from 'uuid-by-string';
-import { AudioMonitor } from "./audioMonitor";
-import DiscordClient from "./discordClient";
-import { textToSpeech } from "./elevenlabs";
-import { speechToText } from "./speechtotext";
+import { AudioMonitor } from "./audioMonitor.ts";
+import DiscordClient from "./discordClient.ts";
+import { textToSpeech } from "./elevenlabs.ts";
+import { speechToText } from "./speechtotext.ts";
 import { BaseGuildVoiceChannel } from "discord.js";
 
 enum ResponseType {
@@ -29,6 +29,138 @@ enum ResponseType {
     RESPONSE_AUDIO = 3
 }
 
+
+/**
+* Handle an incoming message, processing it and returning a response.
+* @param message The message to handle.
+* @param state The state of the agent.
+* @returns The response to the message.
+*/
+async function handleMessage(
+    runtime: BgentRuntime,
+    message: Message,
+    state?: State
+) {
+    const _saveRequestMessage = async (message: Message, state: State) => {
+        const { content: senderContent, /* senderId, userIds, room_id */ } = message
+
+        // we run evaluation here since some evals could be modulo based, and we should run on every message
+        if ((senderContent as Content).content) {
+            const { data: data2, error } = await runtime.supabase.from('messages').select('*').eq('user_id', message.senderId)
+                .eq('room_id', room_id)
+                .order('created_at', { ascending: false })
+
+            if (error) {
+                console.log('error', error)
+                // TODO: dont need this recall
+            } else if (data2.length > 0 && data2[0].content === message.content) {
+                console.log('already saved', data2)
+            } else {
+                await runtime.messageManager.createMemory({
+                    user_ids: [message.senderId, message.agentId, ...message.userIds],
+                    user_id: senderId!,
+                    content: senderContent,
+                    room_id,
+                    embedding: embeddingZeroVector
+                })
+            }
+            await runtime.evaluate(message, state)
+        }
+    }
+
+    await _saveRequestMessage(message, state as State)
+    // if (!state) {
+    state = (await runtime.composeState(message)) as State
+    // }
+
+    const context = composeContext({
+        state,
+        template: messageHandlerTemplate
+    })
+
+    if (runtime.debugMode) {
+        console.log(context, 'Response Context')
+    }
+
+    let responseContent: Content | null = null
+    const { senderId, room_id, userIds: user_ids, agentId } = message
+
+    for (let triesLeft = 3; triesLeft > 0; triesLeft--) {
+        console.log(context)
+        const response = await runtime.completion({
+            context,
+            stop: []
+        })
+
+        runtime.supabase
+            .from('logs')
+            .insert({
+                body: { message, context, response },
+                user_id: senderId,
+                room_id,
+                user_ids: user_ids!,
+                agent_id: agentId!,
+                type: 'main_completion'
+            })
+            .then(({ error }) => {
+                if (error) {
+                    console.error('error', error)
+                }
+            })
+
+        const parsedResponse = parseJSONObjectFromText(
+            response
+        ) as unknown as Content
+
+        if (
+            (parsedResponse.user as string)?.includes(
+                (state as State).agentName as string
+            )
+        ) {
+            responseContent = {
+                content: parsedResponse.content,
+                action: parsedResponse.action
+            }
+            break
+        }
+    }
+
+    if (!responseContent) {
+        responseContent = {
+            content: '',
+            action: 'IGNORE'
+        }
+    }
+
+    const _saveResponseMessage = async (
+        message: Message,
+        state: State,
+        responseContent: Content
+    ) => {
+        const { agentId, userIds, room_id } = message
+
+        responseContent.content = responseContent.content?.trim()
+
+        if (responseContent.content) {
+            await runtime.messageManager.createMemory({
+                user_ids: userIds!,
+                user_id: agentId!,
+                content: responseContent,
+                room_id,
+                embedding: embeddingZeroVector
+            })
+            await runtime.evaluate(message, { ...state, responseContent })
+        } else {
+            console.warn('Empty response, skipping')
+        }
+    }
+
+    await _saveResponseMessage(message, state, responseContent)
+    await runtime.processActions(message, responseContent)
+
+    return responseContent
+}
+
 // Add this function to fetch the bot's name
 async function fetchBotName(botToken: string) {
     const url = 'https://discord.com/api/v10/users/@me';
@@ -159,13 +291,6 @@ const supabase = createClient(
 
 const discordClient = new DiscordClient();
 
-const runtime = new BgentRuntime({
-    supabase,
-    token: process.env.OPENAI_API_KEY,
-    serverUrl: 'https://api.openai.com/v1',
-    evaluators: [],
-    actions: [],
-});
 
 /**
  * Listens on an audio stream and responds with an audio stream.
@@ -198,9 +323,9 @@ async function respondToSpokenAudio(userId: string, userName: string, channelId:
     const sstService = speechToText;
     const text = await sstService(inputBuffer);
     if (requestedResponseType == ResponseType.SPOKEN_TEXT) {
-        return Readable.from(text);
+        return Readable.from(text as string);
     } else {
-        return await respondToText(userId, userName, channelId, text, requestedResponseType);
+        return await respondToText(userId, userName, channelId, text as string, requestedResponseType);
     }
 }
 /**
@@ -214,7 +339,7 @@ async function respondToText(userId: string, userName: string, channelId: string
 
     const userIdUUID = getUuid(userId) as UUID;
 
-    const agentId = getUuid(process.env.DISCORD_APPLICATION_ID) as UUID;
+    const agentId = getUuid(process.env.DISCORD_APPLICATION_ID as string) as UUID;
 
     await ensureUserExists(supabase, agentId, null, process.env.DISCORD_TOKEN);
     await ensureUserExists(supabase, userIdUUID, userName);
@@ -230,7 +355,16 @@ async function respondToText(userId: string, userName: string, channelId: string
         room_id,
     } as unknown as Message;
 
-    const response = await runtime.handleMessage(message)
+
+    const runtime = new BgentRuntime({
+        supabase,
+        token: process.env.OPENAI_API_KEY as string,
+        serverUrl: 'https://api.openai.com/v1',
+        evaluators: [],
+        actions: [],
+    });
+
+    const response = await handleMessage(runtime, message)
 
     if (requestedResponseType == ResponseType.RESPONSE_TEXT) {
         return Readable.from(response.content);
diff --git a/src/settings.ts b/src/settings.ts
@@ -53,6 +53,7 @@ dotenv.config();
 // import from env
 for (const key in settings) {
     if (process.env[key]) {
+        // @ts-expect-error - we know this key exists
         settings[key] = process.env[key]!;
     }
 }
diff --git a/src/speechtotext.ts b/src/speechtotext.ts
@@ -1,6 +1,6 @@
 import OpenAI from "openai";
-import settings from "./settings";
-import { getWavHeader } from "./util";
+import settings from "./settings.ts";
+import { getWavHeader } from "./util.ts";
 
 var openAI = new OpenAI({
     apiKey: settings.OPENAI_KEY
diff --git a/tsconfig.json b/tsconfig.json

Original file line number	Diff line number	Diff line change
`@@ -53,6 +53,7 @@ dotenv.config();`
`53`	`53`	`// import from env`
`54`	`54`	`for (const key in settings) {`
`55`	`55`	`if (process.env[key]) {`
	`56`	`+ // @ts-expect-error - we know this key exists`
`56`	`57`	`settings[key] = process.env[key]!;`
`57`	`58`	`}`
`58`	`59`	`}`