feat: gemini reasoning budget support (#5052)

* feat(models): add Gemini 2.5 reasoning model identification and integrate reasoning effort logic in GeminiProvider * feat(AiProvider): enhance usage tracking by adding thoughts_tokens and updating usage types
2025-04-19 01:27:20 +08:00 · 2025-04-19 01:27:20 +08:00 · 3360905275
commit 3360905275
parent 0a28df132d
6 changed files with 77 additions and 13 deletions
--- a/src/renderer/src/config/models.ts
+++ b/src/renderer/src/config/models.ts
@ -2224,7 +2224,8 @@ export function isSupportedReasoningEffortModel(model?: Model): boolean {
    model.id.includes('claude-3-7-sonnet') ||
    model.id.includes('claude-3.7-sonnet') ||
    isOpenAIoSeries(model) ||
-    isGrokReasoningModel(model)
+    isGrokReasoningModel(model) ||
    isGemini25ReasoningModel(model)
  ) {
    return true
  }
@ -2251,6 +2252,18 @@ export function isGrokReasoningModel(model?: Model): boolean {
  return false
 }
 export function isGemini25ReasoningModel(model?: Model): boolean {
  if (!model) {
    return false
  }
  if (model.id.includes('gemini-2.5')) {
    return true
  }
  return false
 }
 export function isReasoningModel(model?: Model): boolean {
  if (!model) {
    return false
@ -2264,7 +2277,7 @@ export function isReasoningModel(model?: Model): boolean {
    return true
  }
-  if (model.id.includes('gemini-2.5')) {
+  if (isGemini25ReasoningModel(model)) {
    return true
  }
--- a/src/renderer/src/providers/AiProvider/GeminiProvider.ts
+++ b/src/renderer/src/providers/AiProvider/GeminiProvider.ts
@ -10,9 +10,16 @@ import {
  Part,
  PartUnion,
  SafetySetting,
  ThinkingConfig,
  ToolListUnion
 } from '@google/genai'
-import { isGemmaModel, isGenerateImageModel, isVisionModel, isWebSearchModel } from '@renderer/config/models'
+import {
  isGemini25ReasoningModel,
  isGemmaModel,
  isGenerateImageModel,
  isVisionModel,
  isWebSearchModel
 } from '@renderer/config/models'
 import { getStoreSetting } from '@renderer/hooks/useSettings'
 import i18n from '@renderer/i18n'
 import { getAssistantSettings, getDefaultModel, getTopNamingModel } from '@renderer/services/AssistantService'
@ -35,6 +42,8 @@ import OpenAI from 'openai'
 import { CompletionsParams } from '.'
 import BaseProvider from './BaseProvider'
 type ReasoningEffort = 'low' | 'medium' | 'high'
 export default class GeminiProvider extends BaseProvider {
  private sdk: GoogleGenAI
@ -182,6 +191,41 @@ export default class GeminiProvider extends BaseProvider {
    ]
  }
  /**
   * Get the reasoning effort for the assistant
   * @param assistant - The assistant
   * @param model - The model
   * @returns The reasoning effort
   */
  private getReasoningEffort(assistant: Assistant, model: Model) {
    if (isGemini25ReasoningModel(model)) {
      const effortRatios: Record<ReasoningEffort, number> = {
        high: 1,
        medium: 0.5,
        low: 0.2
      }
      const effort = assistant?.settings?.reasoning_effort as ReasoningEffort
      const effortRatio = effortRatios[effort]
      const maxBudgetToken = 24576 // https://ai.google.dev/gemini-api/docs/thinking
      const budgetTokens = Math.max(1024, Math.trunc(maxBudgetToken * effortRatio))
      if (!effortRatio) {
        return {
          thinkingConfig: {
            thinkingBudget: 0
          } as ThinkingConfig
        }
      }
      return {
        thinkingConfig: {
          thinkingBudget: budgetTokens,
          includeThoughts: true
        } as ThinkingConfig
      }
    }
    return {}
  }
  /**
   * Generate completions
   * @param messages - The messages
@ -241,6 +285,7 @@ export default class GeminiProvider extends BaseProvider {
      topP: assistant?.settings?.topP,
      maxOutputTokens: maxTokens,
      tools: tools,
      ...this.getReasoningEffort(assistant, model),
      ...this.getCustomParameters(assistant)
    }
@ -308,6 +353,7 @@ export default class GeminiProvider extends BaseProvider {
        text: response.text,
        usage: {
          prompt_tokens: response.usageMetadata?.promptTokenCount || 0,
          thoughts_tokens: response.usageMetadata?.thoughtsTokenCount || 0,
          completion_tokens: response.usageMetadata?.candidatesTokenCount || 0,
          total_tokens: response.usageMetadata?.totalTokenCount || 0
        },
@ -384,6 +430,7 @@ export default class GeminiProvider extends BaseProvider {
          usage: {
            prompt_tokens: chunk.usageMetadata?.promptTokenCount || 0,
            completion_tokens: chunk.usageMetadata?.candidatesTokenCount || 0,
            thoughts_tokens: chunk.usageMetadata?.thoughtsTokenCount || 0,
            total_tokens: chunk.usageMetadata?.totalTokenCount || 0
          },
          metrics: {
--- a/src/renderer/src/providers/AiProvider/OpenAIProvider.ts
+++ b/src/renderer/src/providers/AiProvider/OpenAIProvider.ts
@ -46,7 +46,7 @@ import {
 import { CompletionsParams } from '.'
 import BaseProvider from './BaseProvider'
-type ReasoningEffort = 'high' | 'medium' | 'low'
+type ReasoningEffort = 'low' | 'medium' | 'high'
 export default class OpenAIProvider extends BaseProvider {
  private sdk: OpenAI
--- a/src/renderer/src/providers/AiProvider/index.ts
+++ b/src/renderer/src/providers/AiProvider/index.ts
@ -11,14 +11,15 @@ import type {
  Metrics,
  Model,
  Provider,
-  Suggestion
+  Suggestion,
  Usage
 } from '@renderer/types'
 import OpenAI from 'openai'
 export interface ChunkCallbackData {
  text?: string
  reasoning_content?: string
-  usage?: OpenAI.Completions.CompletionUsage
+  usage?: Usage
  metrics?: Metrics
  // Zhipu web search
  webSearch?: any[]
--- a/src/renderer/src/services/TokenService.ts
+++ b/src/renderer/src/services/TokenService.ts
@ -1,6 +1,5 @@
-import { Assistant, FileType, FileTypes, Message } from '@renderer/types'
+import { Assistant, FileType, FileTypes, Message, Usage } from '@renderer/types'
 import { flatten, takeRight } from 'lodash'
 import { CompletionUsage } from 'openai/resources'
 import { approximateTokenSize } from 'tokenx'
 import { getAssistantSettings } from './AssistantService'
@ -52,7 +51,7 @@ export function estimateImageTokens(file: FileType) {
  return Math.floor(file.size / 100)
 }
-export async function estimateMessageUsage(message: Message): Promise<CompletionUsage> {
+export async function estimateMessageUsage(message: Message): Promise<Usage> {
  let imageTokens = 0
  if (message.files) {
@ -80,17 +79,17 @@ export async function estimateMessagesUsage({
 }: {
  assistant: Assistant
  messages: Message[]
-}): Promise<CompletionUsage> {
+}): Promise<Usage> {
  const outputMessage = messages.pop()!
  const prompt_tokens = await estimateHistoryTokens(assistant, messages)
  const { completion_tokens } = await estimateMessageUsage(outputMessage)
  return {
-    prompt_tokens: await estimateHistoryTokens(assistant, messages),
+    prompt_tokens,
    completion_tokens,
    total_tokens: prompt_tokens + completion_tokens
-  } as CompletionUsage
+  } as Usage
 }
 export async function estimateHistoryTokens(assistant: Assistant, msgs: Message[]) {
--- a/src/renderer/src/types/index.ts
+++ b/src/renderer/src/types/index.ts
@ -63,7 +63,7 @@ export type Message = {
  model?: Model
  files?: FileType[]
  images?: string[]
-  usage?: OpenAI.Completions.CompletionUsage
+  usage?: Usage
  metrics?: Metrics
  knowledgeBaseIds?: string[]
  type: 'text' | '@' | 'clear'
@ -97,6 +97,10 @@ export type Message = {
  foldSelected?: boolean
 }
 export type Usage = OpenAI.Completions.CompletionUsage & {
  thoughts_tokens?: number
 }
 export type Metrics = {
  completion_tokens?: number
  time_completion_millsec?: number