Edge.AI/model-selector.ts at main · InledGroup/Edge.AI · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
// Intelligent Model Selection
// Selects optimal model and quantization based on device capabilities

import type { GPUTierConfig } from './gpu-limits';

export interface ModelRecommendation {
  modelName: string;
  displayName: string;
  size: string;
  quantization: string;
  reason: string;
}

/**
 * Select optimal model quantization based on device capabilities
 * Q4_K_M: Best balance of quality/speed (default)
 * Q0_F16: Ultra-small for very limited devices
 */
export function selectOptimalModel(
  memoryGB: number,
  hasWebGPU: boolean,
  gpuConfig: GPUTierConfig | null
): ModelRecommendation {
  // CRITICAL: Mobile detection - if < 4GB RAM, assume mobile device
  const isMobile = memoryGB < 4 || /Android|iPhone|iPad|iPod/i.test(navigator.userAgent);

  // Critical: < 2GB RAM - use smallest model (old mobile devices)
  if (memoryGB < 2) {
    console.log('📱 Detected device with < 2GB RAM, using ultra-light model');
    return {
      modelName: 'SmolLM2-135M-Instruct-q0f16-MLC',
      displayName: 'SmolLM2 135M',
      size: '135MB',
      quantization: 'Q0_F16',
      reason: 'Dispositivo móvil con muy poca RAM (<2GB)',
    };
  }

  // Mobile with 2-4GB RAM: Use small model optimized for mobile
  if (isMobile && memoryGB < 4) {
    console.log('📱 Detected mobile device with 2-4GB RAM, using mobile-optimized model');
    return {
      modelName: 'SmolLM2-360M-Instruct-q4f16_1-MLC',
      displayName: 'SmolLM2 360M',
      size: '200MB',
      quantization: 'Q4_F16',
      reason: 'Dispositivo móvil con RAM limitada (2-4GB)',
    };
  }

  // No WebGPU: CPU-only, prioritize speed over quality
  if (!hasWebGPU) {
    console.log('💻 No WebGPU detected, using CPU-optimized model');
    if (memoryGB >= 4) {
      return {
        modelName: 'Qwen2.5-0.5B-Instruct-q4f16_1-MLC',
        displayName: 'Qwen 2.5 0.5B',
        size: '350MB',
        quantization: 'Q4_F16',
        reason: 'Sin WebGPU, modelo pequeño para CPU',
      };
    }

    return {
      modelName: 'SmolLM2-360M-Instruct-q4f16_1-MLC',
      displayName: 'SmolLM2 360M',
      size: '200MB',
      quantization: 'Q4_F16',
      reason: 'Sin WebGPU, RAM limitada',
    };
  }

  // With WebGPU: use GPU tier to decide
  if (gpuConfig) {
    const tier = gpuConfig.tier;

    if (tier === 'discrete' && memoryGB >= 8) {
      return {
        modelName: 'Phi-3.5-mini-instruct-q4f16_1-MLC',
        displayName: 'Phi-3.5 Mini',
        size: '1.9GB',
        quantization: 'Q4_F16',
        reason: 'GPU discreta, mejor calidad',
      };
    }

    if (tier === 'integrated' && memoryGB >= 6) {
      return {
        modelName: 'Llama-3.2-1B-Instruct-q4f16_1-MLC',
        displayName: 'Llama 3.2 1B',
        size: '700MB',
        quantization: 'Q4_F16',
        reason: 'GPU integrada, buen balance',
      };
    }

    if (tier === 'discrete' && memoryGB >= 6) {
      return {
        modelName: 'Llama-3.2-1B-Instruct-q4f16_1-MLC',
        displayName: 'Llama 3.2 1B',
        size: '700MB',
        quantization: 'Q4_F16',
        reason: 'GPU discreta con RAM moderada',
      };
    }
  }

  // Safe default: works on most devices with WebGPU
  return {
    modelName: 'Qwen2.5-0.5B-Instruct-q4f16_1-MLC',
    displayName: 'Qwen 2.5 0.5B',
    size: '350MB',
    quantization: 'Q4_F16',
    reason: 'Modelo por defecto, compatible con la mayoría de dispositivos',
  };
}

/**
 * Validate if a model can run on the device
 */
export function validateModelForDevice(
  modelName: string,
  memoryGB: number,
  gpuConfig: GPUTierConfig | null
): { canRun: boolean; reason?: string } {
  // Model size estimates (in MB)
  const modelSizes: Record<string, number> = {
    'SmolLM2-135M-Instruct-q0f16-MLC': 135,
    'SmolLM2-360M-Instruct-q4f16_1-MLC': 200,
    'Qwen2.5-0.5B-Instruct-q4f16_1-MLC': 350,
    'TinyLlama-1.1B-Chat-v1.0-q4f16_1-MLC': 550,
    'Llama-3.2-1B-Instruct-q4f16_1-MLC': 700,
    'Qwen2.5-1.5B-Instruct-q4f16_1-MLC': 900,
    'Phi-3.5-mini-instruct-q4f16_1-MLC': 1900,
    'Llama-3.2-3B-Instruct-q4f16_1-MLC': 1600,
  };

  const modelSize = modelSizes[modelName] || 500;
  const modelSizeGB = modelSize / 1024;

  // Check RAM
  if (modelSizeGB > memoryGB * 0.6) {
    // Model should use max 60% of RAM
    return {
      canRun: false,
      reason: `Modelo requiere ${modelSize}MB, pero el dispositivo solo tiene ${memoryGB}GB RAM`,
    };
  }

  // Check GPU buffer size if WebGPU
  if (gpuConfig) {
    const modelSizeBytes = modelSize * 1024 * 1024;
    if (modelSizeBytes > gpuConfig.recommendedModelSize) {
      return {
        canRun: false,
        reason: `Modelo demasiado grande para GPU (${modelSize}MB vs ${Math.round(gpuConfig.recommendedModelSize / 1024 / 1024)}MB límite)`,
      };
    }
  }

  return { canRun: true };
}