RunanywhereAI · VyasGuru · Mar 11, 2026 · Mar 11, 2026 · Mar 11, 2026 · Mar 12, 2026
diff --git a/examples/ios/RunAnywhereAI/RunAnywhereAI/App/RunAnywhereAIApp.swift b/examples/ios/RunAnywhereAI/RunAnywhereAI/App/RunAnywhereAIApp.swift
@@ -64,6 +64,7 @@ struct RunAnywhereAIApp: App {
                 }
             }
             .task {
+                _ = SettingsViewModel.shared
                 logger.info("🏁 App launched, initializing SDK...")
                 await initializeSDK()
             }
@@ -274,7 +275,8 @@ struct RunAnywhereAIApp: App {
                 name: "Qwen3 0.6B Q4_K_M",
                 url: qwen3_06bURL,
                 framework: .llamaCpp,
-                memoryRequirement: 500_000_000
+                memoryRequirement: 500_000_000,
+                supportsThinking: true
             )
         }
         if let qwen3_17bURL = URL(string: "https://huggingface.co/unsloth/Qwen3-1.7B-GGUF/resolve/main/Qwen3-1.7B-Q4_K_M.gguf") {
@@ -283,7 +285,8 @@ struct RunAnywhereAIApp: App {
                 name: "Qwen3 1.7B Q4_K_M",
                 url: qwen3_17bURL,
                 framework: .llamaCpp,
-                memoryRequirement: 1_200_000_000
+                memoryRequirement: 1_200_000_000,
+                supportsThinking: true
             )
         }
         if let qwen3_4bURL = URL(string: "https://huggingface.co/unsloth/Qwen3-4B-GGUF/resolve/main/Qwen3-4B-Q4_K_M.gguf") {
@@ -292,7 +295,8 @@ struct RunAnywhereAIApp: App {
                 name: "Qwen3 4B Q4_K_M",
                 url: qwen3_4bURL,
                 framework: .llamaCpp,
-                memoryRequirement: 2_800_000_000
+                memoryRequirement: 2_800_000_000,
+                supportsThinking: true
             )
         }
 
@@ -303,7 +307,8 @@ struct RunAnywhereAIApp: App {
                 name: "Qwen3.5 0.8B Q4_K_M",
                 url: qwen35_08bURL,
                 framework: .llamaCpp,
-                memoryRequirement: 600_000_000
+                memoryRequirement: 600_000_000,
+                supportsThinking: true
             )
         }
         if let qwen35_2bURL = URL(string: "https://huggingface.co/unsloth/Qwen3.5-2B-GGUF/resolve/main/Qwen3.5-2B-Q4_K_M.gguf") {
@@ -312,7 +317,8 @@ struct RunAnywhereAIApp: App {
                 name: "Qwen3.5 2B Q4_K_M",
                 url: qwen35_2bURL,
                 framework: .llamaCpp,
-                memoryRequirement: 1_500_000_000
+                memoryRequirement: 1_500_000_000,
+                supportsThinking: true
             )
         }
         if let qwen35_4bURL = URL(string: "https://huggingface.co/unsloth/Qwen3.5-4B-GGUF/resolve/main/Qwen3.5-4B-Q4_K_M.gguf") {
@@ -321,7 +327,8 @@ struct RunAnywhereAIApp: App {
                 name: "Qwen3.5 4B Q4_K_M",
                 url: qwen35_4bURL,
                 framework: .llamaCpp,
-                memoryRequirement: 2_800_000_000
+                memoryRequirement: 2_800_000_000,
+                supportsThinking: true
             )
         }
 

diff --git a/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+Events.swift b/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+Events.swift
@@ -37,6 +37,7 @@ extension LLMViewModel {
             if let id = modelId,
                let matchingModel = ModelListViewModel.shared.availableModels.first(where: { $0.id == id }) {
                 self.updateLoadedModelInfo(name: matchingModel.name, framework: matchingModel.framework)
+                self.setLoadedModelSupportsThinking(matchingModel.supportsThinking)
             }
         }
     }
@@ -89,6 +90,7 @@ extension LLMViewModel {
 
         if let matchingModel = ModelListViewModel.shared.availableModels.first(where: { $0.id == modelId }) {
             updateLoadedModelInfo(name: matchingModel.name, framework: matchingModel.framework)
+            setLoadedModelSupportsThinking(matchingModel.supportsThinking)
         }
 
         if !wasLoaded {

diff --git a/...es/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+Generation.swift b/...es/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+Generation.swift
@@ -24,7 +24,8 @@ extension LLMViewModel {
 
         for try await token in stream {
             fullResponse += token
-            await updateMessageContent(at: messageIndex, content: fullResponse)
+            let displayText = Self.stripThinkTags(from: fullResponse)
+            await updateMessageContent(at: messageIndex, content: displayText)
             NotificationCenter.default.post(
-        for try await token in stream {
-            fullResponse += token
-            await updateMessageContent(at: messageIndex, content: fullResponse)
-            let displayText = Self.stripThinkTags(from: fullResponse)
-            await updateMessageContent(at: messageIndex, content: displayText)
-            NotificationCenter.default.post(
+        var fullResponse = ""
+        var lastDisplayText = ""
+
+        let streamingResult = try await RunAnywhere.generateStream(prompt, options: options)
+        let stream = streamingResult.stream
+        let metricsTask = streamingResult.result
+
+        for try await token in stream {
+            fullResponse += token
+            let displayText = Self.stripThinkTags(from: fullResponse)
+            guard displayText != lastDisplayText else { continue }
+            lastDisplayText = displayText
+            await updateMessageContent(at: messageIndex, content: displayText)
+            NotificationCenter.default.post(
+                name: Notification.Name("MessageContentUpdated"),
+                object: nil
+            )
-        for try await token in stream {
-            fullResponse += token
-            await updateMessageContent(at: messageIndex, content: fullResponse)
-            let displayText = Self.stripThinkTags(from: fullResponse)
-            await updateMessageContent(at: messageIndex, content: displayText)
-            NotificationCenter.default.post(
+        var fullResponse = ""
+        var lastDisplayText = ""
+
+        let streamingResult = try await RunAnywhere.generateStream(prompt, options: options)
+        let stream = streamingResult.stream
+        let metricsTask = streamingResult.result
+
+        for try await token in stream {
+            fullResponse += token
+            let displayText = Self.stripThinkTags(from: fullResponse)
+            guard displayText != lastDisplayText else { continue }
+            lastDisplayText = displayText
+            await updateMessageContent(at: messageIndex, content: displayText)
+            NotificationCenter.default.post(
+                name: Notification.Name("MessageContentUpdated"),
+                object: nil
+            )
                 name: Notification.Name("MessageContentUpdated"),
                 object: nil

diff --git a/...s/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+ModelManagement.swift b/...s/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+ModelManagement.swift
@@ -19,6 +19,7 @@ extension LLMViewModel {
             await MainActor.run {
                 self.updateModelLoadedState(isLoaded: true)
                 self.updateLoadedModelInfo(name: modelInfo.name, framework: modelInfo.framework)
+                self.setLoadedModelSupportsThinking(modelInfo.supportsThinking)
                 self.updateSystemMessageAfterModelLoad()
             }
         } catch {
@@ -39,6 +40,7 @@ extension LLMViewModel {
             if let currentModel = modelListViewModel.currentModel {
                 self.updateModelLoadedState(isLoaded: true)
                 self.updateLoadedModelInfo(name: currentModel.name, framework: currentModel.framework)
+                self.setLoadedModelSupportsThinking(currentModel.supportsThinking)
                 verifyModelLoaded(currentModel)
             } else {
                 self.updateModelLoadedState(isLoaded: false)

diff --git a/...s/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+ToolCalling.swift b/...s/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel+ToolCalling.swift
@@ -69,10 +69,13 @@ extension LLMViewModel {
             toolCallInfo = nil
         }
 
+        // Strip any residual <think> tags before displaying
+        let displayText = Self.stripThinkTags(from: result.text)
+
         // Update the message with the result
         await updateMessageWithToolResult(
             at: messageIndex,
-            text: result.text,
+            text: displayText,
             toolCallInfo: toolCallInfo
         )
     }

diff --git a/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel.swift b/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/ViewModels/LLMViewModel.swift
@@ -29,6 +29,7 @@ final class LLMViewModel {
     private(set) var error: Error?
     private(set) var isModelLoaded = false
     private(set) var loadedModelName: String?
+    private(set) var loadedModelSupportsThinking = false
     private(set) var selectedFramework: InferenceFramework?
     private(set) var modelSupportsStreaming = true
     private(set) var currentConversation: Conversation?
@@ -80,8 +81,13 @@ final class LLMViewModel {
         selectedFramework = framework
     }
 
+    func setLoadedModelSupportsThinking(_ value: Bool) {
+        loadedModelSupportsThinking = value
+    }
+
     func clearLoadedModelInfo() {
         loadedModelName = nil
+        loadedModelSupportsThinking = false
         selectedFramework = nil
     }
 
@@ -244,14 +250,21 @@ final class LLMViewModel {
         do {
             try await ensureModelIsLoaded()
             let options = getGenerationOptions()
-            try await performGeneration(prompt: prompt, options: options, messageIndex: messageIndex)
+            let effectivePrompt = applyThinkingModePrefix(to: prompt)
+            try await performGeneration(prompt: effectivePrompt, options: options, messageIndex: messageIndex)
         } catch {
             await handleGenerationError(error, at: messageIndex)
         }
 
         await finalizeGeneration(at: messageIndex)
     }
 
+    private func applyThinkingModePrefix(to prompt: String) -> String {
+        guard loadedModelSupportsThinking else { return prompt }
+        let thinkingModeEnabled = SettingsViewModel.shared.thinkingModeEnabled
+        return thinkingModeEnabled ? prompt : "/no_think\n\(prompt)"
+    }
+
     private func performGeneration(
         prompt: String,
         options: LLMGenerationOptions,
@@ -476,20 +489,17 @@ final class LLMViewModel {
         if !isModelLoaded {
             throw LLMError.noModelLoaded
         }
-
-        // Verify model is actually loaded in SDK
-        if let model = ModelListViewModel.shared.currentModel {
-            try await RunAnywhere.loadModel(model.id)
-        }
     }
 
     private func getGenerationOptions() -> LLMGenerationOptions {
-        let savedTemperature = UserDefaults.standard.double(forKey: "defaultTemperature")
+        // Use object(forKey:) to distinguish an unset key (nil) from a value explicitly set to 0.0
+        let savedTemperature = UserDefaults.standard.object(forKey: "defaultTemperature") as? Double
         let savedMaxTokens = UserDefaults.standard.integer(forKey: "defaultMaxTokens")
         let savedSystemPrompt = UserDefaults.standard.string(forKey: "defaultSystemPrompt")
+        let thinkingModeEnabled = SettingsViewModel.shared.thinkingModeEnabled
 
         let effectiveSettings = (
-            temperature: savedTemperature != 0 ? savedTemperature : Self.defaultTemperatureValue,
+            temperature: savedTemperature ?? Self.defaultTemperatureValue,
             maxTokens: savedMaxTokens != 0 ? savedMaxTokens : Self.defaultMaxTokensValue
         )
 
@@ -501,7 +511,7 @@ final class LLMViewModel {
     }()
 
     logger.info(
-        "[PARAMS] App getGenerationOptions: temperature=\(effectiveSettings.temperature), maxTokens=\(effectiveSettings.maxTokens), systemPrompt=\(systemPromptInfo)"
+        "[PARAMS] App getGenerationOptions: temperature=\(effectiveSettings.temperature), maxTokens=\(effectiveSettings.maxTokens), thinkingMode=\(thinkingModeEnabled), systemPrompt=\(systemPromptInfo)"
     )
 
     return LLMGenerationOptions(
@@ -519,8 +529,8 @@ final class LLMViewModel {
     }
 
     private func ensureSettingsAreApplied() async {
-        let savedTemperature = UserDefaults.standard.double(forKey: "defaultTemperature")
-        let temperature = savedTemperature != 0 ? savedTemperature : Self.defaultTemperatureValue
+        let savedTemperature = UserDefaults.standard.object(forKey: "defaultTemperature") as? Double
+        let temperature = savedTemperature ?? Self.defaultTemperatureValue
 
         let savedMaxTokens = UserDefaults.standard.integer(forKey: "defaultMaxTokens")
         let maxTokens = savedMaxTokens != 0 ? savedMaxTokens : Self.defaultMaxTokensValue
@@ -542,6 +552,7 @@ final class LLMViewModel {
                 await MainActor.run {
                     self.isModelLoaded = true
                     self.loadedModelName = model.name
+                    self.loadedModelSupportsThinking = model.supportsThinking
                     self.selectedFramework = model.framework
                     self.modelSupportsStreaming = supportsStreaming
 
@@ -563,4 +574,19 @@ final class LLMViewModel {
             loadConversation(conversation)
         }
     }
+
+    static func stripThinkTags(from text: String) -> String {
+        var result = text
+        // Remove complete <think>...</think> blocks 
+        while let startRange = result.range(of: "<think>"),
+              let endRange = result.range(of: "</think>"),
+              startRange.upperBound <= endRange.lowerBound {
+            result.removeSubrange(startRange.lowerBound..<endRange.upperBound)
+        }
+        if let trailingStart = result.range(of: "<think>", options: .backwards),
+           result.range(of: "</think>", range: trailingStart.upperBound..<result.endIndex) == nil {
+            result = String(result[result.startIndex..<trailingStart.lowerBound])
+        }
+        return result.trimmingCharacters(in: .whitespacesAndNewlines)
+    }
 }
diff --git a/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/Views/ChatInterfaceView.swift b/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Chat/Views/ChatInterfaceView.swift
@@ -31,6 +31,8 @@ struct ChatInterfaceView: View {
     @State private var showingLoRAManagement = false
     @State private var pendingLoRAURL: URL?
     @State private var loraScale: Float = 1.0
+    @ObservedObject private var toolSettingsViewModel = ToolSettingsViewModel.shared
+    @AppStorage("thinkingModeEnabled") private var thinkingModeEnabled = false
     @FocusState private var isTextFieldFocused: Bool
 
     private let logger = Logger(
@@ -369,8 +371,8 @@ extension ChatInterfaceView {
             .onReceive(
                 NotificationCenter.default.publisher(for: Notification.Name("MessageContentUpdated"))
             ) { _ in
-                if viewModel.isGenerating {
-                    proxy.scrollTo("typing", anchor: .bottom)
+                if viewModel.isGenerating, let lastMessage = viewModel.messages.last {
+                    proxy.scrollTo(lastMessage.id, anchor: .bottom)
                 }
             }
         }
@@ -412,7 +414,7 @@ extension ChatInterfaceView {
                     .animation(nil, value: message.content)
             }
 
-            if viewModel.isGenerating {
+            if viewModel.isGenerating, viewModel.messages.last?.content.isEmpty == true {
                 TypingIndicatorView()
                     .id("typing")
                     .transition(typingTransition)
@@ -445,9 +447,13 @@ extension ChatInterfaceView {
         VStack(spacing: 0) {
             Divider()
 
-            // Status badges (tool calling + LoRA)
+            // Status badges (thinking mode + tool calling + LoRA)
             HStack(spacing: 8) {
-                if viewModel.useToolCalling {
+                if thinkingModeEnabled && viewModel.loadedModelSupportsThinking {
+                    thinkingModeBadge
+                }
+
+                if viewModel.useToolCalling && !toolSettingsViewModel.registeredTools.isEmpty {
                     toolCallingBadge
                 }
 
@@ -459,7 +465,7 @@ extension ChatInterfaceView {
                     loraAddButton
                 }
             }
-            .padding(.top, (viewModel.useToolCalling || !viewModel.loraAdapters.isEmpty || hasModelSelected) ? 8 : 0)
+            .padding(.top, ((thinkingModeEnabled && viewModel.loadedModelSupportsThinking) || viewModel.useToolCalling || !viewModel.loraAdapters.isEmpty || hasModelSelected) ? 8 : 0)
 
             HStack(spacing: AppSpacing.mediumLarge) {
                 TextField("Type a message...", text: $viewModel.currentInput, axis: .vertical)
@@ -493,6 +499,24 @@ extension ChatInterfaceView {
         }
     }
 
+    var thinkingModeBadge: some View {
+        Button {
+            thinkingModeEnabled.toggle()
+        } label: {
+            HStack(spacing: 6) {
+                Image(systemName: "lightbulb.min.fill")
+                    .font(.system(size: 10))
+                Text("Thinking")
+                    .font(AppTypography.caption2)
+            }
+            .foregroundColor(AppColors.primaryPurple)
+            .padding(.horizontal, 10)
+            .padding(.vertical, 4)
+            .background(AppColors.primaryPurple.opacity(0.1))
+            .cornerRadius(6)
+        }
+    }
+
     var toolCallingBadge: some View {
         HStack(spacing: 6) {
             Image(systemName: "wrench.and.screwdriver")

diff --git a/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Models/ModelListViewModel.swift b/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Models/ModelListViewModel.swift
@@ -129,8 +129,14 @@ class ModelListViewModel: ObservableObject {
         await loadModelsFromRegistry()
     }
 
+    private var isLoadingModel = false
+
     /// Select and load a model
     func selectModel(_ model: ModelInfo) async {
+        guard !isLoadingModel else { return }
+        isLoadingModel = true
+        defer { isLoadingModel = false }
+
         do {
             try await loadModel(model)
             setCurrentModel(model)

diff --git a/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/RAG/ViewModels/RAGViewModel.swift b/examples/ios/RunAnywhereAI/RunAnywhereAI/Features/RAG/ViewModels/RAGViewModel.swift
@@ -107,8 +107,16 @@ final class RAGViewModel {
         }
 
         do {
+            let settings = SettingsViewModel.shared
+            let effectiveQuestion: String
+            if settings.loadedModelSupportsThinking && !settings.thinkingModeEnabled {
+                effectiveQuestion = "/no_think\n\(question)"
+            } else {
+                effectiveQuestion = question
+            }
+
             logger.info("Querying RAG pipeline: \(question)")
-            let result = try await RunAnywhere.ragQuery(question: question)
+            let result = try await RunAnywhere.ragQuery(question: effectiveQuestion)
             messages.append((role: .assistant, text: result.answer))
             logger.info("Query complete (\(result.totalTimeMs, format: .fixed(precision: 0))ms)")
         } catch {