MadeAgents
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎.gitmodules‎
Lines changed: 9 additions & 0 deletions b/‎.gitmodules‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎.vscode/settings.json‎
Lines changed: 9 additions & 0 deletions b/‎.vscode/settings.json‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎README.md‎
Lines changed: 10 additions & 3 deletions b/‎README.md‎
Lines changed: 10 additions & 3 deletions
diff --git a/‎benchmark/android_lab/README.md‎
Lines changed: 35 additions & 0 deletions b/‎benchmark/android_lab/README.md‎
Lines changed: 35 additions & 0 deletions
diff --git a/‎benchmark/android_lab/configs/gpt-4o-linux-XML_template.yaml‎
Lines changed: 27 additions & 0 deletions b/‎benchmark/android_lab/configs/gpt-4o-linux-XML_template.yaml‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎benchmark/android_lab/configs/mobile-use-MultiAgent_template.yaml‎
Lines changed: 33 additions & 0 deletions b/‎benchmark/android_lab/configs/mobile-use-MultiAgent_template.yaml‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎benchmark/android_lab/configs/mobile-use-ReActAgent_template.yaml‎
Lines changed: 27 additions & 0 deletions b/‎benchmark/android_lab/configs/mobile-use-ReActAgent_template.yaml‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎benchmark/android_lab/eval.py‎
Lines changed: 107 additions & 0 deletions b/‎benchmark/android_lab/eval.py‎
Lines changed: 107 additions & 0 deletions
@@ -23,4 +23,5 @@ output
 .env
 poetry.lock
 **/proto
-**/.eggs
+**/.eggs
+*.log
@@ -0,0 +1,9 @@
+[submodule "third_party/android_world"]
+	path = third_party/android_world
+	url = https://github.com/MadeAgents/android_world.git
+[submodule "third_party/android_env"]
+	path = third_party/android_env
+	url = https://github.com/google-deepmind/android_env.git
+[submodule "third_party/Android-Lab"]
+	path = third_party/Android-Lab
+	url = https://github.com/THUDM/Android-Lab.git
@@ -0,0 +1,9 @@
+{
+    "python.analysis.extraPaths": [
+        "./third_party/android_env",
+        "./third_party/android_world",
+		"./third_party/Android-Lab"
+    ],
+    "python.analysis.autoSearchPaths": true,
+    "python.analysis.useLibraryCodeForTypes": true
+}
@@ -15,14 +15,21 @@ The user inputs the task description on the Web interface, and the Mobile Use au
 
 
 ## 🎉 News
-- **[2025/03/28]**: The [document](docs/AndroidWorld.md) for running Mobile Use in the AndroidWorld dynamic environment now is released!
+- **[2025/05/13]**: Mobile Use v0.3.0 now is released! AndroidLab dynamic environment now is released! Significant improvements have been achieved on the two evaluation benchmarks of [AndroidLab](https://github.com/THUDM/Android-Lab) and [AndroidWorld](https://github.com/google-research/android_world).
+- **[2025/03/28]**: The [document](benchmark/android_world/README.md) for running Mobile Use in the AndroidWorld dynamic environment now is released!
 - **[2025/03/17]**: Mobile Use now supports the [multi-agent](mobile_use/agents/multi_agent.py) framework! Equipped with planning, reflection, memorization and progress mechanisms, Mobile Use achieves impressive performance on AndroidWorld!
 - **[2025/03/04]**: Mobile Use is released! We have also released v0.1.0 of [mobile-use](https://github.com/MadeAgents/mobile-use) library, providing you an AI assistant for mobile - Any app, any task!
 
 ## 📊 Benchmark
-![](docs/assets/benchmark.png)
+![](docs/assets/androidworld_benchmark.png)
+
+In the [AndroidWorld](https://github.com/google-research/android_world) dynamic evaluation environment, we evaluated the multi-agent version of Mobile Use agent with the multimodal large language model Qwen2.5-VL-72B-Instruct and achieved a 61.2% success rate.
+
+
+![](docs/assets/androidlab_benchmark.png)
+
+In the [AndroidLab](https://github.com/THUDM/Android-Lab) dynamic evaluation environment, we evaluated the multi-agent version of Mobile Use agent with the multimodal large language model Qwen2.5-VL-72B-Instruct and achieved a 44.2% success rate.
 
-In the [AndroidWorld](https://github.com/google-research/android_world) dynamic evaluation environment, we evaluated the multi-agent version of Mobile Use agent with the multimodal large language model Qwen2.5-VL-72B-Instruct and achieved a 48% success rate.
 
 ## ✨ Key Features
 - **Auto-operating the phone**: Automatically operate the UI to complete tasks based on user input descriptions.
 
@@ -0,0 +1,35 @@
+# Benchmark MobileUse in AndroidLab
+
+## Step 1: Environment Setup
+**Install AndroidLab requirements**
+```
+pip install -r third_party/Android_Lab/requirements.txt
+```
+
+
+**Set up the AVD environment**
+
+Set up detail see [Android_Lab document](https://github.com/THUDM/Android-Lab?tab=readme-ov-file).
+
+We recommand use Docker on Linux (x86_64).
+
+
+**Install mobile-use**
+Install mobile-use by following the guidance in [README.md](../README.md).
+
+
+## Step 2: Perform the benchmark
+1. Copy the template config file and set your api_key and base_url in the config file
+```
+cp benchmark/android_lab/configs/mobile-use-MultiAgent_template.yaml benchmark/android_lab/configs/mobile-use-MultiAgent.yaml
+```
+
+2. Start evaluation
+```
+python eval.py -n test_name -c benchmark/android_lab/configs/mobile-use-MultiAgent.yaml
+```
+
+3. Calculate the metrics
+```
+python benchmark/android_lab/generate_result.py --input_folder logs/evaluation_mobile_use
+```
@@ -0,0 +1,27 @@
+name: OpenAIAgent(gpt-4o)
+
+agent:
+  name: OpenAIAgent
+  args:
+    api_key: xxxx
+    # api_base: xxxx
+    model_name: gpt-4o
+    max_new_tokens: 512
+
+task:
+  class: TextOnlyMobileTask_AutoTest
+  args:
+    save_dir: "./logs/evaluation_openai_agent"
+    max_rounds: 25
+    request_interval: 3
+    mode: "in_app"
+
+eval:
+  avd_name: Pixel_7_Pro_API_33
+  avd_log_dir: ./logs/evaluation
+  docker: True
+  docker_args:
+    image_name: android_eval:latest
+    port: 6060
+
+
@@ -0,0 +1,33 @@
+name: MobileUseMultiAgent
+
+agent:
+    name: MobileUseAgent
+    args:
+      vllm_config:
+        model_name: qwen2.5-vl-72b-instruct
+        api_key: xxxxx
+        base_url: xxxxx
+        max_tokens: 1024
+      agent_config:
+        type: MultiAgent
+        use_note_taker: false
+        use_planner: false
+        use_reflector: true
+        use_long_reflector: true
+        evaluate_when_finish: true
+        use_processor: true
+
+task:
+    class: MobileUse_AutoTest
+    args:
+        save_dir: "./logs/evaluation_mobile_use"
+        max_rounds: 25
+        request_interval: 3
+
+eval:
+  avd_name: Pixel_7_Pro_API_33
+  avd_log_dir: ./logs/evaluation
+  docker: True
+  docker_args:
+    image_name: android_eval:latest
+    port: 6060
@@ -0,0 +1,27 @@
+name: MobileUseReActAgent
+
+agent:
+    name: MobileUseAgent
+    args:
+      vllm_config:
+        model_name: qwen2.5-vl-72b-instruct
+        api_key: xxxxx
+        base_url: xxxxx
+        max_tokens: 1024
+      agent_config:
+        type: ReAct
+
+task:
+    class: MobileUse_AutoTest
+    args:
+        save_dir: "./logs/evaluation_mobile_use"
+        max_rounds: 25
+        request_interval: 3
+
+eval:
+  avd_name: Pixel_7_Pro_API_33
+  avd_log_dir: ./logs/evaluation
+  docker: True
+  docker_args:
+    image_name: android_eval:latest
+    port: 6060
@@ -0,0 +1,107 @@
+import os
+import sys
+import argparse
+import yaml
+
+parant_dir = os.path.dirname(__file__)
+project_home = os.path.dirname(os.path.dirname(parant_dir))
+sys.path = [
+    os.path.join(project_home, 'third_party/Android-Lab')
+] + sys.path
+
+from agent import get_agent
+from evaluation.auto_test import *
+from evaluation.parallel import parallel_worker
+from generate_result import find_all_task_files
+from evaluation.configs import AppConfig, TaskConfig
+from mobile_use_auto_test import *
+from mobile_use_executor import *
+
+
+if __name__ == '__main__':
+    android_lab_dir = os.path.join(project_home, 'third_party/Android-Lab')
+    task_yamls = os.listdir(f'{android_lab_dir}/evaluation/config')
+    task_yamls = [f"{android_lab_dir}/evaluation/config/" + i for i in task_yamls if i.endswith(".yaml")]
+
+    arg_parser = argparse.ArgumentParser()
+    arg_parser.add_argument("-n", "--name", default=None, type=str)
+    arg_parser.add_argument("-c", "--config", default=f"{parant_dir}/config.yaml", type=str)
+    arg_parser.add_argument("--task_config", nargs="+", default=task_yamls, help="All task config(s) to load")
+    arg_parser.add_argument("--task_id", nargs="+", default=None)
+    arg_parser.add_argument("--debug", action="store_true", default=False)
+    arg_parser.add_argument("--app", nargs="+", default=None)
+    arg_parser.add_argument("-p", "--parallel", default=1, type=int)
+
+    args = arg_parser.parse_args()
+    with open(args.config, "r") as file:
+        yaml_data = yaml.safe_load(file)
+
+    agent_config = yaml_data["agent"]
+    task_config = yaml_data["task"]
+    eval_config = yaml_data["eval"]
+
+    if args.name is None:
+        args.name = f"{yaml_data.get('name', agent_config['name'])}_{datetime.datetime.now().strftime('%Y%m%dT%H%M%S')}"
+
+    autotask_class = task_config["class"] if "class" in task_config else "ScreenshotMobileTask_AutoTest"
+
+    single_config = TaskConfig(**task_config["args"])
+    single_config = single_config.add_config(eval_config)
+    if "True" == agent_config.get("relative_bbox"):
+        single_config.is_relative_bbox = True
+    agent_class = globals().get(agent_config["name"])
+    if agent_class is None:
+        agent = get_agent(agent_config["name"], **agent_config["args"])
+    else:
+        agent = agent_class(**agent_config["args"])
+
+    task_files = find_all_task_files(args.task_config)
+    print(f"Evaluation saved name: {args.name}")
+    if os.path.exists(os.path.join(single_config.save_dir, args.name)):
+        already_run = os.listdir(os.path.join(single_config.save_dir, args.name))
+        already_run = [i.split("_")[0] + "_" + i.split("_")[1] for i in already_run]
+    else:
+        already_run = []
+
+    all_task_start_info = []
+    for app_task_config_path in task_files:
+        app_config = AppConfig(app_task_config_path)
+        if args.task_id is None:
+            task_ids = list(app_config.task_name.keys())
+        else:
+            task_ids = args.task_id
+        for task_id in task_ids:
+            if task_id in already_run:
+                print(f"Task {task_id} already run, skipping")
+                continue
+            if task_id not in app_config.task_name:
+                continue
+            task_instruction = app_config.task_name[task_id].strip()
+            app = app_config.APP
+            if args.app is not None:
+                print(app, args.app)
+                if app not in args.app:
+                    continue
+            package = app_config.package
+            command_per_step = app_config.command_per_step.get(task_id, None)
+
+            task_instruction = f"You should use {app} to complete the following task: {task_instruction}"
+            all_task_start_info.append({
+                "agent": agent,
+                "task_id": task_id,
+                "task_instruction": task_instruction,
+                "package": package,
+                "command_per_step": command_per_step,
+                "app": app
+            })
+
+    class_ = globals().get(autotask_class)
+    if class_ is None:
+        raise AttributeError(f"Class {autotask_class} not found. Please check the class name in the config file.")
+
+    if args.parallel == 1:
+        Auto_Test = class_(single_config.subdir_config(args.name))
+        print("Auto_Test", Auto_Test)
+        Auto_Test.run_serial(all_task_start_info)
+    else:
+        parallel_worker(class_, single_config.subdir_config(args.name), args.parallel, all_task_start_info)