YouTube
Bilibili
Chrome and DingTalk
Search.NBA.FMVP.and.send.to.friend.mp4
Word
Write.an.introduction.of.Alibaba.in.Word.mp4
Mobile-Agent-v2.mp4
Mobile-Agent.mp4
- 🔥🔥[9.26] Mobile-Agent-v2 は The Thirty-eighth Annual Conference on Neural Information Processing Systems (NeurIPS 2024) によって承認されました。
- 🔥[8.23] MacとWindowsプラットフォームに対応したPC操作アシスタント「PC-Agent」をリリースしました。
- 🔥[7.29] Mobile-Agent、計算言語学に関する第23回中国全国会議(CCL 2024)でベストデモ賞を受賞しました。 CCL 2024では、今後のMobile-Agent-V3を示しました。メモリオーバーヘッド(8 GB)が小さく、推論速度が高く(操作あたり10S-15S)、すべてオープンソースモデルを使用しています。ビデオデモ、セクション📺Demoを参照してください。
- [6.27] Hugging FaceとModelScopeで、Mobile-Agent-v2のデモを公開しました。携帯電話のスクリーンショットをアップロードして体験できます。モデルやデバイスの設定は不要です。
- [6. 4] Modelscope-Agentは、Android Adb Envに基づいてMobile-Agent-V2をサポートしています。詳細はアプリケーションをご覧ください。
- [6. 4] 新世代のモバイルデバイス操作アシスタント Mobile-Agent-v2を発表しました。マルチエージェント協力により効果的なナビゲーションを実現します。
- [3.10] Mobile-AgentはICLR 2024 Workshop on Large Language Model (LLM) Agentsに採択されました。
- Mobile-Agent-v3
- Mobile-Agent-v2 - マルチエージェント協力による効果的なナビゲーションを実現するモバイルデバイス操作アシスタント
- Mobile-Agent - 視覚認識を備えた自律型マルチモーダルモバイルデバイスエージェント
Mobile-Agentが研究やアプリケーションに役立つ場合は、次のBibTeXを使用して引用してください:
@article{wang2024mobile2,
title={Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration},
author={Wang, Junyang and Xu, Haiyang and Jia, Haitao and Zhang, Xi and Yan, Ming and Shen, Weizhou and Zhang, Ji and Huang, Fei and Sang, Jitao},
journal={arXiv preprint arXiv:2406.01014},
year={2024}
}
@article{wang2024mobile,
title={Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception},
author={Wang, Junyang and Xu, Haiyang and Ye, Jiabo and Yan, Ming and Shen, Weizhou and Zhang, Ji and Huang, Fei and Sang, Jitao},
journal={arXiv preprint arXiv:2401.16158},
year={2024}
}
- AppAgent: Multimodal Agents as Smartphone Users
- mPLUG-Owl & mPLUG-Owl2: Modularized Multimodal Large Language Model
- Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- GroundingDINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
- CLIP: Contrastive Language-Image Pretraining