AutoGLM-Phone应用场景拓展:自动打卡、信息采集案例
1. Open-AutoGLM:智谱开源的手机端AI Agent框架
你有没有想过,让AI替你操作手机完成日常任务?比如每天早上自动打卡、定时收集竞品信息、甚至帮你刷短视频找灵感——这些听起来像科幻的场景,现在通过AutoGLM-Phone已经可以实现。
AutoGLM-Phone 是由智谱推出的手机端 AI Agent 框架,基于视觉语言模型(VLM)构建,能够“看懂”手机屏幕内容,并结合 ADB(Android Debug Bridge)技术自动执行点击、滑动、输入等操作。用户只需要用自然语言下达指令,比如“打开小红书搜索北京美食探店”,系统就能理解意图、分析当前界面、规划操作路径并一步步执行,全程无需手动干预。
这个项目的核心是Open-AutoGLM,一个完全开源的控制框架。它不依赖特定硬件,也不需要 Root 手机,只要开启开发者模式和 ADB 调试,就能让你的安卓设备变成一个“被AI驱动”的智能终端。
更关键的是,它支持远程调试和云端模型部署,意味着你可以把大模型放在服务器上运行,本地只负责设备控制,既节省资源又提升响应速度。
接下来,我们不仅会带你快速部署这套系统,还会深入两个极具实用价值的落地场景:自动考勤打卡和跨平台信息采集,看看它是如何真正帮我们“解放双手”的。
2. 核心能力解析:多模态感知 + 自主决策 + 安全可控
2.1 多模态理解:看得懂屏幕,也听得懂人话
传统自动化工具如按键精灵或 Tasker,依赖固定的坐标或控件ID来操作,一旦界面变化就容易失效。而 AutoGLM-Phone 的核心优势在于它的视觉语言模型(VLM)。
当你输入一句“去企业微信打卡”,系统会:
- 截取当前手机屏幕
- 将图像与文字指令一起送入 VLM 模型
- 模型输出:“找到‘工作台’按钮 → 点击进入 → 查找‘打卡’图标 → 点击签到”
这种“图文结合”的理解方式,让它能适应不同品牌手机的UI差异,也能应对App版本更新带来的界面变动。
2.2 动作规划与执行:从意图到动作链
系统内部采用分步推理机制,将复杂任务拆解为原子操作:
目标:关注抖音号 dycwo11nt61d → 打开抖音 App → 点击搜索框 → 输入账号名 → 进入用户主页 → 点击“关注”按钮每一步都由模型实时判断当前状态是否匹配预期,如果不符(例如弹出广告),会自动尝试修正路径,具备一定的容错能力。
2.3 安全机制设计:敏感操作人工确认
为了避免误操作,系统内置了安全策略:
- 在涉及支付、删除、授权等高风险操作时,会暂停并提示用户确认
- 验证码输入、登录密码填写等场景默认交由人工处理
- 支持远程接管:通过网页或命令行随时中断流程
这使得它既能自动化执行常规任务,又不会因“太聪明”而失控。
3. 实战部署:本地电脑连接真机全流程
要让 AutoGLM-Phone 跑起来,你需要准备三部分:云服务端模型、本地控制端和安卓设备。本文重点讲解本地控制端与真机的连接配置。
3.1 硬件与环境准备
| 组件 | 要求 |
|---|---|
| 本地电脑 | Windows 或 macOS,推荐 Python 3.10+ |
| 安卓设备 | Android 7.0 及以上,支持 USB 调试 |
| ADB 工具 | Android SDK Platform Tools |
ADB 安装与配置
Windows 用户:
- 下载 Platform Tools
- 解压后复制文件夹路径(如
C:\platform-tools) Win + R输入sysdm.cpl→ 高级 → 环境变量 → 在系统变量中编辑Path- 添加新条目:
C:\platform-tools - 打开命令行输入
adb version,出现版本号即成功
macOS 用户:
在终端执行以下命令(假设解压目录为~/Downloads/platform-tools):
export PATH=${PATH}:~/Downloads/platform-tools可将其写入.zshrc或.bash_profile实现永久生效。
3.2 手机端设置
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。启用 USB 调试
返回设置 → 开发者选项 → 勾选“USB 调试”安装 ADB Keyboard(推荐)
- 下载 ADB Keyboard APK 并安装
- 进入“语言与输入法”设置,将默认输入法切换为 ADB Keyboard
- 作用:允许通过 ADB 发送中文字符,避免输入乱码问题
3.3 部署控制端代码
在本地电脑执行:
# 克隆开源仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .注意:建议使用虚拟环境(venv 或 conda)隔离依赖,避免冲突。
3.4 设备连接方式
确保手机通过 USB 连接到电脑,或处于同一局域网下。
USB 连接验证
adb devices正常输出应类似:
List of devices attached ABCDEF1234567890 device如果显示unauthorized,请在手机上确认是否允许该电脑调试。
WiFi 远程连接(推荐用于长期运行)
首次需用 USB 连接,然后启用 TCP/IP 模式:
# 启动 ADB 监听 5555 端口 adb tcpip 5555 # 断开 USB,使用 IP 连接(替换为你的手机IP) adb connect 192.168.1.100:5555之后即可拔掉数据线,通过无线网络控制设备。
4. 场景一:自动打卡——告别迟到烦恼
很多公司使用企业微信、钉钉或自研App进行上下班打卡,但总有忘打卡的时候。现在,我们可以让 AutoGLM-Phone 每天准时帮你完成。
4.1 需求分析
- 时间:每天上午 9:00 和下午 6:00
- 操作流程:
- 打开企业微信
- 进入“工作台”
- 点击“打卡”
- 确认位置无误后点击“上班打卡”
难点在于:每次界面可能弹出通知、广告,或者打卡按钮位置微调。
4.2 实现方案
编写一条自然语言指令交给 AI 执行:
python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开企业微信,进入工作台,点击打卡,完成上班打卡"为了实现定时执行,可以用 Python 的schedule库封装:
import schedule import time import subprocess def do_checkin(): cmd = [ "python", "main.py", "--device-id", "ABCDEF1234567890", "--base-url", "http://your-server-ip:8800/v1", "--model", "autoglm-phone-9b", "打开企业微信,进入工作台,点击打卡,完成上班打卡" ] subprocess.run(cmd) # 每天定时执行 schedule.every().day.at("09:00").do(do_checkin) schedule.every().day.at("18:00").do(do_checkin) while True: schedule.run_pending() time.sleep(30)4.3 注意事项
- 保持手机亮屏或设置“永不休眠”(开发者选项中)
- 若打卡需人脸识别,可在流程中加入人工等待环节
- 建议搭配远程监控截图功能,记录每次执行结果
5. 场景二:信息采集——跨平台内容自动抓取
对于运营、市场或研究人员来说,经常需要从多个平台(如小红书、抖音、微博)收集热门内容。手动翻页效率低,还容易遗漏。
AutoGLM-Phone 可以模拟人工浏览行为,自动完成搜索、翻页、截图或文本提取。
5.1 案例:采集“咖啡探店”相关笔记
目标:每天自动打开小红书,搜索“咖啡探店”,浏览前10篇笔记,保存标题、点赞数和封面图。
指令示例
python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索'咖啡探店',依次查看前10个笔记,记录标题和点赞数,并截图保存"系统会自动执行以下动作:
- 启动小红书 App
- 点击顶部搜索框
- 输入“咖啡探店”
- 进入结果页
- 逐条滑动并识别每篇笔记的标题与互动数据
- 截图并标注序号保存
5.2 数据导出与结构化
虽然模型本身不直接存储数据,但我们可以通过扩展脚本,在每次截图后调用 OCR 或 API 提取文本信息,并写入 CSV 文件:
import csv from datetime import datetime def save_record(title, likes, image_path): with open('xiaohongshu_coffee.csv', 'a', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow([datetime.now(), title, likes, image_path])后续可用 Excel 或 BI 工具做趋势分析。
5.3 扩展应用
- 监控竞品动态:定期搜索品牌关键词,跟踪曝光量
- 内容灵感挖掘:自动整理高赞文案风格
- 社群舆情观察:发现突发热点话题
6. 常见问题与优化建议
6.1 连接类问题
| 问题 | 原因 | 解决方法 |
|---|---|---|
adb devices无设备 | 未开启 USB 调试 | 检查开发者选项 |
| 显示 unauthorized | 未授权电脑 | 在手机弹窗中点击“允许” |
| WiFi 连接失败 | IP 变化或端口未开放 | 重启 adb tcpip,检查路由器防火墙 |
6.2 执行稳定性优化
- 降低操作频率:两次操作间增加
time.sleep(2),避免过快导致界面未加载完成 - 启用日志回放:开启
--verbose参数查看每一步推理结果 - 固定App版本:避免因App更新导致控件位置变化影响识别
- 备用指令兜底:当主流程失败时,尝试简化指令重新启动
6.3 性能与成本权衡
- 小模型(如 9B)响应快、显存占用低,适合大多数日常任务
- 若需更高精度(如复杂表单填写),可尝试更大模型,但需更强 GPU 支持
- 推荐使用云服务器部署 vLLM 服务,本地仅运行轻量控制脚本
7. 总结:让AI成为你的“数字分身”
AutoGLM-Phone 不只是一个技术玩具,它正在重新定义我们与移动设备的交互方式。通过自然语言驱动的自动化代理,我们可以把重复性操作交给AI,专注于更有创造性的工作。
本文展示了两个典型落地场景:
- 自动打卡:解决日常通勤中的“健忘痛点”,提升职场效率
- 信息采集:替代人工浏览,实现跨平台内容的持续追踪
更重要的是,整个系统基于开源框架 Open-AutoGLM 构建,部署简单、扩展性强,无论是个人使用还是企业集成,都有很大想象空间。
未来,随着多模态模型能力的增强,这类手机端 AI Agent 有望进一步融合语音、传感器、位置等更多维度的信息,真正成为一个全天候、全方位的“数字助理”。
如果你也希望拥有一个能替你操作手机的AI伙伴,不妨现在就开始尝试部署吧。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。