AutoGLM-Phone应用场景拓展:自动打卡、信息采集案例
2026/3/21 8:11:05 网站建设 项目流程

AutoGLM-Phone应用场景拓展:自动打卡、信息采集案例

1. Open-AutoGLM:智谱开源的手机端AI Agent框架

你有没有想过,让AI替你操作手机完成日常任务?比如每天早上自动打卡、定时收集竞品信息、甚至帮你刷短视频找灵感——这些听起来像科幻的场景,现在通过AutoGLM-Phone已经可以实现。

AutoGLM-Phone 是由智谱推出的手机端 AI Agent 框架,基于视觉语言模型(VLM)构建,能够“看懂”手机屏幕内容,并结合 ADB(Android Debug Bridge)技术自动执行点击、滑动、输入等操作。用户只需要用自然语言下达指令,比如“打开小红书搜索北京美食探店”,系统就能理解意图、分析当前界面、规划操作路径并一步步执行,全程无需手动干预。

这个项目的核心是Open-AutoGLM,一个完全开源的控制框架。它不依赖特定硬件,也不需要 Root 手机,只要开启开发者模式和 ADB 调试,就能让你的安卓设备变成一个“被AI驱动”的智能终端。

更关键的是,它支持远程调试和云端模型部署,意味着你可以把大模型放在服务器上运行,本地只负责设备控制,既节省资源又提升响应速度。

接下来,我们不仅会带你快速部署这套系统,还会深入两个极具实用价值的落地场景:自动考勤打卡跨平台信息采集,看看它是如何真正帮我们“解放双手”的。


2. 核心能力解析:多模态感知 + 自主决策 + 安全可控

2.1 多模态理解:看得懂屏幕,也听得懂人话

传统自动化工具如按键精灵或 Tasker,依赖固定的坐标或控件ID来操作,一旦界面变化就容易失效。而 AutoGLM-Phone 的核心优势在于它的视觉语言模型(VLM)

当你输入一句“去企业微信打卡”,系统会:

  • 截取当前手机屏幕
  • 将图像与文字指令一起送入 VLM 模型
  • 模型输出:“找到‘工作台’按钮 → 点击进入 → 查找‘打卡’图标 → 点击签到”

这种“图文结合”的理解方式,让它能适应不同品牌手机的UI差异,也能应对App版本更新带来的界面变动。

2.2 动作规划与执行:从意图到动作链

系统内部采用分步推理机制,将复杂任务拆解为原子操作:

目标:关注抖音号 dycwo11nt61d → 打开抖音 App → 点击搜索框 → 输入账号名 → 进入用户主页 → 点击“关注”按钮

每一步都由模型实时判断当前状态是否匹配预期,如果不符(例如弹出广告),会自动尝试修正路径,具备一定的容错能力。

2.3 安全机制设计:敏感操作人工确认

为了避免误操作,系统内置了安全策略:

  • 在涉及支付、删除、授权等高风险操作时,会暂停并提示用户确认
  • 验证码输入、登录密码填写等场景默认交由人工处理
  • 支持远程接管:通过网页或命令行随时中断流程

这使得它既能自动化执行常规任务,又不会因“太聪明”而失控。


3. 实战部署:本地电脑连接真机全流程

要让 AutoGLM-Phone 跑起来,你需要准备三部分:云服务端模型本地控制端安卓设备。本文重点讲解本地控制端与真机的连接配置。

3.1 硬件与环境准备

组件要求
本地电脑Windows 或 macOS,推荐 Python 3.10+
安卓设备Android 7.0 及以上,支持 USB 调试
ADB 工具Android SDK Platform Tools
ADB 安装与配置

Windows 用户:

  1. 下载 Platform Tools
  2. 解压后复制文件夹路径(如C:\platform-tools
  3. Win + R输入sysdm.cpl→ 高级 → 环境变量 → 在系统变量中编辑Path
  4. 添加新条目:C:\platform-tools
  5. 打开命令行输入adb version,出现版本号即成功

macOS 用户:

在终端执行以下命令(假设解压目录为~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

可将其写入.zshrc.bash_profile实现永久生效。


3.2 手机端设置

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

  2. 启用 USB 调试
    返回设置 → 开发者选项 → 勾选“USB 调试”

  3. 安装 ADB Keyboard(推荐)

    • 下载 ADB Keyboard APK 并安装
    • 进入“语言与输入法”设置,将默认输入法切换为 ADB Keyboard
    • 作用:允许通过 ADB 发送中文字符,避免输入乱码问题

3.3 部署控制端代码

在本地电脑执行:

# 克隆开源仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

注意:建议使用虚拟环境(venv 或 conda)隔离依赖,避免冲突。


3.4 设备连接方式

确保手机通过 USB 连接到电脑,或处于同一局域网下。

USB 连接验证
adb devices

正常输出应类似:

List of devices attached ABCDEF1234567890 device

如果显示unauthorized,请在手机上确认是否允许该电脑调试。

WiFi 远程连接(推荐用于长期运行)

首次需用 USB 连接,然后启用 TCP/IP 模式:

# 启动 ADB 监听 5555 端口 adb tcpip 5555 # 断开 USB,使用 IP 连接(替换为你的手机IP) adb connect 192.168.1.100:5555

之后即可拔掉数据线,通过无线网络控制设备。


4. 场景一:自动打卡——告别迟到烦恼

很多公司使用企业微信、钉钉或自研App进行上下班打卡,但总有忘打卡的时候。现在,我们可以让 AutoGLM-Phone 每天准时帮你完成。

4.1 需求分析

  • 时间:每天上午 9:00 和下午 6:00
  • 操作流程:
    1. 打开企业微信
    2. 进入“工作台”
    3. 点击“打卡”
    4. 确认位置无误后点击“上班打卡”

难点在于:每次界面可能弹出通知、广告,或者打卡按钮位置微调。

4.2 实现方案

编写一条自然语言指令交给 AI 执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开企业微信,进入工作台,点击打卡,完成上班打卡"

为了实现定时执行,可以用 Python 的schedule库封装:

import schedule import time import subprocess def do_checkin(): cmd = [ "python", "main.py", "--device-id", "ABCDEF1234567890", "--base-url", "http://your-server-ip:8800/v1", "--model", "autoglm-phone-9b", "打开企业微信,进入工作台,点击打卡,完成上班打卡" ] subprocess.run(cmd) # 每天定时执行 schedule.every().day.at("09:00").do(do_checkin) schedule.every().day.at("18:00").do(do_checkin) while True: schedule.run_pending() time.sleep(30)

4.3 注意事项

  • 保持手机亮屏或设置“永不休眠”(开发者选项中)
  • 若打卡需人脸识别,可在流程中加入人工等待环节
  • 建议搭配远程监控截图功能,记录每次执行结果

5. 场景二:信息采集——跨平台内容自动抓取

对于运营、市场或研究人员来说,经常需要从多个平台(如小红书、抖音、微博)收集热门内容。手动翻页效率低,还容易遗漏。

AutoGLM-Phone 可以模拟人工浏览行为,自动完成搜索、翻页、截图或文本提取。

5.1 案例:采集“咖啡探店”相关笔记

目标:每天自动打开小红书,搜索“咖啡探店”,浏览前10篇笔记,保存标题、点赞数和封面图。

指令示例
python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索'咖啡探店',依次查看前10个笔记,记录标题和点赞数,并截图保存"

系统会自动执行以下动作:

  1. 启动小红书 App
  2. 点击顶部搜索框
  3. 输入“咖啡探店”
  4. 进入结果页
  5. 逐条滑动并识别每篇笔记的标题与互动数据
  6. 截图并标注序号保存

5.2 数据导出与结构化

虽然模型本身不直接存储数据,但我们可以通过扩展脚本,在每次截图后调用 OCR 或 API 提取文本信息,并写入 CSV 文件:

import csv from datetime import datetime def save_record(title, likes, image_path): with open('xiaohongshu_coffee.csv', 'a', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow([datetime.now(), title, likes, image_path])

后续可用 Excel 或 BI 工具做趋势分析。

5.3 扩展应用

  • 监控竞品动态:定期搜索品牌关键词,跟踪曝光量
  • 内容灵感挖掘:自动整理高赞文案风格
  • 社群舆情观察:发现突发热点话题

6. 常见问题与优化建议

6.1 连接类问题

问题原因解决方法
adb devices无设备未开启 USB 调试检查开发者选项
显示 unauthorized未授权电脑在手机弹窗中点击“允许”
WiFi 连接失败IP 变化或端口未开放重启 adb tcpip,检查路由器防火墙

6.2 执行稳定性优化

  • 降低操作频率:两次操作间增加time.sleep(2),避免过快导致界面未加载完成
  • 启用日志回放:开启--verbose参数查看每一步推理结果
  • 固定App版本:避免因App更新导致控件位置变化影响识别
  • 备用指令兜底:当主流程失败时,尝试简化指令重新启动

6.3 性能与成本权衡

  • 小模型(如 9B)响应快、显存占用低,适合大多数日常任务
  • 若需更高精度(如复杂表单填写),可尝试更大模型,但需更强 GPU 支持
  • 推荐使用云服务器部署 vLLM 服务,本地仅运行轻量控制脚本

7. 总结:让AI成为你的“数字分身”

AutoGLM-Phone 不只是一个技术玩具,它正在重新定义我们与移动设备的交互方式。通过自然语言驱动的自动化代理,我们可以把重复性操作交给AI,专注于更有创造性的工作。

本文展示了两个典型落地场景:

  • 自动打卡:解决日常通勤中的“健忘痛点”,提升职场效率
  • 信息采集:替代人工浏览,实现跨平台内容的持续追踪

更重要的是,整个系统基于开源框架 Open-AutoGLM 构建,部署简单、扩展性强,无论是个人使用还是企业集成,都有很大想象空间。

未来,随着多模态模型能力的增强,这类手机端 AI Agent 有望进一步融合语音、传感器、位置等更多维度的信息,真正成为一个全天候、全方位的“数字助理”。

如果你也希望拥有一个能替你操作手机的AI伙伴,不妨现在就开始尝试部署吧。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询