AutoGLM-Phone应用场景拓展：自动打卡、信息采集案例-柳州手可摘星辰科技有限公司

AutoGLM-Phone应用场景拓展：自动打卡、信息采集案例

1. Open-AutoGLM：智谱开源的手机端AI Agent框架

你有没有想过，让AI替你操作手机完成日常任务？比如每天早上自动打卡、定时收集竞品信息、甚至帮你刷短视频找灵感——这些听起来像科幻的场景，现在通过AutoGLM-Phone已经可以实现。

AutoGLM-Phone 是由智谱推出的手机端 AI Agent 框架，基于视觉语言模型（VLM）构建，能够“看懂”手机屏幕内容，并结合 ADB（Android Debug Bridge）技术自动执行点击、滑动、输入等操作。用户只需要用自然语言下达指令，比如“打开小红书搜索北京美食探店”，系统就能理解意图、分析当前界面、规划操作路径并一步步执行，全程无需手动干预。

这个项目的核心是Open-AutoGLM，一个完全开源的控制框架。它不依赖特定硬件，也不需要 Root 手机，只要开启开发者模式和 ADB 调试，就能让你的安卓设备变成一个“被AI驱动”的智能终端。

更关键的是，它支持远程调试和云端模型部署，意味着你可以把大模型放在服务器上运行，本地只负责设备控制，既节省资源又提升响应速度。

接下来，我们不仅会带你快速部署这套系统，还会深入两个极具实用价值的落地场景：自动考勤打卡和跨平台信息采集，看看它是如何真正帮我们“解放双手”的。

2. 核心能力解析：多模态感知 + 自主决策 + 安全可控

2.1 多模态理解：看得懂屏幕，也听得懂人话

传统自动化工具如按键精灵或 Tasker，依赖固定的坐标或控件ID来操作，一旦界面变化就容易失效。而 AutoGLM-Phone 的核心优势在于它的视觉语言模型（VLM）。

当你输入一句“去企业微信打卡”，系统会：

截取当前手机屏幕
将图像与文字指令一起送入 VLM 模型
模型输出：“找到‘工作台’按钮 → 点击进入 → 查找‘打卡’图标 → 点击签到”

这种“图文结合”的理解方式，让它能适应不同品牌手机的UI差异，也能应对App版本更新带来的界面变动。

2.2 动作规划与执行：从意图到动作链

系统内部采用分步推理机制，将复杂任务拆解为原子操作：

目标：关注抖音号 dycwo11nt61d → 打开抖音 App → 点击搜索框 → 输入账号名 → 进入用户主页 → 点击“关注”按钮

每一步都由模型实时判断当前状态是否匹配预期，如果不符（例如弹出广告），会自动尝试修正路径，具备一定的容错能力。

2.3 安全机制设计：敏感操作人工确认

为了避免误操作，系统内置了安全策略：

在涉及支付、删除、授权等高风险操作时，会暂停并提示用户确认
验证码输入、登录密码填写等场景默认交由人工处理
支持远程接管：通过网页或命令行随时中断流程

这使得它既能自动化执行常规任务，又不会因“太聪明”而失控。

3. 实战部署：本地电脑连接真机全流程

要让 AutoGLM-Phone 跑起来，你需要准备三部分：云服务端模型、本地控制端和安卓设备。本文重点讲解本地控制端与真机的连接配置。

3.1 硬件与环境准备

组件	要求
本地电脑	Windows 或 macOS，推荐 Python 3.10+
安卓设备	Android 7.0 及以上，支持 USB 调试
ADB 工具	Android SDK Platform Tools

ADB 安装与配置

Windows 用户：

下载 Platform Tools
解压后复制文件夹路径（如C:\platform-tools）
Win + R输入sysdm.cpl→ 高级 → 环境变量 → 在系统变量中编辑Path
添加新条目：C:\platform-tools
打开命令行输入adb version，出现版本号即成功

macOS 用户：

在终端执行以下命令（假设解压目录为~/Downloads/platform-tools）：

export PATH=${PATH}:~/Downloads/platform-tools

可将其写入.zshrc或.bash_profile实现永久生效。

3.2 手机端设置

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次，直到提示“您已进入开发者模式”。
启用 USB 调试
返回设置 → 开发者选项 → 勾选“USB 调试”
安装 ADB Keyboard（推荐）
- 下载 ADB Keyboard APK 并安装
- 进入“语言与输入法”设置，将默认输入法切换为 ADB Keyboard
- 作用：允许通过 ADB 发送中文字符，避免输入乱码问题

3.3 部署控制端代码

在本地电脑执行：

# 克隆开源仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

注意：建议使用虚拟环境（venv 或 conda）隔离依赖，避免冲突。

3.4 设备连接方式

确保手机通过 USB 连接到电脑，或处于同一局域网下。

USB 连接验证

adb devices

正常输出应类似：

List of devices attached ABCDEF1234567890 device

如果显示unauthorized，请在手机上确认是否允许该电脑调试。

WiFi 远程连接（推荐用于长期运行）

首次需用 USB 连接，然后启用 TCP/IP 模式：

# 启动 ADB 监听 5555 端口 adb tcpip 5555 # 断开 USB，使用 IP 连接（替换为你的手机IP） adb connect 192.168.1.100:5555

之后即可拔掉数据线，通过无线网络控制设备。

4. 场景一：自动打卡——告别迟到烦恼

很多公司使用企业微信、钉钉或自研App进行上下班打卡，但总有忘打卡的时候。现在，我们可以让 AutoGLM-Phone 每天准时帮你完成。

4.1 需求分析

时间：每天上午 9:00 和下午 6:00
操作流程：
1. 打开企业微信
2. 进入“工作台”
3. 点击“打卡”
4. 确认位置无误后点击“上班打卡”

难点在于：每次界面可能弹出通知、广告，或者打卡按钮位置微调。

4.2 实现方案

编写一条自然语言指令交给 AI 执行：

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开企业微信，进入工作台，点击打卡，完成上班打卡"

为了实现定时执行，可以用 Python 的schedule库封装：

import schedule import time import subprocess def do_checkin(): cmd = [ "python", "main.py", "--device-id", "ABCDEF1234567890", "--base-url", "http://your-server-ip:8800/v1", "--model", "autoglm-phone-9b", "打开企业微信，进入工作台，点击打卡，完成上班打卡" ] subprocess.run(cmd) # 每天定时执行 schedule.every().day.at("09:00").do(do_checkin) schedule.every().day.at("18:00").do(do_checkin) while True: schedule.run_pending() time.sleep(30)

4.3 注意事项

保持手机亮屏或设置“永不休眠”（开发者选项中）
若打卡需人脸识别，可在流程中加入人工等待环节
建议搭配远程监控截图功能，记录每次执行结果

5. 场景二：信息采集——跨平台内容自动抓取

对于运营、市场或研究人员来说，经常需要从多个平台（如小红书、抖音、微博）收集热门内容。手动翻页效率低，还容易遗漏。

AutoGLM-Phone 可以模拟人工浏览行为，自动完成搜索、翻页、截图或文本提取。

5.1 案例：采集“咖啡探店”相关笔记

目标：每天自动打开小红书，搜索“咖啡探店”，浏览前10篇笔记，保存标题、点赞数和封面图。

指令示例

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书，搜索'咖啡探店'，依次查看前10个笔记，记录标题和点赞数，并截图保存"

系统会自动执行以下动作：

启动小红书 App
点击顶部搜索框
输入“咖啡探店”
进入结果页
逐条滑动并识别每篇笔记的标题与互动数据
截图并标注序号保存

5.2 数据导出与结构化

虽然模型本身不直接存储数据，但我们可以通过扩展脚本，在每次截图后调用 OCR 或 API 提取文本信息，并写入 CSV 文件：

import csv from datetime import datetime def save_record(title, likes, image_path): with open('xiaohongshu_coffee.csv', 'a', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow([datetime.now(), title, likes, image_path])

后续可用 Excel 或 BI 工具做趋势分析。

5.3 扩展应用

监控竞品动态：定期搜索品牌关键词，跟踪曝光量
内容灵感挖掘：自动整理高赞文案风格
社群舆情观察：发现突发热点话题

6. 常见问题与优化建议

6.1 连接类问题

问题	原因	解决方法
`adb devices`无设备	未开启 USB 调试	检查开发者选项
显示 unauthorized	未授权电脑	在手机弹窗中点击“允许”
WiFi 连接失败	IP 变化或端口未开放	重启 adb tcpip，检查路由器防火墙

6.2 执行稳定性优化

降低操作频率：两次操作间增加time.sleep(2)，避免过快导致界面未加载完成
启用日志回放：开启--verbose参数查看每一步推理结果
固定App版本：避免因App更新导致控件位置变化影响识别
备用指令兜底：当主流程失败时，尝试简化指令重新启动

6.3 性能与成本权衡

小模型（如 9B）响应快、显存占用低，适合大多数日常任务
若需更高精度（如复杂表单填写），可尝试更大模型，但需更强 GPU 支持
推荐使用云服务器部署 vLLM 服务，本地仅运行轻量控制脚本

7. 总结：让AI成为你的“数字分身”

AutoGLM-Phone 不只是一个技术玩具，它正在重新定义我们与移动设备的交互方式。通过自然语言驱动的自动化代理，我们可以把重复性操作交给AI，专注于更有创造性的工作。

本文展示了两个典型落地场景：

自动打卡：解决日常通勤中的“健忘痛点”，提升职场效率
信息采集：替代人工浏览，实现跨平台内容的持续追踪

更重要的是，整个系统基于开源框架 Open-AutoGLM 构建，部署简单、扩展性强，无论是个人使用还是企业集成，都有很大想象空间。

未来，随着多模态模型能力的增强，这类手机端 AI Agent 有望进一步融合语音、传感器、位置等更多维度的信息，真正成为一个全天候、全方位的“数字助理”。

如果你也希望拥有一个能替你操作手机的AI伙伴，不妨现在就开始尝试部署吧。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

企业官网建设流程全解析