这是一个基于 MediaPipe 和 FastAPI 开发的智能交互系统。它允许用户通过自然手势在视频流中框选区域,并自动调用 阿里云通义千问 (Qwen-VL) 或 字节跳动豆包 (Doubao Vision) 大模型对截图内容进行深度分析。 系统采用单页应用 (SPA) 架构,提供无缝的交互体验,支持 ...