【新智元导读】Devin 到底是一个漂亮的 Demoxxxx图片,如故一个还是能替代圭臬员的智能体,使用体验若何样,拿到测试经历的网友第一时分共享了我方的体验。
由 10 枚 IOI 金牌在手的创业团队 Cognition AI 迷惑的人人首个 AI 圭臬员智能体 Devin,一发布就让科技圈心烦意冗。
在演示中,Devin 险些还是不错零丁完成好多东谈主类圭臬员需要大齐时分智力完成的责任,放荡少许不比平日圭臬员差。
然而,产物智力的鸿沟在那里,实践体验和演示期间有差距,还得看上手实测之后的放荡。
这位斯坦福的小哥在 Devin 发布的第一时分就关系了团队,得到了第一手体验的经历。
他让 Devin 帮它作念了几个难度不一的式样,录制了一个视频,在推上写下了我方的使用感受。
起始是让 Devin 作念一个用 API 获取股票价钱的软件:
下一个任务是让 Devin 作念一个不错让平日用户获胜与大模子棋战的网站。
需求复杂的编程任务还搞不定用户下一步棋,系统会翻译成领导词给 GPT-4,然后 GPT-4 进行回报,然后回报再被转变为反应在棋盘上的具体某一步棋。
按照小哥的条件,系统需要由相配多的部件构成。
他个东谈主最为关爱在这个系统的迷惑经由中,Devin 能不成作念到以下几点:
知谈如何准确地使用 GPT-4 API,因为大多数 LLM 实践上并不知谈如何使用,况且 API 的调用存在版块冲破。
正确地恳求 API 密钥并安全地处理。
处理包造作。
了解如何领导 LLM 棋战并能精准地复返领导词。
令小哥念念不到的是,Devin 不仅条件小哥提供 API 密钥,而且在试用经由中还不错正确地保护它。
不外,Devin 咫尺反馈速率还相配慢,小哥推测是因为后台发生的代理领导远远比要看到的要多得多。
从小哥发起恳求启动,它花了约莫 19 分钟才究诘 API 密钥。
小哥意象,要是延伸是由于他们在后台运行大齐领导酿成的,那么延伸应该会跟着时分的推移而加速。
因为他们以后不错打听专用 GPU 或与 Claude 或 OpenAI 合作裁汰延伸(揣度是 GPT-4 或 Claude Opus)。
Devin 起始制定了一个盘算。
在右上角,用户不错切换「奴婢」景色,这么用户不错将屏幕自动挪动到#Devin 面前激活了的选项卡上。
小哥莫得翻开奴婢景色,因为他但愿随时不雅察各个位置的变化。
盘算器会随时保抓针对面前任务的更新景色。
Shell 看起来和平日的 Shell 没什么分辩,但用起来确实很真理!
Devin 在责任经由中会翻开多个 shell,在 shell 的底部,用户不错拖动蓝色滑块战役前检察 Devin 编写的大呼。
下图是它当在尝试调试棋盘未渲染的内容。
与此同期,小哥条件它再实践一个数据分析的任务。
小哥让 Devin 去「创建一张昔时五十年南极洲海水温度的舆图」。
关于这个恳求,小哥以为有两个方面可能很具有挑战性:
处理空间数据绘制 / 可视化。
知谈在那里下载数据,而且了解如何使用数据源,因为地舆空间数据处理起来很贫寒。
Devin 能像一个优秀的圭臬员相通机灵地阅读自述文献,况且还实践一些基本的 EDA 来交融数据结构。
数据竟然是一个 ascii 文献,小哥以为有点奇怪。
小哥单击对话「调试 Python 剧本...」中的其中一个步伐时,它会翻开与该步伐关系的代码库部分,因此不错追踪某一个具体时分点发生的情况。
小哥比拟挂念的是,要是不是必须要究诘 API 密钥,Devin 似乎会延续地编码停不下来。
是以他试了试是否不错改动他之前建议的恳求或指定其他内容,中断 Devin 的编码经由。
因为关于大部分用户在编码时,齐有可能会改变意见或者有一些新的东西念念要添加进系统之中,大要处理这种情况是很有必要的。
这是编码经由中的截图:
浏览器界面的呈现方式如下:
然后小哥又提了针对数据可视化的任务又提了一个条件,让系统将高温确立为蓝色,低温确立为红色。
为了不中断编码的经由,似乎 Devin 又开启了一个责任线程来纪录小哥的临时条件。
最终,Devin 将 App 部署到了 Netlify 上了,一个运用还是上线了。
网页的贯穿:https://t.co/wTbtz2waDn
就像东谈主类写的圭臬相通,第一个版块笃定是有 Bug 的。
因为小哥条件的是南极洲的温度纪录,似乎关于 Devin 来说它交融起来有些终止。
于是小哥把条件袒露的位置改为了北好意思。
回来小哥莫得给出 Devin 修改了 Bug 的放荡,仅仅初步回来了用 Devin 迷惑的第一个网站的使用体验。
先说优点:
Devin 产物化作念得很好,他给东谈主的使用体验是一个完满的产物而不是仅仅一个简单的对话框。
AI 是系统最要道的部分,但援手 AI 功能的产物化的结构是 Devin 的亮点。
Devin 大要完成自动部署,API 密钥保护,随时修改和添加需求等等特等好的多样功能。
产物的完成度还是特等高了,远远提高了一般的演示 Demo。
再说缺欠:
Devin 的反应还很慢,固然小哥也说,因为他用的是 1M 的 Starlink 来上网,是以反应慢很有可能是他我方的原因。
其次即是还不成允许用户获胜我方剪辑代码,而且也没法合作完成。
固然,率先阿谁棋战的运用,难住了 Devin,最终莫得完成部署。而阿谁数据可视化的任务,似乎也有些 Bug。
最终,小哥用 Devin 作念了一个 chrome 插件,不错匡助用户把 Github repo 振荡成 Claude prompt。
插件下载地址:https://t.co/k3l8JTWK7Z
网友评价网友看了这个实测之后如故嗅觉有点失望,毕竟这个任务一个低级圭臬员是能作念到的,然而 Devin 的可视化项指标放荡只作念出了一个有 Bug 的网页。
看神情 Devin 实践上还仅仅一个不错上网的大模子,咫尺要让他贬责实践问题还有难度。
参考良友:
https://twitter.com/itsandrewgao/status/1768012781083566217?s=20
https://twitter.com/varunshenoy_/status/1767591341289250961?s=20
本文来自微信公众号:新智元 (ID:AI_era)
告白声明:文内含有的对外跳转贯穿(包括不限于超贯穿、二维码、口令等口头),用于传递更多信息xxxx图片,简略甄选时分,放荡仅供参考,IT之家总共著述均包含本声明。