用一行字,叫電腦去看懂一個網頁
同一件事,為什麼有人花的錢是別人的一百多倍
同樣是叫 AI 幫你上某個網站、抓每個月的訂單或對帳單,做法不同,花的錢和等的時間可以差上百倍,差別只在用對工具,最極端可以差到一百五十倍。如果你正在請人、或請 AI 幫公司跑這類每月重複的雜事,這篇就是在講:同一件事,選錯工具,帳單會無聲無息多出幾十倍。看完你會知道該問你的人一句什麼話,就能擋掉這筆冤枉錢。你不用會寫程式,也不用記任何英文單字。
想像你不是用滑鼠去點按鈕、點圖示,而是打一行字告訴電腦你要做什麼,它就回你一行字。就像你在手機搜尋框打「附近的咖啡廳」,它就列一排店給你。差別只在這個畫面沒有漂亮的版面,你打的是「把這個資料夾裡有什麼列給我看」,它就回你一份清單,像這樣:
終端機
# 打一行字:列出「我的文件」資料夾裡有什麼
$ ls 我的文件
報告.docx 發票.pdf 照片/
本篇的主角叫 opencli(名字記不住沒關係,後面看到它就是這個工具)。它就是這樣一個「打一行字、它回你一行字」的工具,只是它指揮的對象是「網頁瀏覽器」。你可以用一行字,叫它去看某個網頁、找出上面有哪些地方可以填、幫你把表單填好。它厲害的地方在於:它會自己先把整個網頁從頭看完一遍,再只把你問的那幾項整理成人話回給你。髒活它自己在背後吞掉了,吐回來的就只剩乾淨的重點。別的做法是把整頁原封不動倒給 AI,讓 AI 自己去大海撈針,當然又慢又貴。後面所有「只回你問的那一小塊」,靠的就是這個本事。
補一個之後會一直用到的講法:所謂「可以填的格子」,就是網頁上你可以打字的那一格(像登入頁的帳號格、密碼格)。連同可以按的按鈕、可以點的連結,這些「能讓你動手的地方」,就是這篇要 AI 去搞懂的東西。
💬 隨問隨答(像傳訊息問人)
opencli 走這條路
「這頁有哪些可以填的地方?」它回你。你再問下一句。問一句答一句,每次只拿你要的那一小塊。
即時可逐步不用整套重來
📜 整套自動跑(像錄好的自動流程)
另一種做事方式
把整套步驟先設定好,時間到就整套自動跑完,中途不用盯,結果一次全吐出來。但只要有一步要改,就得整套重設、重跑一次。
整批自動要先全設好改了整套重來
這一節帶走一句:opencli 先幫你把整頁讀完,再只把你問的那一小塊整理好回給你,這正是它省的關鍵。後面會用數字讓你看到,這個「只回一小塊」到底省掉多少錢。
02
幕後流程:兩個工具怎麼接力(趕時間可以掃過,直接看下一節的數字)
在進到那組「差一百多倍」的數字之前,先花三十秒看一個真實情況:實際做事時,常常不是一個工具就搞定,而是兩個工具接力。看懂這個,等下那些數字你會更有感。趕時間的話這節可以掃過,直接跳下一節看數字也不影響。
這兩個工具,一個負責「先看懂這頁長怎樣」,一個負責「以後每個月自動重做一次」。實務上就是這樣分工:先用 opencli 把頁面看懂,再把看懂的寫成一份固定流程,最後交給另一個工具每月自動重跑。順序很關鍵。
如果說 opencli 是「去現場看一圈、回報狀況的人」,那這個搭檔就是「把看懂的步驟錄成一份固定流程、以後照表自動重做的人」。我們之後都叫它「自動重播工具」。(它本來的名字叫 Playwright,記不住沒關係,後面看到「自動重播工具」就是它,你只要記得它=以後可以一鍵自動重跑的固定流程。)
⚠ 為什麼一定要先勘查?實際做過就知道,沒先勘查、直接寫流程,常常跑到一半就卡住逾時、整套失敗,回頭乖乖先勘查才一次過。原因是:網頁表面看起來都差不多,底下卻常藏著看不見的「機關」。所謂機關,就是那些藏起來的狀況,例如某個格子其實是鎖住的、根本打不了字,或者網站設了一道防線,一偵測到不是真人在操作就把你擋下來(就是要你勾「我不是機器人」那個小方框,或要你點出圖片裡哪幾格有紅綠燈、消防栓的那種驗證)。沒先用 opencli 摸清楚就直接寫流程,就像沒看清路況就把自動駕駛設定好,半路一定卡住。
🔍 opencli:先去現場看一圈的人
負責「把頁面看懂」,即時、輕巧
- 像請人先到店裡走一圈,回報「門在哪、收銀台在哪、哪裡上鎖」,問一句答一句、很快
- 問一句,回你一小段整理好的答案,不用自己去讀網頁背後那一大串密密麻麻、只有機器看得懂的碼
- 一句話就摸出頁面藏的那些「機關」(前面提過的那些藏起來的狀況)
- 缺點:關掉就沒了,沒辦法拿來每月自動重跑
🔁 自動重播工具:照流程每月重做一次的店員
負責「可靠交付」,把步驟存成固定流程
- 跑在你自己的瀏覽器,能順利通過前面說的那道「證明你是真人」的關卡,所以設定成每個月自動跑一次也不會被擋下來
- 第一次有人勘查清楚、寫成固定流程後,之後每個月就照這份流程自動做一次,不用每次重新摸索
- 但要先有人把頁面看懂才寫得對,這就是 opencli 的活
一句話收這節:先派一個人去新店面探一圈、畫好路線(opencli),再把這張路線交給每月固定來理貨的店員照著做(自動重播工具)。探路只做一次,之後店員照圖每月重來,不必每次重新摸。順序顛倒,就會像前面說的那樣跑到一半卡住。
03
同一個問題,四種做法要丟給 AI 的資料差多少
先記一件事就好:下面每張卡右邊的「里程」,你就當成「這趟要付的車錢」。AI 讀的字越多,里程就越長、付的錢越多、等的時間也越久。同一個目的地(同一個問題),AI 可以走最短路,也可以繞遠路,里程差很多。(工程上把這個「里程」叫做 token,你不用記這個字,後面看到「里程」就是它。)
假設你想做這件事:每個月自動上某個網站,把這個月的訂單(或發票、對帳單)抓下來。AI 動手前,得先搞懂這個網頁長怎樣,包括「這頁上有哪些地方可以填、可以按?」。光是「搞懂這一頁」這個動作,用不同方法做,丟給 AI 的資料量就差很多。下面四張卡是四種做法,你只要看一件事:框越高、右邊里程越長,就代表這個做法越花錢。
🖼 一張登入頁的照片你可能以為拍張照最省事,其實對 AI 來說看一張圖很費力。它不像人一眼看完,比較像得拿著放大鏡、把整張圖一格一格慢慢掃過去,每一小格都要記下來,等於把這張圖反覆讀了很多遍,所以一張照片反而比 opencli 那三行字貴上好幾倍。就像你要同事抄個地址,直接打三行字傳給他,遠比拍一張整個櫃台的照片、再叫他從照片裡找地址來得快,也更不會抄錯。不過它畢竟只看一頁,還在省的這一邊。
瀏覽器外掛
裝在瀏覽器上、幫 AI 多一雙眼睛的小工具,要它整理一份「可動手清單」。它跟 opencli 一樣會真的去讀頁面,差別是它習慣把「所有」能動手的地方整份列出來,不像 opencli 只挑你問的那幾項,所以清單比較長、比較貴。
可填的格子「帳號」
可填的格子「密碼」
可勾的方框「記住我」
可點的連結「忘記密碼」
可按的按鈕「登入」
…(十幾項)
整頁原始碼
把網頁背後那張「設計藍圖」全倒出來給 AI
# ↓ 下面這坨是給機器看的,你一秒都不用花在它上面,
# 直接看右邊的里程就好。放在這只是讓你親眼看到,
# AI 被迫吞下的東西有多大坨。你要的答案,
# 其實只有中間被標亮的那三個字。 ↓
◻︎◻︎◻︎ ▨▨ ◻︎◻︎◻︎◻︎ ▨▨▨ ◻︎◻︎ ▨ ◻︎◻︎◻︎◻︎◻︎ ▨▨
◻︎◻︎ ▨▨▨▨ ◻︎◻︎◻︎ ▨ ◻︎◻︎◻︎◻︎ ▨▨ ◻︎◻︎◻︎ ▨▨▨ ◻︎◻︎
▨▨ ◻︎◻︎◻︎◻︎ ▨ ◻︎◻︎ 帳號 密碼 登入 ◻︎◻︎ ▨▨▨
◻︎◻︎◻︎ ▨▨ ◻︎◻︎◻︎◻︎ ▨▨▨ ◻︎◻︎ ▨ ◻︎◻︎◻︎ ▨▨ ◻︎◻︎◻︎◻︎ ▨
◻︎◻︎ ▨▨▨ ◻︎◻︎◻︎ ▨ ◻︎◻︎◻︎◻︎◻︎ ▨▨ ◻︎◻︎◻︎ ▨▨▨ ◻︎◻︎ ▨
◻︎◻︎◻︎◻︎ ▨▨ ◻︎◻︎ ▨▨▨ ◻︎◻︎◻︎ ▨ ◻︎◻︎◻︎◻︎ ▨▨ ◻︎◻︎◻︎ ▨▨
…(整頁大概像這樣兩三千行,全是這種雜訊,一路重複下去,但 AI 被迫整坨吞下去)…
右邊長條只是為了讓四段都看得見而刻意壓縮過,真正差距請看左邊的數字。這些數字是同類任務的概略量級、不是精準帳單,重點在「差幾十倍到上百倍」這個級距,不在個位數。
里程從約 200 暴衝到約 30,000,整整一百五十倍,問的卻是同一個問題。
換句話說,同一個答案,opencli 收你一塊錢,整頁原始碼那條路收你一百五十塊。一天、一個月累積下來,省的就是真金白銀和等待時間。
不過上面只算了「看一眼」這一下。真正接案做事,從頭到尾要看了改、改了再看好幾趟,這幾趟加起來才是你最後付的總額。換個鏡頭,從頭把整件事做完一次,哪個工具真的最省,答案會有點出乎意料。
提醒一下,這一節換了一把尺,結論會跟上一節「看起來」打架,其實不衝突。簡單講:上一節問的是「拍一張照要多少錢」,這一節問的是「整本相簿拍完要多少錢」。有些做法拍一張很便宜,但因為老是拍糊要重拍,整本算下來反而最貴。所以等下你會看到,上一節標「超浪費」紅色的「整頁原始碼」,這裡卻標「花費低」,這不是前後矛盾,是因為「拍一張便宜」和「整件事做完不划算」可以同時成立。你只要記最後一行的結論就好,不用記中間的分數。
順帶一提:這一節的選項跟上一節不完全一樣(少了截圖、多了「自己寫程式」),因為看的角度從「怎麼餵 AI」換成了「整件事怎麼做完」。名字跟上一節一樣的,就是同一個東西,請放心對照。
整件事做完的花費低中高
下面會用兩個重點來評比,先講白話:能不能動手=這個做法能不能真的去填格子、按按鈕;摸不摸得到機關=能不能看出前面說的那些藏起來的狀況(某個格子被鎖住、網站會擋自動操作)。摸得到,才不會照著表面寫、結果做白工。
opencli本次用
花費 低
能動手 ✓摸得到機關 ✓
真的打開頁面去看,回你一小段整理好的答案,最省。
瀏覽器外掛
幫 AI 裝的瀏覽器小工具
花費 中
能動手 ✓摸得到機關 ✓
也真的打開頁面、能用,但它習慣把整頁所有能動手的地方全列出來,清單偏長,所以中等。
自己寫一支程式去抓
就是第二節說的「自動重播工具」那一類,錄成固定流程去跑
花費 高
不能隨問隨答 ✗摸得到機關 ✓
就像請人寫一張固定的採買清單、叫他照單去買,買回來才發現少問一樣,他不能臨場多看一眼、多問一句,只能整張清單重寫、整趟重跑一次。想多確認一件事就得從頭再來,連同整頁原始碼加截圖一起抓,來回幾趟下來最花。
整頁原始碼
就是上一節那張密密麻麻的設計藍圖
花費 低
不能動手 ✗摸不到機關 ✗
就是上一節那張紅色的設計藍圖。單看它本身要 AI 讀的字不多(所以這格標低),但因為只看畫在紙上的藍圖、沒真的走進現場,看不出哪扇門現在鎖著、哪個按鈕現在能按,常常猜錯、得一再重跑,整件事算下來反而貴。
一句話記住:用對工具,省的不是術語,是你實實在在的錢、AI 回應的時間,和出錯的機率,而且不是省一點,是省幾十倍。