你有沒有過這種經驗... 就是啊,一個你以前很喜歡逛的網站,可能是一個論壇、一個部落格,某天心血來潮想回去看看,結果發現... 網頁不見了。或是某個公司、某個名人講了什麼話,結果被罵翻之後偷偷改掉或刪掉頁面。🙄
這種時候,真的會覺得有點... 嗯,無力。網路上的東西好像很永久,但其實消失得比什麼都快。平均一個網頁的壽命,聽說只有 100 天左右就會被改掉或刪除。
今天想聊的,就是一個可以對抗這種「數位遺忘」的酷東西:Wayback Machine。
一句話結論
簡單講,它就是整個網路的數位圖書館,讓你像翻書一樣,回去看某個網站在過去某個時間點的樣子。
這東西是誰弄的?一個叫 Internet Archive 的非營利組織
在聊怎麼用之前,我覺得要先知道一下這是誰做的。Wayback Machine 背後是一個叫做「Internet Archive」(網際網路檔案館)的美國非營利組織。 他們從 1996 年就開始做這件事,使命是「普及所有知識」(universal access to all knowledge)。
所以,這不是什麼商業公司,比較像一個為了保存人類數位文化遺產而存在的圖書館。他們不只存網頁,還存了超多書、音樂、影片、軟體... 真的超猛。 最近一次看到數據,他們已經存了超過一萬億個網頁... 數量多到很難想像。
所以,要怎麼用?
用法嘛... 真的超簡單。幾乎不用教。
1. 你先去 `archive.org/web` 這個網站。 2. 然後在最上面的搜尋框,貼上你想查的那個網站的網址。 3. 按下去之後,你就會看到一個日曆。
那個日曆上,有顏色的圈圈就代表那天有存到這個網頁的快照。 點下去,你就會看到那一天的網頁長什麼樣子了。有時候一天還會存好幾次,你還可以選特定的時間點。整個過程就像在... 挖數位化石一樣。🤔
它能幹嘛?不只是懷舊而已
好,我知道很多人(包括我以前)都覺得這東西就是拿來懷舊的。像是回去看看以前的無名小站(對,它真的可以查到一些遺骸!)、或是看看十幾年前的 Google、Yahoo 長什麼樣子。這很有趣,但它的用處可不只這樣。
我自己覺得比較實用的有幾個地方:
- 做 SEO 分析:這對我們做內容的人很有用。你可以偷偷去看競爭對手的網站,在過去幾年是怎麼演變的。 他們改了什麼標題、新增了哪些頁面、網站結構怎麼調整... 這些都是很有價值的情報。 有時候客戶網站改版出問題,排名掉了,也可以回去看看舊版的內容是怎麼寫的,然後把它救回來。
- 事實查核 (Fact-checking):這超重要。現在很多新聞或政治人物發言,常常會「事後編輯」。 Wayback Machine 讓你有機會找到最原始的版本,比對一下到底誰在說謊。很多記者跟事實查核機構都會用這個工具。
- 找回消失的資源:有時候你會看到一篇文章,引用了一個很棒的資料來源,結果點進去連結... 死了。這時候就可以把那個死掉的連結丟進 Wayback Machine,有很高的機率可以把那個頁面救回來。 維基百科上就有很多壞掉的連結,是靠它救活的。
- 網站開發參考:有時候幫客戶做網站,客戶說「我想要跟某某網站以前的某個功能一樣」,但那個功能早就改掉了。這時候... 嘿嘿,你懂的。
不過... 它不是萬能的,有很多限制
說了這麼多好話,也要來講講它的缺點。Wayback Machine 其實限制很多,常常會讓你覺得很挫折。
最主要的問題是,它對那種需要登入、或是有很多 JavaScript 動態內容的網站,基本上是無能為力的。 像 Facebook、IG 這種個人頁面,你幾乎不可能用它看到完整的內容。它抓到的通常只是一個登入框而已。
還有一個大問題是 `robots.txt`。這是一個網站上給爬蟲看的檔案,網站管理員可以在裡面寫說「喂,機器人,我網站上這些地方你不准來喔」。 以前 Internet Archive 的爬蟲還蠻遵守規則的,所以如果一個網站的 `robots.txt` 寫了 `Disallow: /`,那 Wayback Machine 裡可能就什麼都看不到。 不過他們後來也發現這樣不行,因為很多網站倒閉後,網域被別人買去,放上一個全新的 `robots.txt`,結果導致整個網站的歷史紀錄都看不到了。 所以他們現在的策略是... 比較不那麼理會 `robots.txt` 了,特別是政府網站。
我整理了一個簡單的比較,讓你感受一下它跟其他工具的差別:
| 工具 | 適合幹嘛 | 缺點是什麼 |
|---|---|---|
| Wayback Machine | 大規模的歷史研究、看網站演變趨勢、找學術或新聞資料。 | 動態/登入內容不行、有時網頁樣式會跑掉、不是所有網站都有備份。 |
| archive.today (或 .is/.ph) | 備份有爭議的內容、抓包用。它會連圖片一起存下來,比較完整。 | 通常要手動去存,所以歷史版本沒那麼多,而且搜尋功能很弱。 |
| Google 快取 (Cache) ...RIP | 以前很好用... 可以看 Google 最近一次看到你網站長怎樣。但現在... 這個功能已經被 Google 拿掉了。 | 沒了就是沒了。😅 現在 Google 搜尋結果的「關於此結果」裡面,有時候會放一個連到 Wayback Machine 的連結。 |
一些比較進階的玩法
除了單純的查詢,還有幾個功能可以玩玩看:
- Save Page Now (立即儲存頁面):在 Wayback Machine 網站首頁的右下角,有個「Save Page Now」功能。 你可以主動把一個網頁的當前樣貌存進去。這在你發現一個很重要、很怕它消失的頁面時超有用。
- 瀏覽器擴充功能:他們有出 Chrome、Firefox、Safari 的擴充功能。 裝了之後,如果你逛到一個死掉的網頁,可以直接點一下圖示,看看它有沒有歷史備份,省去複製貼上網址的麻煩。
- 進階搜尋:其實它可以做一些比較複雜的搜尋,例如限定在某個網域裡面找關鍵字,或是用一些搜尋語法 (Boolean Operators) 來篩選結果。 不過老實說,這部分做得沒有很直覺,有點難用。
台灣也有類似的計畫嗎?
說到這個,我就好奇查了一下。美國的 Internet Archive 像是個什麼都想收進去的數位巨獸。 但其實我們台灣的國家圖書館,也有在做類似的事情,叫做「臺灣網站典藏計畫」(Web Archiving Taiwan, WAT),或者更廣泛的「臺灣記憶 (Taiwan Memory)」系統。
不過目標有點不一樣。國圖的計畫更專注在保存具有臺灣本土重要性、學術價值或文化意義的網站。 像是政府網站、學術機構、重要的文史資料等等。所以它不像 Wayback Machine 那樣包山包海,但對於研究台灣在地歷史文化的來說,可能會是更精準的寶庫。 算是各有各的專長吧。
總結一下我的看法...
嗯... 總結嗎。我自己是覺得,Wayback Machine 這個東西,雖然有點慢、有點笨、還常常失敗,但它代表的意義其實蠻重大的。它讓我們知道,在網路上走過,是可以留下痕跡的。這些痕跡,無論是好的壞的、聰明的愚蠢的,都是歷史的一部分。
下次你再看到什麼網頁被刪掉、什麼說法被竄改,不要只是生氣或覺得可惜。試著把網址丟到這個「網站時光機」裡看看,說不定會有意外的發現。👀
那你呢?你都用它來查什麼?或是有沒有找到什麼有趣的「歷史遺跡」?在下面留言分享一下吧。👇
