網站時光機是什麼？用 Wayback Machine 查詢網頁歷史紀錄的方法與應用

你有沒有過這種經驗... 就是啊，一個你以前很喜歡逛的網站，可能是一個論壇、一個部落格，某天心血來潮想回去看看，結果發現... 網頁不見了。或是某個公司、某個名人講了什麼話，結果被罵翻之後偷偷改掉或刪掉頁面。🙄

這種時候，真的會覺得有點... 嗯，無力。網路上的東西好像很永久，但其實消失得比什麼都快。平均一個網頁的壽命，聽說只有 100 天左右就會被改掉或刪除。

今天想聊的，就是一個可以對抗這種「數位遺忘」的酷東西：Wayback Machine。

一句話結論

簡單講，它就是整個網路的數位圖書館，讓你像翻書一樣，回去看某個網站在過去某個時間點的樣子。

這東西是誰弄的？一個叫 Internet Archive 的非營利組織

在聊怎麼用之前，我覺得要先知道一下這是誰做的。Wayback Machine 背後是一個叫做「Internet Archive」（網際網路檔案館）的美國非營利組織。他們從 1996 年就開始做這件事，使命是「普及所有知識」（universal access to all knowledge）。

所以，這不是什麼商業公司，比較像一個為了保存人類數位文化遺產而存在的圖書館。他們不只存網頁，還存了超多書、音樂、影片、軟體... 真的超猛。最近一次看到數據，他們已經存了超過一萬億個網頁... 數量多到很難想像。

所以，要怎麼用？

用法嘛... 真的超簡單。幾乎不用教。

1. 你先去 `archive.org/web` 這個網站。 2. 然後在最上面的搜尋框，貼上你想查的那個網站的網址。 3. 按下去之後，你就會看到一個日曆。

那個日曆上，有顏色的圈圈就代表那天有存到這個網頁的快照。點下去，你就會看到那一天的網頁長什麼樣子了。有時候一天還會存好幾次，你還可以選特定的時間點。整個過程就像在... 挖數位化石一樣。🤔

它能幹嘛？不只是懷舊而已

好，我知道很多人（包括我以前）都覺得這東西就是拿來懷舊的。像是回去看看以前的無名小站（對，它真的可以查到一些遺骸！）、或是看看十幾年前的 Google、Yahoo 長什麼樣子。這很有趣，但它的用處可不只這樣。

我自己覺得比較實用的有幾個地方：

做 SEO 分析：這對我們做內容的人很有用。你可以偷偷去看競爭對手的網站，在過去幾年是怎麼演變的。他們改了什麼標題、新增了哪些頁面、網站結構怎麼調整... 這些都是很有價值的情報。有時候客戶網站改版出問題，排名掉了，也可以回去看看舊版的內容是怎麼寫的，然後把它救回來。
事實查核 (Fact-checking)：這超重要。現在很多新聞或政治人物發言，常常會「事後編輯」。 Wayback Machine 讓你有機會找到最原始的版本，比對一下到底誰在說謊。很多記者跟事實查核機構都會用這個工具。
找回消失的資源：有時候你會看到一篇文章，引用了一個很棒的資料來源，結果點進去連結... 死了。這時候就可以把那個死掉的連結丟進 Wayback Machine，有很高的機率可以把那個頁面救回來。維基百科上就有很多壞掉的連結，是靠它救活的。
網站開發參考：有時候幫客戶做網站，客戶說「我想要跟某某網站以前的某個功能一樣」，但那個功能早就改掉了。這時候... 嘿嘿，你懂的。

不過... 它不是萬能的，有很多限制

說了這麼多好話，也要來講講它的缺點。Wayback Machine 其實限制很多，常常會讓你覺得很挫折。

最主要的問題是，它對那種需要登入、或是有很多 JavaScript 動態內容的網站，基本上是無能為力的。像 Facebook、IG 這種個人頁面，你幾乎不可能用它看到完整的內容。它抓到的通常只是一個登入框而已。

還有一個大問題是 `robots.txt`。這是一個網站上給爬蟲看的檔案，網站管理員可以在裡面寫說「喂，機器人，我網站上這些地方你不准來喔」。以前 Internet Archive 的爬蟲還蠻遵守規則的，所以如果一個網站的 `robots.txt` 寫了 `Disallow: /`，那 Wayback Machine 裡可能就什麼都看不到。不過他們後來也發現這樣不行，因為很多網站倒閉後，網域被別人買去，放上一個全新的 `robots.txt`，結果導致整個網站的歷史紀錄都看不到了。所以他們現在的策略是... 比較不那麼理會 `robots.txt` 了，特別是政府網站。

我整理了一個簡單的比較，讓你感受一下它跟其他工具的差別：

工具	適合幹嘛	缺點是什麼
Wayback Machine	大規模的歷史研究、看網站演變趨勢、找學術或新聞資料。	動態/登入內容不行、有時網頁樣式會跑掉、不是所有網站都有備份。
archive.today (或 .is/.ph)	備份有爭議的內容、抓包用。它會連圖片一起存下來，比較完整。	通常要手動去存，所以歷史版本沒那麼多，而且搜尋功能很弱。
Google 快取 (Cache) ...RIP	以前很好用... 可以看 Google 最近一次看到你網站長怎樣。但現在... 這個功能已經被 Google 拿掉了。	沒了就是沒了。😅 現在 Google 搜尋結果的「關於此結果」裡面，有時候會放一個連到 Wayback Machine 的連結。

一些比較進階的玩法

除了單純的查詢，還有幾個功能可以玩玩看：

Save Page Now (立即儲存頁面)：在 Wayback Machine 網站首頁的右下角，有個「Save Page Now」功能。你可以主動把一個網頁的當前樣貌存進去。這在你發現一個很重要、很怕它消失的頁面時超有用。
瀏覽器擴充功能：他們有出 Chrome、Firefox、Safari 的擴充功能。裝了之後，如果你逛到一個死掉的網頁，可以直接點一下圖示，看看它有沒有歷史備份，省去複製貼上網址的麻煩。
進階搜尋：其實它可以做一些比較複雜的搜尋，例如限定在某個網域裡面找關鍵字，或是用一些搜尋語法 (Boolean Operators) 來篩選結果。不過老實說，這部分做得沒有很直覺，有點難用。