維基百科:失效連結
本頁簡而言之:失效連結採取下面的步驟可以降低它的影響。 |
同多數大型網站一樣,維基百科也時常遭遇失效連結這一現象,即常用作參考和引用的外部連結,由於所引用的網站消失、變更內容或者移動,導致內容變得不相關或者連結直接損壞。這對維基百科的可靠性和列明來源的要求來說,是個極大的威脅。
防止失效連結顯然比修復或減少失效連結要容易得多。因此,對於失效連結的防止鞏固了百科全書。該指導給出了預防失效連結的一些策略。這其中包括使用網絡存檔服務,以及審慎地使用引用模板。
但是,失效連結不可能完全被根除,因此該指引還給出如何減少失效連結的方法,如尋找之前的存檔連結和使用替代來源。
請不要僅僅因為來源連結失效,就刪除事實性的資訊。 Wikipedia:可供查證方針並沒有要求所有資訊都需有效連結佐證,也沒有要求來源必須來自網絡。
除了在外部連結部分,未用來支持條目內容的網址外,不要僅僅因為網址失效,就刪除它。有相關的復原、修複選項和工具。
防止連結失效
當你撰寫條目時,可以採取多種方式防止連結失效。首先,你可以儘可能多地使用引用模板中的參數,記錄參考的作者、來源、出版者、發佈日期等資訊,而不是簡單地放置一個連結。如果將來連結失效,這些額外的資訊可以幫助其他維基百科人(編者或讀者)找到原始文字的新來源,無論是來自網絡還是印刷資料。如果只有一個簡單的URL地址,這就不太可能了。本地或者學校的圖書館是尋找線下資訊的好去處。許多當地圖書館有室內的查閱處,或者電子資料庫、館內借閱協定,這樣一些難以尋找的來源變得更易取得。
網絡存檔服務
網絡存檔服務可以存檔網頁的目前狀態,供以後查閱。最常用的服務有:Wayback Machine(經常自行主動抓取)和 archive.is。這兩個服務都可以按用戶請求儲存頁面。此外,搜尋引擎提供的頁庫存檔功能也能用來存取某些失效連結,不過需注意搜尋引擎也會定期清除放置過久的網頁存檔。這些服務都在收集和儲存網絡頁面,以防將來原頁面被移動、修改、刪除或者需要付費訪問。當引用頁面極為不穩定或者時常變動時,比如時效性很強的新聞報道或者財務困難的公司支持的頁面,網絡存檔的重要性愈發凸顯。一旦你找到了網絡頁面的存檔網絡地址,只需要在引用模板中加入archive-url=
和archive-date=
參數標明存檔的URL和存檔時間即可。模板會自動將存檔連結加入到參考中。
例如:
- Dubner, Stephen J. Wall Street Journal Paywall Sturdier Than Suspected. The New York Times Company. January 24, 2008 [2009-10-28].
- Dubner, Stephen J. Wall Street Journal Paywall Sturdier Than Suspected. The New York Times Company. January 24, 2008 [2009-10-28]. (原始內容存檔於2008-04-30).
不過,並不是所有的網絡頁面都可以存檔。網絡管理員或者出版商可能會使用robots.txt拒絕存檔,或者用複雜的JavaScript、flash和其他代碼使得頁面內容難以輕易被複製。在此種情況下,可以採用儲存數據的替代方案。有時存檔服務所在的國家的IP可能會被一些網站拒絕訪問,又或者某些網站設立了登入牆(login wall),造成存檔失敗或存檔到跳轉頁面,此時建議使用別的存檔服務。
網頁存檔服務對比
以下列出上面提到的三個存檔服務的詳細特徵。「書籤」提供一個便於使用的書籤小程序,「格式」提供URL存檔格式,而「存在」則給出如何構造URL尋找已有連結的存檔。
- Wayback Machine,WP:WAYBACK
- 書籤:
javascript:void(open('https://web.archive.org/save/'+document.location))
- 格式:
https://archive.org/web/YYYYMMDDHHMMS/URL
- 存在:
https://archive.org/web/*/URL
(也可以使用萬用字元 * 匹配 URL 字首);bot可使用API。 - 支持 HTML、PDF 和純文字等多種格式,另有一個通用的存檔庫可以自行上載檔案。
- 具有主動爬蟲功能,抓取和訪問均受 robots.txt 限制(因此已經抓取的頁面也可能無法訪問)。
- 書籤:
- WebCite,WP:WEBCITE
- 書籤:
javascript:void(open('http://www.webcitation.org/archive?url='+encodeURIComponent(document.location)+'&email=USER_EMAIL_HERE'))
- 請在實際使用時將
USER_EMAIL_HERE
改為實際郵件地址。
- 請在實際使用時將
- 格式:
http://www.webcitation.org/query?url=URIEncode(URL)&date=YYYY-MM-DD
- 存在:按格式請求,但不指定日期。
- 處理完成後會傳送郵件到指定的郵件地址。僅在抓取時受 robots.txt 限制。
- 書籤:
- archive.is,WP:ARCHIVEIS
- 書籤:
javascript:void(open('https://archive.fo/?run=1&url='+encodeURIComponent(document.location)))
- 格式:
http://archive.is/URL
;http://archive.is/时间/URL
時間格式- 注意 archive.is 會對於 URL 的不同 #fragment 字尾分開看待。
- 存在:對 URL 使用不帶時間的格式;另可以使用萬用字元 * 匹配子域名和 URL 字首。對Bot支持Memento Project API。
- 支持 HTML 和純文字,儲存樣式、圖像、指令碼和網頁截圖,以及儲存指令碼請求的內容。不支持 PDF,存檔大小限制 50M。
- 能夠將經由 webcache 或其他存檔服務商存檔的內容分進原頁面的存檔列表,適合在原始資料剛剛消失但還能在頁面快取檔中找到時使用。
- archive.is會不帶"robot"標籤抓取內容,因此對於在美國擁有著作權的內容可能構成未經許可轉載,以至於違反DMCA。對於這些內容請謹慎使用。
- 書籤:
可替代方案
大多數引用模板里含有quote=
參數,此參數用來存放從來源材料中引用的少量文字。這對於沒有網絡存檔可用的來源極其有用,這亦可防患選定的網絡存檔服務出現問題。
例如:
- Dubner, Stephen J. Wall Street Journal Paywall Sturdier Than Suspected. The New York Times Company. January 24, 2008 [2009-10-28]. (原始內容存檔於2008-04-30).
...the Wall Street Journal will not, as has been widely speculated, tear down its paywall entirely...
當使用quote參數儲存參考文字時,請儘可能選擇最精煉、關係最密切的材料。將來源的所有文字都儲存進來不符合合理使用方針,因此請務必選取最重要的、最能支持文中論述的部分。
引述文字也可以在原來源消失的時候,幫助其他人更方便地尋找其他線上版本來源。
修復失效連結
還有很多方法可以修復失效連結。一般來說,網頁因為遷移到新的伺服器上,或是站點維護會被移動。網站目錄可以幫你方便地尋找到移動的頁面。在搜尋引擎中對站內進行標題尋找,也可能會找到該頁。例如上例,可以使用Google這樣搜尋:site:http://freakonomics.blogs.nytimes.com/ "Wall Street Journal Paywall Sturdier Than Suspected"
如果這樣還不行,請前往存檔服務尋找該頁的存檔版本。
減少失效連結
有時,所有修復連結的嘗試都會以失敗告終。此種情況下,請考慮尋找替代來源替換之前的失效連結,這樣就不至於影響到條目的可查證性。有關常見話題的替代來源十分容易尋找。可能只需要簡單地使用搜尋引擎查詢一下,就能夠找到一個合適的替代來源,但是請特別注意,不要引用維基百科及其鏡像站點的內容,這將有損可供查證的原則。
但是有的時候無法找到合適的替代來源,或者需要付出更多的尋找精力,例如前往圖書館或者使用需付費的資料庫。在此種情況下,可以前往Wikipedia:互助客棧詢問其他維基百科編者。或者,你也可以嘗試聯絡專家,或者對與之相關專題有興趣的編者。
保留失效連結
一個失效、未存檔的連結可能還有用處。這樣的連結至少意味着,相關資訊(可能)過去曾經是可供查證的,而此連結可能提供給有更多資源或更為專業的用戶足夠多的資訊去尋找參考資料。而且失效連結可能會自行恢復。有了失效連結,也可以查出它是否在其他地方被引用過,或者可以聯絡該來源的最初負責人。例如,如果 http://www.cs.yale.edu/~EliYale/Defense-in-Depth-PhD-thesis.pdf[失效連結] 失效,那麼編者可以聯絡耶魯大學電腦科學部門。請直接在失效連結後放置{{dead link}}模板進行標識。
參見
- Wikipedia:使用時光機
- Wikipedia:CHECKLINKS
- Checklinks,一個可用的編輯工具,能夠列出失效連結並使用存檔服務進行恢復。
- weblinkchecker.py,來自Python Wikipedia Bot類的指令碼,能夠尋找並報告無法使用的外部連結。
- Wikipedia:外部連結#遇到失效連結怎麼辦?
- HTTP狀態碼
- Category:帶有失效連結的條目
- m:InternetArchiveBot