维基百科:维基简讯/2012/31/技术报告
SVG檔案翻譯技術即將革新
2011年7月9日南蘇丹宣布獨立,而一年後的今日已經有142個語言版本的維基百科都對於此事件有所描述,這之中也不乏在最初消息遭到證實後立即進行的修改。然伴隨著資訊的快速流通,義大利語維基共享資源貢獻者「Danielemezzalira」創建了有關國界新變動以及民族分布的新地圖,隨後該地圖也被翻譯成數10種不同語言,這包括有英語、希臘語、加泰隆尼亞語、馬其頓語等等。這些修改過的圖片隨後作為不同的單讀圖片,陸陸續續上傳到維基共享資源上提供維基百科使用。
到目前為止一切都很好,然而南蘇丹現今仍然只是一個處於剛起步階段的國家。由於南蘇丹獨立所引起的眾多邊界衝突仍然沒有停歇,沒有人能夠知道地圖上的國家的邊界是否永遠都不會改變。想當然爾,那麼人們也會想到是否地圖在未來10年內又要有顯著修改。這個修改並不是指大規模改變下的編輯修正,而是各個維基百科計畫人士迅速更新自己語言版本的地圖。這樣做的話,老實講懂技巧的話其實只需要20分鐘的時間,但是包括加泰隆尼亞語、希臘語、馬其頓語都要不斷複製檔案而只為了同一個目的?由於維基百科志願者和其他用戶往往只會更新他們所使用語言的檔案版本,這意味著之後每個人總共要花費數小時的時間,來讓幾10個檔案文件一一上傳到維基共享資源上。不過更令人驚訝的是,在這些貢獻者的努力下這些圖像往往能夠同時更新,也因此長期以來這也被視為維基百科計畫的小缺點看待。
不過正在參加今年8月Google夏日程式碼大賽的維基計畫開發者哈利·伯特(Harry Burt)決定展開一項名為「TranslateSvg」的計畫,改變當前常見的工作流程,而首要目的之一便是有效率使用SVG檔案。計畫首先藉由程式設計的方式來讓人們更容易翻譯這些檔案,緊接著設計出讓人能夠直接在同一個SVG檔案中嵌入新的翻譯字詞;如果這項計畫成功的話,將能夠有效減少中文維基百科中常見的使用非中文語系圖表的問題。以這次案例來說意味著今後只要有人將圖片因應時勢而修改圖片邊界的話,一瞬間各個語言版本的貢獻者便能夠在這檔案中直接進行翻譯。而用戶也不需要擔心是否要在Inkscape等軟體上處理這些流程,如果這技術成功引入的話用戶在任何時間只會看見一組翻譯文字,甚至能夠輕易修改這些不同語言文字標籤的位置。這對於規模較小的修改能夠獲得許多正面幫助,因為「TranslateSvg」能夠讓正在進行大規模計畫性修改的用戶即時更新,但對於維基百科計畫而言也有可能收到不佳回饋。
對於當前「TranslateSvg」發展的進度伯特抱持樂觀的態度,到目前為止主要的障礙是有關程式碼的內容審查,並在此期間也會決定是否要繼續實施「TranslateSvg」的技術。如果順利獲得使用核准的話,「TranslateSvg」最快便能夠在今年年底以前成為維基共享資源的修改方式之一。
維基百科條目回饋工具再次更新
對於維基百科要如何讓瀏覽者能夠發表意見始終是一大挑戰,其中維基媒體基金會的開發人員法布里斯·弗洛林(Fabrice Florin)便在2012年維基媒體國際會議就在第二天便對於條目回饋工具表達意見。在這場演講中弗洛林提到基於先前條目評分工具使用的經驗,維基媒體基金會將另外推出新的第五版本條目回饋工具。
這使得被視為舊版本的條目評分工具其地位陷入一種尷尬的地位,因為已經陸續有其他語言版本的維基百科都曾經或者正在使用這一工具,這包括有英語維基百科、德語維基百科和中文維基百科等。就設計概念而言條目評分工具其部分功能就如同過去傳統使用的評分工具,在維基媒體基金會期望能夠給予讀者基會表達意見、進而評估個別條目品質的方針下廣為推廣。其中德語維基百科也在2008年提出類似想想法,但是對於德語維基社群來說也陸續有人強烈質疑實際的評估作用,最後德語維基百科放棄繼續使用條目評分工具。
雖然說藉由評分回饋的設計功能能夠讓維基百科用戶對於條目水準有一定瞭解,其中英語維基百科當前所使用的第四版本條目回饋工具以及中文維基百科所使用的條目評分工具都是以「評分」為主,但由於德語維基百科本身對於條目文章會由內部自行評估情況下並未被採納。在2011年7月英語維基百科開始使用第四版本條目回饋工具,中文維基百科也在同年11月開始採用條目評分工具。其中兩者為了能夠調查瀏覽者對於文章的反應,因此設計出4種個不同的問題來讓瀏覽者評選等級,而分數從1顆星(完全不符合標準)到5顆星(非常優秀)給予用戶選擇。其中這些評分將重點放在:
- 可信度:你覺得本條目有足夠的參考文獻,並且這些文獻的來源可靠嗎?
- 客觀性:你覺得本條目是否已經公正合理地描述了各方觀點?
- 完整性:你覺得本條目是否已經涵蓋了所有必要的內容?
- 可讀性:你覺得本條目內容的組織和撰寫是否精心完美?
然而應與維基百科在這時使用後,法布里斯和他的研究小組發現評分的方式也證實先前德語維基百科的擔憂,也就是條目回饋藉由評分的方式並無法確定是否客觀,對於維基百科用戶而言也無法判斷瀏覽者是因為條目主題或者是內容來評分。因此法布里斯決定另外開發新版本的條目回饋來解決這問題,在新第五版本條目回饋工具中不再提供用戶用星星評分,但也給讀者的機會,但也允許用戶藉由撰寫評論的方式來評估條目品質。這種直接的回饋方式預估能夠比條目對話頁更加直接且有效,此外比起過去評分功能來說撰寫評論的方式更能提供條目編輯用戶優先考慮。甚至也有可能鼓勵原本只將維基百科作為搜尋資料工具的瀏覽者,一同加入維基百科編輯用戶的行列。
英語維基百科開始推動第五版本條目回饋工具準備採用,而在最近上傳有關瀏覽者如何與維基百科用戶互動的影片中也有所提及。目前大約有3%的英語維基百科條目開始安設新型回饋工具來調查用戶反應,包括英語維基百科的「Barack Obama」等經常瀏覽條目首先測試。英語維基百科計畫在7月底時將工具使用比例擴大到10%,並在9月下旬擴展到整個英語維基百科之中。但儘管如此,關於第五版本條目回饋工具是否真的能夠解決過去評分問題仍需要時間驗證,而中文維基百科是否會跟進使用則須要等待進一步的討論。
維基媒體基金會的分析團隊與技術
在過去幾個月中,維基媒體基金會為了能夠準備推出種種新的想法,往往都會在事前不斷就用戶習慣進行調查。因此也理所當然早以組織了一個分析團隊,然而一直到最近維基媒體基金會才向維基百科計畫的用戶揭露這批幕後幫手。
當前維基媒體基金會分析團隊的成員,包括有程式設計師大衛·斯庫諾弗(David Schoonover )與安德魯·奧托(Andrew Otto)、資深數據分析師Erik Zachte和不知名產品經理蒂耶德里克·范·利埃(Diederik van Liere)。維基媒體基金會在推動一些想法或者正在進行的計畫時,往往會希望這個分析團隊能夠先提出相關的調查報告;到了今日他們所推出的維基報告(Wikimedia Report Card)已經成為許多計畫是否成功的判讀數據之一,而在平日也由他們對於維基百科的瀏覽次數、特殊的瀏覽者、編輯活動數量等等進行調查。
而為了能夠提供維基報告來給其他維基百科用戶了解,分析團隊藉由JavaScript編寫的圖形使用者介面工具包Limn來讓數據直接以圖表呈現,這讓更多非技術性出身的用戶能夠自行分析艱深數據而不需要依靠分析團隊或者其他分析師。作為一個維基媒體基金會所推廣的應用軟體,維基媒體基金會分析團隊希望這樣能有助於數據分析資料能被廣泛推廣運用。
數據服務平台
不過維基媒體基金會分析團隊還有另一個更大規模的計畫,也就是建立一個維基百科通用的電腦數據分析平台,並將其代稱為「海妖」(Kraken)。分析團隊能夠建立一個平台來調查維基百科社群中所有轉換、儲存和查詢等數據資料並加以分析之,期望這樣能夠協助維基媒體基金會推動更多計畫。實際上對於分析團隊而言維基百科與姐妹計畫的成功反而是個壞處,因為有的時候維基媒體基金會便是要在大量數據中找出最為重要的少數資料來作分析;但是當前對於分析團隊而言光是回答「葡萄牙和巴西的瀏覽者所青睞的不同內容為何?」就必須困難的逐一分析搜索,為此分析團隊便期望能夠藉由「海妖」來解決這一問題。
此外「海妖」的推出也能夠協助維基百科等頁面進行A/B測試(A/B testing),來讓維基百科社群了解各個版本對於瀏覽者的影響,甚至也能夠向編輯用戶了解到瀏覽者所看到的資訊與反應。從這一觀點,「海妖」數據服務平台將是一個功能強大且統一規格的工具包,能夠方便維基媒體基金會分析團隊有效分析這些數據流動的趨勢,也能夠讓維基用戶輕易了解各種大型或小型計畫背後影響的差異之處,進而能夠實質意義上協助維基百科社群活動時的策劃安排。
計算次數但並不跟蹤
然而就像任何分析系統般在分系數據情必須先統整所有資訊內容,「海妖」也必須從用戶的各種應用軟體獲取緩存資料來轉換分析數據,並且將這些數據儲存起來以方便之後繼續使用。但不同於其他「八爪章魚」(Datenkrake)般,維基媒體基金會所使用的「海妖」並不會嘗試侵犯用戶的隱私。
同樣受到維基媒體基金會的隱私政策限制,維基媒體基金會分析團隊的行為都不能任意侵犯他人隱私權益。同樣地廣泛搜索用戶資訊的「海妖」也將被視為一個數據平台看待,而不是來跟踪用戶行為。不過為了能夠分析不同數據來回覆各種提問,分析團隊的確也有必要將這些資訊儲存起來,為此分析團隊定時向大眾公開自身所蒐集到的資料並具體提到這些資料的用處。常見的儲存資料包括有用戶意見、網頁圖像、搜尋資料、編輯次數和新進用戶的註冊人數等等,而分析團隊也會在元維基發表數據來讓其他關注用戶了解,同時用戶也能夠簡單找到自己所需要的資料。另外分析團隊對於相關連資訊也會協助用戶分析,例如分類頁面的資訊便可能與「機器人」使用量有關,而行動電話瀏覽的漲幅也往往影響到其他移動設備使用比率。藉由分析這些資訊的方式,也能夠讓維基媒體基金會重新比較《維基百科五年戰略計劃》的發展狀況。
對維基簡訊有任何意見,不如有話直說。