User:Hanteng/研究:接收-使用
User:Hanteng/研究 |
---|
百度百科及中文維基比較研究: |
編輯‧環境: |
政策、發展、素質與數字 |
內容‧來源: |
中美、港台及中國性 |
接收‧使用: |
能見度、地理語言差異及用途 |
研究啟示: |
關於hanteng: |
外部連結 |
研究結果: 能見度比較
網路計量學: 比較維基百科和百度百科在各地搜尋引擎的可見度
百科的使用者訪問量許多來自Google、Yahoo、百度等搜尋引擎透過台灣、香港、中國、新加坡等等地方界面而來, 維基百科和百度百科的可見度(visibility)為何呢?
根據數個產業報告, 我建構了一個可見度數量計算方法 (visibility scores), 我分別在2011年牛津及2012年香港及中國境內, 以不同的搜尋引擎和地方界面, 分別利用2500個及3000個關鍵字搜尋來比較維基百科和百度百科在各地搜尋引擎的可見度。
視覺化網絡圖
有圖有真相, 果然百科網站表現最好, 而地域界面和搜尋引擎的選擇決定了是哪個百科比較容易出現: 視覺化網絡圖, 點愈大代表該網站愈有可見度, 箭頭愈大該搜尋引擎-地域界面的貢獻愈大
比比關鍵字對能見度的影響
不同類型的關鍵字, 果然最有能見度的網站排名就不一樣。想要知道哪一個非百科網站的能見度對哪一種類別的關鍵字最有效嗎?
見以下列表: (注意三個百科網站有加粗標出)
- 2011 OX
- 2012 HK (多了Fortune 500的搜尋關鍵字)
能見度前20名
按能見度前20名的網站,按其能見度數值,從能見度高到低的排名列出其所佔的能見度數值(包括正常及累積曲線):
能見度的集中程度
網站累積的能見度總分數, 若以前幾名網站總和佔總分數的方式做圖, 則會發現極少數的網站擁有相當高的能見度數值。 而其中, 2012HK的數值似乎又比2011OX的數值更往前幾名網站分佈的走向, 似乎有富者愈富, 貧者愈富的能見度數值分佈傾向。
研究方法: 能見度比較
搜尋關鍵字選取
2500個搜尋關鍵字選取以代表多樣性選取為原則, 從劍橋中國大百科的所有條目名稱、歷年百度谷歌搜尋最多的關鍵字、知名人士、敏感詞、中日現代詞彙都有。 3000個搜尋關鍵字選取則是多加了財星五百大企業名稱 Fortune 500。 感謝維基百科的自動轉換系統,我可以輕易的把這些搜尋關鍵字轉換成對映的簡體及繁體字詞,以便我在不同地區界面使用對映的主流字詞。
能見度和媒體接收的關連
研究結果: 找出斷裂
根據各主要中文搜尋引擎及其各地主要版本的能見度數值,我們可以看出,對於選定的搜尋關鍵字來說,百科內容的網站享有的能見度是累積最高的,但對不同的中文搜尋引擎及不同的地方版本,會有不同的百科網站的能見度差異。
其實,對其他網站來說,這樣因中文搜尋引擎及地方版本的差異,而有能見度的差異,我們可以利用網絡關係圖來找出富有連結及少有連結的差異。總結這些差異,研究者可以找出網絡連結的斷裂之處,來看出在中文搜尋引擎的不同版本所產生的能見網站的共同之處(同時富有連結) ,和斷裂之處(只有對部份版本富有連結,而另版本則少有連結)。
區塊建模結果
利用能見度前100名的網站,按其能見度數值,以數學方法的二維網絡關係區塊建模(two-mode blockmodelling),則成功將原資料100x9(100網站x9搜尋可能)產出一個3x3分類(3類網站x3類搜尋可能)的分類結果:
其中三類區分出的搜尋可能為:
- Baidu_CN,Google_CN, Yahoo_CN 3者, 這3搜尋可能變異,只對能見度前100名的網站中61個網站(13+48)富有連結,而對其他39網站(包括中文維基百科等,見上圖左上角大區塊中多為白色底少有連結的網站列表)則有相對斷裂的效果。
- Yahoo_SG,Google_SG, Google_TW, Google_HK 4者, 這4搜尋可能變異,對能見度前100名的大多數網站富有連結,算是所有9個搜尋可能變異的中流,較無斷裂的效應。其對百度百科和維基百科的能見度貢獻,相較前後類來說,也算是較持平的。
- Yahoo_HK,Yahoo_TW 2者, 這2搜尋可能變異,只對能見度前100名的網站中52個網站(=39+13)富有連結,而對其他48網站(包括百I度百科等,見上圖右下角大區塊中多為白色底少有連結的網站列表)則有相對斷裂的效果。
同樣地,100個網站也因區塊建模分類,分成三類網站:
- 見上圖列出的前上半段39個網站,這些網站對Baidu_CN,Google_CN, Yahoo_CN 3者相對少有連結。
- 見上圖列出的中間段13個網站,這些網站對各種搜尋可能變異,一般來說沒有特別誇張的差異表現。
- 見上圖列出的後下半段48個網站,這些網站對Yahoo_HK,Yahoo_TW 2者相對少有連結。
換句話說,區塊建模分類算是一個劃出界線找出斷裂的工具之一:按連結關係(可見度高低)原資料選取的前100網站,可以分成3類,而原資料中9搜尋可能亦可分為3類。原來複雜的100x9網絡關係圖,就可以簡約化成3x3的網絡關係區塊圖,是以其交互關係來分類的成果。
視覺化結果
依區塊建模結果,將原資料中9搜尋可能亦可分為3類,放回能見度視覺化的網絡圖來看,就像是將9搜尋可能以2條紅線劃出3分類如下圖:
結果討論
- 搜尋可能呈現CN一類、Yahoo的TW及HK一類,而這兩類位於兩端,其實在中間的區分效果
- CN一類或許和中國大陸地區網絡特殊性相關?
- Yahoo的TW及HK一類應該是Yahoo在搜尋引擎的內定預設,為本地搜尋結果優先的原因,而兩者一類,或因Yahoo服務同樣是繁體用戶區的整合效果。
- 百度百科主要是對CN一類有很高的能見度,但也對Yahoo及Google的新加坡版本能見度也不低,或者是因為新加坡及中國大陸同樣用簡體字的整合效果?
- 注意Yahoo及Google的新加坡版本,雖然易看見百度百科,但也常看見中文維基百科。
- 注意CN一類的Baidu_CN,Google_CN, Yahoo_CN ,雖然易看見百度百科,但郤不常看見中文維基百科。
- 以上對比也映證了按能見度區塊建模分類的區分效果。
- 中文維基百科主要是對非CN一類有很高的能見度,但Google_CN對中文維基百科其實也不算低。
- 合理推論,在中國大陸,使用哪一種搜尋引擎會影響是否常見中文維基百科的機率。
結果總結
- 按各地中文搜尋結果及網站能見度,可大致找到斷裂之處,主要是中國大陸與非中國大陸之間有搜尋斷裂的差異。
- 中文維基百科對各地中文用戶的能見度整合效果(同時看到同樣內容),比百度百科相對高,但只限於使用Google_CN的中國大陸用戶。
- 百度百科僅對中國及新加坡簡體中文用戶有高度能見度整合效果(同時看到同樣內容)。
研究結果: 使用循環
處理到百科和搜尋引擎和微博的循环問題, 比較大的循环是知識的需要和方便, 不管是學生寫報告還是找資料的方便, 已有直接證據看到學生在網路上找資料用在報告後, 又在搜尋引擎和微博上出現傳播, 有時還被百科寫手引有成來源的「不當」循环引用的問題。
hanteng相信對中文維基百科及百度百科的比較研究,將有助維基百科全書的建設。hanteng更相信維基的善意假定亦是網際網路發展的基石。hanteng 的cv及學術部落格 |