中文互聯(lián)網(wǎng)內(nèi)容真的正在衰退嗎?
“全球前100萬網(wǎng)站中,中文網(wǎng)站的比例只占1.3%,英文占59.3%”;
“中文網(wǎng)頁數(shù)量僅僅略高于印尼語和越南語”;
“中文網(wǎng)頁的數(shù)量十年間下降了70%”……
這類關(guān)于中文互聯(lián)網(wǎng)內(nèi)容占比低、迅速衰退的說法,在互聯(lián)網(wǎng)上已經(jīng)流行了很長時間。中國有超過10億的網(wǎng)民,卻連互聯(lián)網(wǎng)內(nèi)容的一角都占據(jù)不了,甚至還在繼續(xù)倒退,這種反差感不能不讓人印象深刻。這是真的嗎?
有缺陷的數(shù)據(jù)
這些說法的數(shù)據(jù)都有同一個來源,監(jiān)測網(wǎng)站W(wǎng)3Techs,它通過分析訪問量最高的1000萬個網(wǎng)站來確定互聯(lián)網(wǎng)內(nèi)容的語言分布?,F(xiàn)在網(wǎng)上很多關(guān)于互聯(lián)網(wǎng)語言多樣性的討論,就建立在W3Techs的數(shù)據(jù)之上。按照W3Techs的數(shù)據(jù),英文內(nèi)容始終是互聯(lián)網(wǎng)的主流。
然而法國學者丹尼爾·皮米恩塔(Daniel Pimienta)和他的合作者不認同這個觀點。皮米恩塔是FUNREDES(Fundación Redes y Desarrollo,網(wǎng)絡與發(fā)展基金會)的創(chuàng)始人之一,他和合作者一直致力于研究互聯(lián)網(wǎng)語言的多樣性和文化分布。聯(lián)合國教科文組織曾經(jīng)委托他制作關(guān)于互聯(lián)網(wǎng)語言多樣性的主題報告[1]。
有趣的是,皮米恩塔當年踏入互聯(lián)網(wǎng)語言多樣性研究的契機,也是因為法國人對互聯(lián)網(wǎng)英語內(nèi)容占比的高估。1995年,時任法國總統(tǒng)希拉克在一次峰會上表示,互聯(lián)網(wǎng)幾乎一個100%講英語的領域。但在皮米恩塔看來,這樣的說法根本經(jīng)不起驗證[2]。
當時流行其他說法也不可靠,比如一項1999年的研究提到英文內(nèi)容占互聯(lián)網(wǎng)達到80%。但這項研究僅僅對3000個網(wǎng)站做了一次抽樣,而沒有多次重復得出數(shù)據(jù)的特征,這在統(tǒng)計上是不過關(guān)的,但這個數(shù)據(jù)在當時被反復引用[3]。
互聯(lián)網(wǎng)語言多樣性的數(shù)據(jù)其實一直很不完善。1998年,研究人員首次采用基于搜索引擎的數(shù)據(jù)方法研究互聯(lián)網(wǎng)語言多樣性。然而,到2007年,他們發(fā)現(xiàn)搜索引擎報告的可靠性下降,只能去尋找新方法。自2011 年以來,討論互聯(lián)網(wǎng)語言分布的政策制定者和語言學研究者,都不得不完全依賴W3Techs和InternetWorldStats,這兩個數(shù)據(jù)源都來自商業(yè)營銷領域,用它們的數(shù)據(jù)是一種無奈之舉。
W3Techs的方法存在顯著缺陷,尤其忽視了互聯(lián)網(wǎng)的多語言特性。例如,許多網(wǎng)站同時使用多種語言,但W3Techs通常只記錄其中一種主要語言,導致了對非主要語言內(nèi)容的嚴重低估。這樣的統(tǒng)計方法導致英語之外的互聯(lián)網(wǎng)語言存在被大大低估。
另外,W3Techs的計量單位是網(wǎng)站,沒有詳細到網(wǎng)頁的程度。一些非英文網(wǎng)站會在其主頁中出現(xiàn)英文摘要或少量英文單詞,這可能會導致整個網(wǎng)站被算作英文網(wǎng)站。此外,許多英文網(wǎng)站的其他語言版本也不會被計算在內(nèi)。
中文互聯(lián)網(wǎng)內(nèi)容到底占比多少?
為了糾正這種誤解,皮米恩塔和他的合作者開發(fā)了一種新的統(tǒng)計方法。他們的方法不僅依賴于網(wǎng)站聲明的語言,還結(jié)合了多個關(guān)鍵因素,包括互聯(lián)網(wǎng)用戶的語言偏好、不同地區(qū)的網(wǎng)絡流量、社交網(wǎng)絡的訂閱情況及各國互聯(lián)網(wǎng)服務的發(fā)展進度等。這種綜合考量使得研究結(jié)果更具代表性和準確性。
盡管W3Techs等網(wǎng)站數(shù)據(jù)顯示,互聯(lián)網(wǎng)上英文內(nèi)容占比超過50%,但這項研究表明,這一比例實際上大約只有20%。
具體來說,現(xiàn)在英文占到互聯(lián)網(wǎng)內(nèi)容的20.4%,中文占到18.9%,西班牙語占7%到9%,其他語言如阿拉伯語、印地語、俄語、法語和葡萄牙語分別占3%到4%。相比W3Techs的數(shù)據(jù),這項研究中印地語和中文內(nèi)容的比重都增加了超過10倍。按這項研究的計算標準,中文內(nèi)容不僅沒有減少,反而在全球范圍內(nèi)持續(xù)增長。
比例上有所下降的反而是英文內(nèi)容。從1998年到現(xiàn)在,英文內(nèi)容的比例從已經(jīng)從80%下降到20%。但這并不是因為英文內(nèi)容消亡了,而是其他語言的內(nèi)容顯著增加,削弱了英文內(nèi)容的相對比例,而中文內(nèi)容就處于增長之中[4]。
按照皮米恩塔與合作者長期以來的跟蹤?;ヂ?lián)網(wǎng)的發(fā)展可以劃分為幾大階段。最初,從1992年到2000年,網(wǎng)絡主要圍繞著英語內(nèi)容構(gòu)建。隨后進入了第二階段,從2000年到2010年,這一時期以歐洲語言的興起為特征,盡管英語仍然占據(jù)主導地位。從2010年到2020年,互聯(lián)網(wǎng)邁入了更加國際化的階段,亞洲語言和阿拉伯語等非西方語言迅速發(fā)展。
很難說皮米恩塔的統(tǒng)計就能代表互聯(lián)網(wǎng)語言分布狀況的真相。畢竟這方面的研究并不多,研究團隊的結(jié)果缺少交叉印證,而且他們的計算標準本身也在迭代過程中。
論文中也提到,互聯(lián)網(wǎng)語言測量領域是兩個偏差相當普遍的領域的交叉點:語言人口學和網(wǎng)絡。在這兩個領域中,對數(shù)據(jù)并沒有達成很好的共識。根據(jù)資料來源的不同,在一些數(shù)字上可能會出現(xiàn)很大的差異,比如在某個國家有多少人講這種語言,或者網(wǎng)頁的總數(shù)到底是多少。
但他的研究至少說明,過去普遍被引用的W3Techs數(shù)據(jù)是有偏見的。中文的互聯(lián)網(wǎng)內(nèi)容占比未必少到了和越南語一個程度,中文互聯(lián)網(wǎng)內(nèi)容的迅速消亡也并非是一個定論。
衰退的,不只是中文互聯(lián)網(wǎng)內(nèi)容
2005年,一位商學院的學生正在為自己的學費發(fā)愁,考慮如何賺錢來填補學費。很快他有了一個主意,“百萬美元主頁”。這是一個一百萬像素的廣告頁,每個像素一美元,以100個像素為一組售賣廣告位。一年之后,他真的成了百萬富翁。
到2019年,百萬美元主頁依然在運作,但上面40%廣告位的鏈接都指向無效網(wǎng)站,還有很多廣告位背后的網(wǎng)站已經(jīng)多次變化,指向全新的域名。百萬美元網(wǎng)頁不僅展示了一個經(jīng)典的商業(yè)案例,更展示了早期互聯(lián)網(wǎng)內(nèi)容的衰退[5]。
對于互聯(lián)網(wǎng)內(nèi)容來說,這樣的衰退其實每天都在發(fā)生。今年5月,皮尤研究中心的一項新研究發(fā)現(xiàn),截至 2023 年 10 月,2013 年至 2023 年間一度存在的所有網(wǎng)頁中,有四分之一已無法訪問。2013年的網(wǎng)頁有38%已經(jīng)消失。哪怕是2023年的網(wǎng)頁,到這一年的十月份都有8%已經(jīng)無法訪問了。
團隊從互聯(lián)網(wǎng)快照數(shù)據(jù)庫Common Crawl 的檔案中隨機收集了近 100 萬個網(wǎng)頁樣本,對 2013 年到 2023 年每一年 Common Crawl 收集的頁面進行抽樣(每年大約 90,000 個頁面),并檢查這些頁面是否仍然存在。
這項研究旨在調(diào)查有互聯(lián)網(wǎng)上有多少內(nèi)容已經(jīng)無法訪問。研究者無法訪問的網(wǎng)站定義為在其主機服務器上不復存在的網(wǎng)站,也就是我們熟悉的404錯誤還有它的變體。有些網(wǎng)頁相比過去出現(xiàn)了面目全非的變化,其實也可以算作是消失了,但這類情況并不是此次研究的重點。
具體到各個領域。政府網(wǎng)站有21%至少包含一個損壞的鏈接。新聞網(wǎng)站頁面上的所有鏈接中有5%無法訪問,抽樣的所有頁面中23%至少包含一個損壞的鏈接。按網(wǎng)站流量排名前 20% 的新聞網(wǎng)站中,約有 25% 的頁面至少有一個損壞的鏈接。近五分之一的推特帖子,在三個月左右的觀察期內(nèi)也不再可見[6]。
在學術(shù)領域,也有很多數(shù)字化的論文從互聯(lián)網(wǎng)上消失。數(shù)字化的學術(shù)論文通常有著唯一且不變的DOI,以確保學術(shù)鏈接和引用的持久性,然而現(xiàn)在很多DOI背后的作品卻已經(jīng)無法找到。
倫敦伯克貝克大學文學、科技和出版研究員馬丁·伊夫(Martin Eve)對超過70萬篇帶有DOI的數(shù)字學術(shù)論文進行調(diào)查,發(fā)現(xiàn)接近28%的論文沒有出現(xiàn)在主要的數(shù)字檔案庫中,也就是說,超過200萬學術(shù)論文沒有得到保存[7]。
或許是互聯(lián)網(wǎng)并沒有實體,保存互聯(lián)網(wǎng)信息的成本很難直觀看到,我們就有了互聯(lián)網(wǎng)信息可以持續(xù)存在的錯覺。實際上無論從成本還是工作量上,互聯(lián)網(wǎng)內(nèi)容的存儲從來都是一個難題。互聯(lián)網(wǎng)內(nèi)容永遠在持續(xù)的增長中,無論是歸檔還是存儲都要花錢,問題是這些錢誰來付?
高質(zhì)量信息更難找了
普通人切身感到的互聯(lián)網(wǎng)信息的衰退,有時候未必是信息不存在了,而是我們搜不到了。
問題出在搜索引擎上,現(xiàn)在搜索引擎無法像過去一樣在信息搜索上穩(wěn)準狠。輸入關(guān)鍵詞得到答案,這種直觀而清晰的互動體驗正在減少。今天我們在搜索引擎輸入關(guān)鍵詞,得到的往往是內(nèi)容同質(zhì)、信息重復、掛著各式廣告信息的軟文。
2022年,一位工程師發(fā)布了一篇名為“谷歌搜索正在死亡”的博文(Google Search Is Dying),表示谷歌的搜索結(jié)果一團糟,如果搜索菜譜、健康內(nèi)容或者商品評論,排在最前面的幾個非廣告結(jié)果都是格式一致、內(nèi)容重復的軟文,正文還是會有大量的廣告和鏈接[8]。
這是搜索引擎商業(yè)模式所不能避免的問題。讓內(nèi)容占據(jù)搜索引擎的黃金位置本身就是一項稱為搜索引擎優(yōu)化(SEO)的業(yè)務。這種業(yè)務不同于競價排名,是利用搜索引擎算法漏洞,通過大量重復關(guān)鍵詞、偽原創(chuàng)內(nèi)容或不相關(guān)鏈接來提升網(wǎng)頁排名。為人熟知的小編體,就是這種針對搜索引擎,刷關(guān)鍵詞騙點擊量的產(chǎn)物。
根據(jù)市場研究公司 IBISWorld 的數(shù)據(jù),去年 SEO 業(yè)務價值 760 億美元。搜索引擎優(yōu)化已成為大多數(shù)網(wǎng)絡營銷的重要組成部分,出現(xiàn)在顯眼位置的網(wǎng)站可以通過商品鏈接的返傭賺錢,其中一些甚至干脆就是詐騙網(wǎng)站[9]。
為了保證內(nèi)容的可靠,現(xiàn)在很多用戶在搜索詞后面加上了 “reddit”,來搜索reddit論壇里的用戶真實看法。要不是reddit始終沒有認真開發(fā)搜索功能,恐怕倒向reddit的用戶會更多。
在今年的歐洲信息檢索會議(European Conference on Information Retrieval)上,四位來自德國的研究者發(fā)布了一項名為《谷歌在變壞嗎?》(Is Google Getting Worse?)的研究,回應了網(wǎng)民對于搜索引擎的質(zhì)疑。這項研究的起點就是網(wǎng)民對于搜索引擎質(zhì)量日漸下降的抱怨,結(jié)果說明,網(wǎng)民的直覺是對的。
研究團隊利用一年時間,監(jiān)測了Google、Bing和DuckDuckGo搜索結(jié)果的變化,發(fā)現(xiàn)所有搜索引擎在處理SEO內(nèi)容上存在問題,遠超過整個網(wǎng)絡平均情況。越是靠前的內(nèi)容,越是做了更多優(yōu)化而且有更多返傭鏈接,鏈接越多內(nèi)容的復雜性越差。其中聯(lián)盟營銷內(nèi)容(為平臺推廣產(chǎn)品,獲取點擊或返傭的內(nèi)容)僅占網(wǎng)絡產(chǎn)品評論的小部分,但它卻在搜索結(jié)果中占據(jù)主導地位。不僅是谷歌,所有搜索引擎均遭受垃圾信息的困擾[10]。
搜索引擎運營商在嘗試通過排名算法更新來打擊SEO和聯(lián)盟營銷內(nèi)容。從搜索結(jié)果上看,Google的更新產(chǎn)生了明顯但短暫的效果,從實驗開始到結(jié)束,Google的聯(lián)盟垃圾量有所減少。高質(zhì)量的雜志和社交平臺通常在多次抓取中穩(wěn)定出現(xiàn)在谷歌搜索結(jié)果的前列,而純粹的產(chǎn)品評論農(nóng)場和一些頻繁的垃圾站點則相對短暫,常在Google排名更新后消失。
雅虎前CEO、谷歌早期員工瑪麗莎·梅耶爾(Marissa Mayer)表示,如果說谷歌搜索變糟了,那是因為整個網(wǎng)絡都變糟了。在她剛為谷歌工作時,互聯(lián)網(wǎng)只有3000萬個網(wǎng)頁,對所有網(wǎng)頁進行爬取和編制索引更為簡單。而現(xiàn)在谷歌面對的可能是上萬億個網(wǎng)頁。在經(jīng)濟誘因的驅(qū)動下,虛假信息、騙取點擊量的內(nèi)容以及廣告鏈接不受監(jiān)管地迅速增長[11]。
AI技術(shù)進步后,互聯(lián)網(wǎng)上這類垃圾信息越來越多。網(wǎng)絡安全公司 Imperva 今年的一份“不良機器人”報告表明,去年所有互聯(lián)網(wǎng)流量中近一半(49.6%)來自機器人,這是從2013年以來的最高水平。特別是不良機器人,占現(xiàn)在所有流量的三分之一。
Imperva應用安全總經(jīng)理Nanhi Singh表示:“自動機器人將很快超過來自人類的互聯(lián)網(wǎng)流量比例......隨著更多人工智能工具的推出,機器人將變得無所不在[12]?!?/span>
隨著互聯(lián)網(wǎng)內(nèi)容的膨脹,谷歌只能像打地鼠一樣追著隱藏在數(shù)十億網(wǎng)站中的騙子們打。前述論文作者說,這是一場持久戰(zhàn),而搜索引擎輸?shù)袅诉@場“與SEO垃圾內(nèi)容之間的貓鼠游戲”。
搜索引擎逐漸迷失是一個世界性的問題,對于中文互聯(lián)網(wǎng)用戶來說,高質(zhì)量的數(shù)據(jù)更為受限,比如一些行政公開數(shù)據(jù)。
中國公開數(shù)據(jù)的透明度一度有著明顯地上升。2013后的幾年里,國家統(tǒng)計局的統(tǒng)計指標(如人口數(shù)據(jù)、經(jīng)濟統(tǒng)計數(shù)據(jù)等指標)數(shù)量增加了 673%?!吨腥A人民共和國政府信息公開條例 》也在2019年進行了修訂,強調(diào)了“堅持以公開為常態(tài)、不公開為例外 ”的信息公開原則。
然而2015年達到頂峰后,信息公開又出現(xiàn)了下降的趨勢。
不同類型的信息公開程度不同。法律法規(guī)是公民和企業(yè)生計相關(guān)的事項,因此相對透明。相反,與內(nèi)部工作流程相關(guān)的文件透明度較低。隨著對安全的強調(diào),普通人看到了越來越多健康、消費、價格、就業(yè)等相關(guān)數(shù)據(jù),但是更少看到能源、科技、創(chuàng)新、金融等方面的公開信息。
尤其是科技創(chuàng)新方面的信息,從2017年之后公開文件的比例就逐步下降,到2022年的公開比例更是達到2009年來的低點。
文件的保存程度也很堪憂。只有78%的政策文件鏈接在發(fā)布兩年后仍然可用。失效的文件大部分與網(wǎng)站無法訪問或網(wǎng)站更新有關(guān)。其中一些可能在其他地方仍可獲取,但這只是一部分[13]。
對于生活,這種變化可能并沒有帶來什么顯著的不便利。但對于相對嚴肅的用戶,比如科技行業(yè)的投資者,這些信息的缺失仍然會帶來很多不便。相比同樣深受互聯(lián)網(wǎng)垃圾和廣告信息發(fā)達國家,這些高質(zhì)量信息的差距,可能才是中文互聯(lián)網(wǎng)真正的短板。
參考文獻:(上下滑動可瀏覽)