? 手机在线看永久av片免费,性欧美丰满xxxx性

亚洲 a v无 码免 费 成 人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

中文互聯(lián)網(wǎng)內(nèi)容真的正在衰退嗎?

2025/02/28
導讀
中國有超過10億的網(wǎng)民,卻連互聯(lián)網(wǎng)內(nèi)容的一角都占據(jù)不了,甚至還在繼續(xù)倒退,這種反差感不能不讓人印象深刻。這是真的嗎?
撰文丨張?zhí)炱?/strong>

“全球前100萬網(wǎng)站中,中文網(wǎng)站的比例只占1.3%,英文占59.3%”;


“中文網(wǎng)頁數(shù)量僅僅略高于印尼語和越南語”;


“中文網(wǎng)頁的數(shù)量十年間下降了70%”……


這類關(guān)于中文互聯(lián)網(wǎng)內(nèi)容占比低、迅速衰退的說法,在互聯(lián)網(wǎng)上已經(jīng)流行了很長時間。中國有超過10億的網(wǎng)民,卻連互聯(lián)網(wǎng)內(nèi)容的一角都占據(jù)不了,甚至還在繼續(xù)倒退,這種反差感不能不讓人印象深刻。這是真的嗎?


有缺陷的數(shù)據(jù)


這些說法的數(shù)據(jù)都有同一個來源,監(jiān)測網(wǎng)站W(wǎng)3Techs,它通過分析訪問量最高的1000萬個網(wǎng)站來確定互聯(lián)網(wǎng)內(nèi)容的語言分布?,F(xiàn)在網(wǎng)上很多關(guān)于互聯(lián)網(wǎng)語言多樣性的討論,就建立在W3Techs的數(shù)據(jù)之上。按照W3Techs的數(shù)據(jù),英文內(nèi)容始終是互聯(lián)網(wǎng)的主流。


然而法國學者丹尼爾·皮米恩塔(Daniel Pimienta)和他的合作者不認同這個觀點。皮米恩塔是FUNREDES(Fundación Redes y Desarrollo,網(wǎng)絡與發(fā)展基金會)的創(chuàng)始人之一,他和合作者一直致力于研究互聯(lián)網(wǎng)語言的多樣性和文化分布。聯(lián)合國教科文組織曾經(jīng)委托他制作關(guān)于互聯(lián)網(wǎng)語言多樣性的主題報告[1]。


有趣的是,皮米恩塔當年踏入互聯(lián)網(wǎng)語言多樣性研究的契機,也是因為法國人對互聯(lián)網(wǎng)英語內(nèi)容占比的高估。1995年,時任法國總統(tǒng)希拉克在一次峰會上表示,互聯(lián)網(wǎng)幾乎一個100%講英語的領域。但在皮米恩塔看來,這樣的說法根本經(jīng)不起驗證[2]


當時流行其他說法也不可靠,比如一項1999年的研究提到英文內(nèi)容占互聯(lián)網(wǎng)達到80%。但這項研究僅僅對3000個網(wǎng)站做了一次抽樣,而沒有多次重復得出數(shù)據(jù)的特征,這在統(tǒng)計上是不過關(guān)的,但這個數(shù)據(jù)在當時被反復引用[3]。


互聯(lián)網(wǎng)語言多樣性的數(shù)據(jù)其實一直很不完善。1998年,研究人員首次采用基于搜索引擎的數(shù)據(jù)方法研究互聯(lián)網(wǎng)語言多樣性。然而,到2007年,他們發(fā)現(xiàn)搜索引擎報告的可靠性下降,只能去尋找新方法。自2011 年以來,討論互聯(lián)網(wǎng)語言分布的政策制定者和語言學研究者,都不得不完全依賴W3Techs和InternetWorldStats,這兩個數(shù)據(jù)源都來自商業(yè)營銷領域,用它們的數(shù)據(jù)是一種無奈之舉。


W3Techs的方法存在顯著缺陷,尤其忽視了互聯(lián)網(wǎng)的多語言特性。例如,許多網(wǎng)站同時使用多種語言,但W3Techs通常只記錄其中一種主要語言,導致了對非主要語言內(nèi)容的嚴重低估。這樣的統(tǒng)計方法導致英語之外的互聯(lián)網(wǎng)語言存在被大大低估。


另外,W3Techs的計量單位是網(wǎng)站,沒有詳細到網(wǎng)頁的程度。一些非英文網(wǎng)站會在其主頁中出現(xiàn)英文摘要或少量英文單詞,這可能會導致整個網(wǎng)站被算作英文網(wǎng)站。此外,許多英文網(wǎng)站的其他語言版本也不會被計算在內(nèi)。


中文互聯(lián)網(wǎng)內(nèi)容到底占比多少?


為了糾正這種誤解,皮米恩塔和他的合作者開發(fā)了一種新的統(tǒng)計方法。他們的方法不僅依賴于網(wǎng)站聲明的語言,還結(jié)合了多個關(guān)鍵因素,包括互聯(lián)網(wǎng)用戶的語言偏好、不同地區(qū)的網(wǎng)絡流量、社交網(wǎng)絡的訂閱情況及各國互聯(lián)網(wǎng)服務的發(fā)展進度等。這種綜合考量使得研究結(jié)果更具代表性和準確性。


盡管W3Techs等網(wǎng)站數(shù)據(jù)顯示,互聯(lián)網(wǎng)上英文內(nèi)容占比超過50%,但這項研究表明,這一比例實際上大約只有20%。


具體來說,現(xiàn)在英文占到互聯(lián)網(wǎng)內(nèi)容的20.4%,中文占到18.9%,西班牙語占7%到9%,其他語言如阿拉伯語、印地語、俄語、法語和葡萄牙語分別占3%到4%。相比W3Techs的數(shù)據(jù),這項研究中印地語和中文內(nèi)容的比重都增加了超過10倍。按這項研究的計算標準,中文內(nèi)容不僅沒有減少,反而在全球范圍內(nèi)持續(xù)增長。


比例上有所下降的反而是英文內(nèi)容。從1998年到現(xiàn)在,英文內(nèi)容的比例從已經(jīng)從80%下降到20%。但這并不是因為英文內(nèi)容消亡了,而是其他語言的內(nèi)容顯著增加,削弱了英文內(nèi)容的相對比例,而中文內(nèi)容就處于增長之中[4]。


按照皮米恩塔與合作者長期以來的跟蹤?;ヂ?lián)網(wǎng)的發(fā)展可以劃分為幾大階段。最初,從1992年到2000年,網(wǎng)絡主要圍繞著英語內(nèi)容構(gòu)建。隨后進入了第二階段,從2000年到2010年,這一時期以歐洲語言的興起為特征,盡管英語仍然占據(jù)主導地位。從2010年到2020年,互聯(lián)網(wǎng)邁入了更加國際化的階段,亞洲語言和阿拉伯語等非西方語言迅速發(fā)展。


很難說皮米恩塔的統(tǒng)計就能代表互聯(lián)網(wǎng)語言分布狀況的真相。畢竟這方面的研究并不多,研究團隊的結(jié)果缺少交叉印證,而且他們的計算標準本身也在迭代過程中。


論文中也提到,互聯(lián)網(wǎng)語言測量領域是兩個偏差相當普遍的領域的交叉點:語言人口學和網(wǎng)絡。在這兩個領域中,對數(shù)據(jù)并沒有達成很好的共識。根據(jù)資料來源的不同,在一些數(shù)字上可能會出現(xiàn)很大的差異,比如在某個國家有多少人講這種語言,或者網(wǎng)頁的總數(shù)到底是多少。


但他的研究至少說明,過去普遍被引用的W3Techs數(shù)據(jù)是有偏見的。中文的互聯(lián)網(wǎng)內(nèi)容占比未必少到了和越南語一個程度,中文互聯(lián)網(wǎng)內(nèi)容的迅速消亡也并非是一個定論。


衰退的,不只是中文互聯(lián)網(wǎng)內(nèi)容


2005年,一位商學院的學生正在為自己的學費發(fā)愁,考慮如何賺錢來填補學費。很快他有了一個主意,“百萬美元主頁”。這是一個一百萬像素的廣告頁,每個像素一美元,以100個像素為一組售賣廣告位。一年之后,他真的成了百萬富翁。


到2019年,百萬美元主頁依然在運作,但上面40%廣告位的鏈接都指向無效網(wǎng)站,還有很多廣告位背后的網(wǎng)站已經(jīng)多次變化,指向全新的域名。百萬美元網(wǎng)頁不僅展示了一個經(jīng)典的商業(yè)案例,更展示了早期互聯(lián)網(wǎng)內(nèi)容的衰退[5]


對于互聯(lián)網(wǎng)內(nèi)容來說,這樣的衰退其實每天都在發(fā)生。今年5月,皮尤研究中心的一項新研究發(fā)現(xiàn),截至 2023 年 10 月,2013 年至 2023 年間一度存在的所有網(wǎng)頁中,有四分之一已無法訪問。2013年的網(wǎng)頁有38%已經(jīng)消失。哪怕是2023年的網(wǎng)頁,到這一年的十月份都有8%已經(jīng)無法訪問了。


團隊從互聯(lián)網(wǎng)快照數(shù)據(jù)庫Common Crawl 的檔案中隨機收集了近 100 萬個網(wǎng)頁樣本,對 2013 年到 2023 年每一年 Common Crawl 收集的頁面進行抽樣(每年大約 90,000 個頁面),并檢查這些頁面是否仍然存在。


這項研究旨在調(diào)查有互聯(lián)網(wǎng)上有多少內(nèi)容已經(jīng)無法訪問。研究者無法訪問的網(wǎng)站定義為在其主機服務器上不復存在的網(wǎng)站,也就是我們熟悉的404錯誤還有它的變體。有些網(wǎng)頁相比過去出現(xiàn)了面目全非的變化,其實也可以算作是消失了,但這類情況并不是此次研究的重點。


圖片

具體到各個領域。政府網(wǎng)站有21%至少包含一個損壞的鏈接。新聞網(wǎng)站頁面上的所有鏈接中有5%無法訪問,抽樣的所有頁面中23%至少包含一個損壞的鏈接。按網(wǎng)站流量排名前 20% 的新聞網(wǎng)站中,約有 25% 的頁面至少有一個損壞的鏈接。近五分之一的推特帖子,在三個月左右的觀察期內(nèi)也不再可見[6]。


在學術(shù)領域,也有很多數(shù)字化的論文從互聯(lián)網(wǎng)上消失。數(shù)字化的學術(shù)論文通常有著唯一且不變的DOI,以確保學術(shù)鏈接和引用的持久性,然而現(xiàn)在很多DOI背后的作品卻已經(jīng)無法找到。


倫敦伯克貝克大學文學、科技和出版研究員馬丁·伊夫(Martin Eve)對超過70萬篇帶有DOI的數(shù)字學術(shù)論文進行調(diào)查,發(fā)現(xiàn)接近28%的論文沒有出現(xiàn)在主要的數(shù)字檔案庫中,也就是說,超過200萬學術(shù)論文沒有得到保存[7]。


或許是互聯(lián)網(wǎng)并沒有實體,保存互聯(lián)網(wǎng)信息的成本很難直觀看到,我們就有了互聯(lián)網(wǎng)信息可以持續(xù)存在的錯覺。實際上無論從成本還是工作量上,互聯(lián)網(wǎng)內(nèi)容的存儲從來都是一個難題。互聯(lián)網(wǎng)內(nèi)容永遠在持續(xù)的增長中,無論是歸檔還是存儲都要花錢,問題是這些錢誰來付?


高質(zhì)量信息更難找了


普通人切身感到的互聯(lián)網(wǎng)信息的衰退,有時候未必是信息不存在了,而是我們搜不到了。


問題出在搜索引擎上,現(xiàn)在搜索引擎無法像過去一樣在信息搜索上穩(wěn)準狠。輸入關(guān)鍵詞得到答案,這種直觀而清晰的互動體驗正在減少。今天我們在搜索引擎輸入關(guān)鍵詞,得到的往往是內(nèi)容同質(zhì)、信息重復、掛著各式廣告信息的軟文。


2022年,一位工程師發(fā)布了一篇名為“谷歌搜索正在死亡”的博文(Google Search Is Dying),表示谷歌的搜索結(jié)果一團糟,如果搜索菜譜、健康內(nèi)容或者商品評論,排在最前面的幾個非廣告結(jié)果都是格式一致、內(nèi)容重復的軟文,正文還是會有大量的廣告和鏈接[8]。


這是搜索引擎商業(yè)模式所不能避免的問題。讓內(nèi)容占據(jù)搜索引擎的黃金位置本身就是一項稱為搜索引擎優(yōu)化(SEO)的業(yè)務。這種業(yè)務不同于競價排名,是利用搜索引擎算法漏洞,通過大量重復關(guān)鍵詞、偽原創(chuàng)內(nèi)容或不相關(guān)鏈接來提升網(wǎng)頁排名。為人熟知的小編體,就是這種針對搜索引擎,刷關(guān)鍵詞騙點擊量的產(chǎn)物。


根據(jù)市場研究公司 IBISWorld 的數(shù)據(jù),去年 SEO 業(yè)務價值 760 億美元。搜索引擎優(yōu)化已成為大多數(shù)網(wǎng)絡營銷的重要組成部分,出現(xiàn)在顯眼位置的網(wǎng)站可以通過商品鏈接的返傭賺錢,其中一些甚至干脆就是詐騙網(wǎng)站[9]。


為了保證內(nèi)容的可靠,現(xiàn)在很多用戶在搜索詞后面加上了 “reddit”,來搜索reddit論壇里的用戶真實看法。要不是reddit始終沒有認真開發(fā)搜索功能,恐怕倒向reddit的用戶會更多。


在今年的歐洲信息檢索會議(European Conference on Information Retrieval)上,四位來自德國的研究者發(fā)布了一項名為《谷歌在變壞嗎?》(Is Google Getting Worse?)的研究,回應了網(wǎng)民對于搜索引擎的質(zhì)疑。這項研究的起點就是網(wǎng)民對于搜索引擎質(zhì)量日漸下降的抱怨,結(jié)果說明,網(wǎng)民的直覺是對的。


研究團隊利用一年時間,監(jiān)測了Google、Bing和DuckDuckGo搜索結(jié)果的變化,發(fā)現(xiàn)所有搜索引擎在處理SEO內(nèi)容上存在問題,遠超過整個網(wǎng)絡平均情況。越是靠前的內(nèi)容,越是做了更多優(yōu)化而且有更多返傭鏈接,鏈接越多內(nèi)容的復雜性越差。其中聯(lián)盟營銷內(nèi)容(為平臺推廣產(chǎn)品,獲取點擊或返傭的內(nèi)容)僅占網(wǎng)絡產(chǎn)品評論的小部分,但它卻在搜索結(jié)果中占據(jù)主導地位。不僅是谷歌,所有搜索引擎均遭受垃圾信息的困擾[10]。


搜索引擎運營商在嘗試通過排名算法更新來打擊SEO和聯(lián)盟營銷內(nèi)容。從搜索結(jié)果上看,Google的更新產(chǎn)生了明顯但短暫的效果,從實驗開始到結(jié)束,Google的聯(lián)盟垃圾量有所減少。高質(zhì)量的雜志和社交平臺通常在多次抓取中穩(wěn)定出現(xiàn)在谷歌搜索結(jié)果的前列,而純粹的產(chǎn)品評論農(nóng)場和一些頻繁的垃圾站點則相對短暫,常在Google排名更新后消失。


雅虎前CEO、谷歌早期員工瑪麗莎·梅耶爾(Marissa Mayer)表示,如果說谷歌搜索變糟了,那是因為整個網(wǎng)絡都變糟了。在她剛為谷歌工作時,互聯(lián)網(wǎng)只有3000萬個網(wǎng)頁,對所有網(wǎng)頁進行爬取和編制索引更為簡單。而現(xiàn)在谷歌面對的可能是上萬億個網(wǎng)頁。在經(jīng)濟誘因的驅(qū)動下,虛假信息、騙取點擊量的內(nèi)容以及廣告鏈接不受監(jiān)管地迅速增長[11]。


AI技術(shù)進步后,互聯(lián)網(wǎng)上這類垃圾信息越來越多。網(wǎng)絡安全公司 Imperva 今年的一份“不良機器人”報告表明,去年所有互聯(lián)網(wǎng)流量中近一半(49.6%)來自機器人,這是從2013年以來的最高水平。特別是不良機器人,占現(xiàn)在所有流量的三分之一。


Imperva應用安全總經(jīng)理Nanhi Singh表示:“自動機器人將很快超過來自人類的互聯(lián)網(wǎng)流量比例......隨著更多人工智能工具的推出,機器人將變得無所不在[12]?!?/span>


隨著互聯(lián)網(wǎng)內(nèi)容的膨脹,谷歌只能像打地鼠一樣追著隱藏在數(shù)十億網(wǎng)站中的騙子們打。前述論文作者說,這是一場持久戰(zhàn),而搜索引擎輸?shù)袅诉@場“與SEO垃圾內(nèi)容之間的貓鼠游戲”。


搜索引擎逐漸迷失是一個世界性的問題,對于中文互聯(lián)網(wǎng)用戶來說,高質(zhì)量的數(shù)據(jù)更為受限,比如一些行政公開數(shù)據(jù)。


中國公開數(shù)據(jù)的透明度一度有著明顯地上升。2013后的幾年里,國家統(tǒng)計局的統(tǒng)計指標(如人口數(shù)據(jù)、經(jīng)濟統(tǒng)計數(shù)據(jù)等指標)數(shù)量增加了 673%?!吨腥A人民共和國政府信息公開條例 》也在2019年進行了修訂,強調(diào)了“堅持以公開為常態(tài)、不公開為例外 ”的信息公開原則。


然而2015年達到頂峰后,信息公開又出現(xiàn)了下降的趨勢。


不同類型的信息公開程度不同。法律法規(guī)是公民和企業(yè)生計相關(guān)的事項,因此相對透明。相反,與內(nèi)部工作流程相關(guān)的文件透明度較低。隨著對安全的強調(diào),普通人看到了越來越多健康、消費、價格、就業(yè)等相關(guān)數(shù)據(jù),但是更少看到能源、科技、創(chuàng)新、金融等方面的公開信息。


尤其是科技創(chuàng)新方面的信息,從2017年之后公開文件的比例就逐步下降,到2022年的公開比例更是達到2009年來的低點。


文件的保存程度也很堪憂。只有78%的政策文件鏈接在發(fā)布兩年后仍然可用。失效的文件大部分與網(wǎng)站無法訪問或網(wǎng)站更新有關(guān)。其中一些可能在其他地方仍可獲取,但這只是一部分[13]。


對于生活,這種變化可能并沒有帶來什么顯著的不便利。但對于相對嚴肅的用戶,比如科技行業(yè)的投資者,這些信息的缺失仍然會帶來很多不便。相比同樣深受互聯(lián)網(wǎng)垃圾和廣告信息發(fā)達國家,這些高質(zhì)量信息的差距,可能才是中文互聯(lián)網(wǎng)真正的短板。


圖片 參考文獻:下滑動可瀏覽) 

[1]Pimienta, D., Prado, D., & Blanco, á. (2009). Twelve years of measuring linguistic diversity in the Internet: balance and perspectives.

[2]Pimienta, D. (2023). Reliably exploring the presence of languages on the Internet. Research Outreach. 

[3]Lavoie, B. F., & O’Neill, E. T. (1999). How “world wide” is the Web. Annual review of OCLC Research, 1999, 2003.

[4]Pimienta, D., Blanco, á., & de Oliveira, G. M. (2023). The method behind the unprecedented production of indicators of the presence of languages in the Internet. Frontiers in Research Metrics and Analytics, 8, 1149347.

[5]BBC. (2019, April 1). Why there's so little left of the early internet. BBC Future. 

[6]Pew Research Center. (2024, May 17). When online content disappears. Pew Research Labs.

[7]Eve, M. P. J. (2024). Millions of research papers at risk of disappearing from the Internet. Nature. 

[8]Brereton, D. (2022, February 15). Google search is dying. DKB Blog. 

[9]Confino, P. (2024, January 22). ‘It’s the worst quality results on Google I’ve seen in my 14-year career’: Web search exec breaks down how ‘SEO parasites’ and AI-enabled spam are breaking the internet. Fortune.

[10]Bevendorff, J., Wiegmann, M., Potthast, M., & Stein, B. (2024, March). Is Google Getting Worse? A Longitudinal Investigation of SEO Spam in Search Engines. In European Conference on Information Retrieval (pp. 56-71). Cham: Springer Nature Switzerland.

[11]Montti, R. (2022, November 30). Ex-Googler Answers Why Google Search is Getting Worse. Search Engine Journal. 

[12]Griffin, A. (2024, April 17). Humans now share the web equally with bots, report warns amid fears of the ‘dead internet.’ The Independent. 

[13]Merics. (2024, February 15). Increasing challenge of obtaining information in  China. Merics.



參與討論
0 條評論
評論
暫無評論內(nèi)容