? 天天躁日日躁aaaaxxxx,性欧美疯狂xxxxbbbb

亚洲 a v无 码免 费 成 人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

ChatGPT:一場(chǎng)新的工業(yè)革命,會(huì)有多少人會(huì)因此失業(yè)?

2023/03/02
導(dǎo)讀
     2.15
知識(shí)分子
The Intellectual

圖源:pixabay

撰文 | 崔原豪 
責(zé)編 | 李珊珊

 ●                   ●                    


“我一生中從未見過(guò),至少在我從事科技行業(yè)的30年中,美國(guó)西海岸的先進(jìn)科技可以在幾個(gè)月內(nèi)以非常真實(shí)的方式出現(xiàn)在印度農(nóng)村。我不認(rèn)為在過(guò)往的工業(yè)革命中有過(guò)這種現(xiàn)象,對(duì)于知識(shí)型工作者來(lái)說(shuō),也許這一次完全等于工業(yè)革命?!?/span>


在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇的一場(chǎng)對(duì)話中,現(xiàn)任微軟公司CEO、董事長(zhǎng)薩蒂亞·納德拉曾這樣表示。


讓我們借用上帝的權(quán)柄來(lái)操縱時(shí)空,把一個(gè)生活在10世紀(jì)的羅馬農(nóng)民帶到15世紀(jì)中國(guó),雖然當(dāng)?shù)囟Y儀和語(yǔ)言有所不同,四周的農(nóng)田和建筑仍能讓他感到如歸故土般熟悉。但如果把某位15世紀(jì)的哥倫布水手轉(zhuǎn)移到21世紀(jì)的城市附近,他會(huì)發(fā)現(xiàn)自己完全無(wú)法理解周圍幾乎所有事物。因?yàn)樵谶^(guò)去短短250年間,人類的科技和經(jīng)濟(jì)發(fā)生了三次爆炸性增長(zhǎng),幾乎所有人(而不是一小撮精英人群)的物質(zhì)生活都發(fā)生了翻天覆地的變化,我們把這種涉及幾乎所有人的生產(chǎn)力變革稱為“工業(yè)革命”。


ChatGPT出現(xiàn)的短短兩個(gè)月內(nèi),我身邊自然語(yǔ)言處理領(lǐng)域從業(yè)的朋友們就經(jīng)歷了兩場(chǎng)深深的焦慮,一場(chǎng)是ChatGPT剛誕生時(shí),對(duì)自己研究方向的反思,另一場(chǎng)則來(lái)自于現(xiàn)在的資本狂潮。固然,現(xiàn)在以ChatGPT為代表的AIGC(生成式人工智能)存在真實(shí)性、可控性、時(shí)效性和理解力問(wèn)題(事實(shí)上微軟新版Bing里已經(jīng)解決了很多),但讓人恐懼的是,這些問(wèn)題仿佛并非無(wú)法可解,而是更讓人心生害怕的是,未來(lái)近在眼前,如果不擁抱變化,也許便如那位來(lái)自15世紀(jì)的哥倫布水手,一夜之間,自己便幾乎成為了變化本身。


我們不得不承認(rèn),正如納德拉所言,一場(chǎng)新的、關(guān)于“智能”的工業(yè)革命的萌芽正破土而出。對(duì)比從前,ChatGPT的優(yōu)勢(shì)并非“把信息分發(fā)給每一個(gè)需要的人”,而是“預(yù)測(cè)性地表示*和調(diào)用信息”,也是因此,它不是傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用,比如搜索引擎、聊天工具或者新聞推薦的簡(jiǎn)單復(fù)刻。


如果把各類人工智能算法比作蒸汽時(shí)代的蒸汽機(jī)、電氣時(shí)代的發(fā)電機(jī)、信息時(shí)代的計(jì)算機(jī)和互聯(lián)網(wǎng),作為人類歷史上用戶數(shù)最快過(guò)億的消費(fèi)級(jí)自然語(yǔ)言處理應(yīng)用,ChatGPT就像初生的汽車、電話或者互聯(lián)網(wǎng)網(wǎng)站,正以前所未有的速度讓原本分散在各領(lǐng)域的自然語(yǔ)言處理算法“飛入尋常百姓家”,影響到幾乎所有人的生活。


在最近這兩個(gè)月里,隨便一搜就可以看到,太多的科技領(lǐng)袖,從馬斯克、納德拉,到李開復(fù)、周鴻祎等,都在發(fā)聲稱ChatGPT即將改變世界;太多的互聯(lián)網(wǎng)公司,比如谷歌,微軟,阿里,百度正在搶占潮流;又有太多的學(xué)術(shù)機(jī)構(gòu)、高校也開始討論ChatGPT生成論文是否符合學(xué)術(shù)規(guī)范;而突然之間又有太多各行各業(yè)從業(yè)者燃起了被ChatGPT替代的擔(dān)憂與焦慮……


很多人開始問(wèn),這種生成式人工智能會(huì)像遠(yuǎn)古人類一樣產(chǎn)生智慧嗎?在這場(chǎng)由機(jī)器思維開啟的工業(yè)革命里,ChatGPT是怎么發(fā)展到現(xiàn)在的?它的局限是什么?它對(duì)我們每個(gè)人的命運(yùn)意味著什么?在這篇文章里,我嘗試對(duì)上述幾個(gè)問(wèn)題作出回答。


或許此后,每位讀者都會(huì)對(duì)“怎樣對(duì)待ChatGPT”這個(gè)問(wèn)題有自己的想法。


ChatGPT更像人,

它就一定更智能嗎?


“思維”幫助人類統(tǒng)治地球至今。不論你喜不喜歡,它都正粗暴地推著每個(gè)人的后背進(jìn)入下一個(gè)房間,雖然我們并不知道房間里是天使還是魔鬼?!?/span>


回溯歷史,自人類開始直立行走至今已有250萬(wàn)年光陰。在這漫長(zhǎng)的進(jìn)化過(guò)程中,我們的先祖使用火焰、工具和石頭建造道路、城市和高塔,駕馭蒸汽、閃電和鋼鐵征服大地、海洋和天空。我們超越了儒勒·凡爾納的想象,只需要48小時(shí)就能環(huán)游世界;我們完成了40億年里地球生物從未完成的壯舉,踏上了月球。越來(lái)越多的人類相信,思維是人和動(dòng)物的本質(zhì)區(qū)別,而7倍于同體重哺乳動(dòng)物的大腦容量是人類先祖產(chǎn)生智力、開啟長(zhǎng)達(dá)7萬(wàn)年地球統(tǒng)治的關(guān)鍵。


人類一直在試圖仿制自己,從神話到現(xiàn)實(shí)。


神話史上第一個(gè)“機(jī)器人造物”塔羅斯之死,現(xiàn)藏于意大利賈塔國(guó)家考古藝術(shù)館


古希臘神話里,宙斯曾授命工匠之神赫菲斯托斯鍛造一個(gè)力大無(wú)比、按照特定程式來(lái)運(yùn)作的青銅巨人“塔羅斯”,用來(lái)保護(hù)克里特島免受外來(lái)入侵。當(dāng)時(shí)的塞浦路斯藝術(shù)家皮格馬利翁精雕細(xì)琢后愛上了自己的雕像造物“伽拉忒亞”,幸運(yùn)的是愛神最終成全了他們的愛情并使其成為活人?!读凶印珕?wèn)》中也曾記載,匠人偃師用皮革、木頭等材料制造了一個(gè)舞姿優(yōu)雅、動(dòng)作千變?nèi)f化的藝人獻(xiàn)給周穆王,周穆王信以為真,卻因?yàn)槌源撞铧c(diǎn)殺了他。然而,在那時(shí),這些想法只能停留在少數(shù)人的想象中。


這一切,直到兩大信息巨頭相遇?;蛟S是冥冥之中的神靈指引,1942年末,阿蘭·圖靈被英國(guó)政府派遣到貝爾實(shí)驗(yàn)室參與安全通信研究,在這里,他遇到了正在數(shù)學(xué)組任職的克勞德·香農(nóng)。當(dāng)時(shí),《論可計(jì)算數(shù)及其在判定性問(wèn)題上的應(yīng)用》已經(jīng)發(fā)表,圖靈也已經(jīng)完成了“圖靈機(jī)”這樣的概念模型設(shè)計(jì),試圖以此模擬人類的計(jì)算能力。


在一次自助餐廳的相遇過(guò)程中,香農(nóng)對(duì)這樣的概念模型也表示了極大的興趣,兩人在不斷討論中認(rèn)為,既然計(jì)算可以被機(jī)器模擬,那這樣的概念模型是否能擴(kuò)展到描述人類所有的“智能”行為?那么對(duì)人來(lái)說(shuō),什么是“智能”?


兩位信息科學(xué)巨匠陷入了漫長(zhǎng)的爭(zhēng)論,直到圖靈離開美國(guó)也沒有得到確切結(jié)果,但正是這些富有價(jià)值的討論,讓人工智能這個(gè)概念開始生根發(fā)芽,從“神話”走向“科學(xué)”。在此后數(shù)年時(shí)間里,圖靈開始逐漸意識(shí)到定義“智能”或許并非是合適的開端,因?yàn)檫@是個(gè)哲學(xué)問(wèn)題,它并不能在現(xiàn)實(shí)中通過(guò)實(shí)驗(yàn)驗(yàn)證。那么,假如“智能機(jī)器”可以表現(xiàn)得和人類一樣好,那么我們是不是也可以通過(guò)它的“模仿水平”判斷“機(jī)器智能”程度?


答案是肯定的,這就是如今舉世聞名的“圖靈測(cè)試”。


所謂圖靈測(cè)試,即:讓計(jì)算機(jī)在不和人接觸的情況下進(jìn)行對(duì)話,如果人無(wú)法分辨對(duì)方是人還是機(jī)器,那即可認(rèn)定機(jī)器存在智能。


最簡(jiǎn)單的圖靈測(cè)試內(nèi)容


圖靈在提出圖靈測(cè)試時(shí),不會(huì)意識(shí)到一個(gè)簡(jiǎn)單的思維實(shí)驗(yàn)會(huì)對(duì)后世產(chǎn)生如此重要的影響,以至于在此后幾十年里,幾乎每段時(shí)間都會(huì)有各種各樣的人或公司聲稱自己的機(jī)器人通過(guò)了 “圖靈測(cè)試”,即使這些“圖靈測(cè)試”僅僅是“縮略版本”。例如在英國(guó)皇家學(xué)會(huì)的測(cè)試規(guī)矩里,如果某臺(tái)機(jī)器在一系列時(shí)長(zhǎng)為5分鐘的鍵盤對(duì)話中,被誤認(rèn)為是人類的比例超過(guò)30%,那么這臺(tái)機(jī)器就被認(rèn)為通過(guò)了圖靈測(cè)試。于是出現(xiàn)了很多“能夠在5分鐘長(zhǎng)度對(duì)話里騙過(guò)人類”的對(duì)話機(jī)器人。


歷史上也有一些反對(duì)者曾經(jīng)試圖證明圖靈測(cè)試只是“模仿”,而非智能的充分條件,比如“中文屋”問(wèn)題:如果我們假設(shè)屋子里有一個(gè)不懂中文的人,和一本他的母語(yǔ)寫的中文規(guī)則書,那么他就可以回答來(lái)自屋外的任何中文問(wèn)題,但這個(gè)人本身并不具有對(duì)中文的理解能力。如果把這個(gè)屋里的人換成機(jī)器,那么反對(duì)者認(rèn)為,即使機(jī)器可以通過(guò)中文描述的圖靈測(cè)試,我們也不能稱它具有“智能”。


“中文屋”能否成立其實(shí)很值得思考。因?yàn)槿绻麍D靈測(cè)試持續(xù)時(shí)間足夠長(zhǎng)、對(duì)話話題足夠廣,規(guī)則書就會(huì)因?yàn)樾枰^(guò)于多樣的語(yǔ)法規(guī)則而無(wú)法真實(shí)存在。但是無(wú)論如何,“中文屋”、以及此后的“布洛克腦”等問(wèn)題都讓我們開始反思圖靈測(cè)試本身。


機(jī)器智能真的會(huì)表現(xiàn)的和“人類智能”一樣嗎?完備的圖靈測(cè)試可以判斷機(jī)器能不能思考,但是不夠完備的圖靈測(cè)試又沒有太多意義。它符合我們現(xiàn)在對(duì)機(jī)器智能的要求嗎?


這兩個(gè)問(wèn)題的答案也許都是“并不能”。機(jī)器在計(jì)算能力上始終會(huì)高于人類,而我們也永遠(yuǎn)不會(huì)去追求機(jī)器智能和人類智能完全相等,比如讓機(jī)器幫助人類判斷“今天的菜是不是好吃”。強(qiáng)行追求機(jī)器和人類無(wú)差別或許在人工智能這條路上并非好標(biāo)的。


然而,即便如此,ChatGPT通過(guò)圖靈測(cè)試了嗎?


并沒有,這是ChatGPT自己說(shuō)的。我測(cè)試了一下,對(duì)這個(gè)結(jié)果表示同意,因?yàn)樗谀承╆P(guān)鍵問(wèn)題上依然有點(diǎn)“智障”。


ChatGPT的威諾格拉德模式挑戰(zhàn)(圖靈測(cè)試的一個(gè)變種)結(jié)果:失敗


ChatGPT無(wú)法通過(guò)圖靈測(cè)試的原因有很多,比如它其實(shí)并沒有完全獲得“世界常識(shí)”,而是更專注于“語(yǔ)言知識(shí)”;比如它只是尋找概率最大的回答和句子格式,這是聯(lián)想而非真正的邏輯推理。但就一個(gè)專注于語(yǔ)言的大模型來(lái)說(shuō)來(lái)說(shuō),它的“說(shuō)話水平”毫無(wú)疑問(wèn)已經(jīng)超過(guò)其他領(lǐng)域的主流人工智能模型。


有意思的是,最近有項(xiàng)研究重新審視了經(jīng)典圖靈測(cè)試,并使用圖靈測(cè)試的論文內(nèi)容作為基礎(chǔ),使用ChatGPT生成了一份更可信的論文版本,來(lái)評(píng)估它的語(yǔ)言理解和生成能力。寫作輔助工具 Grammarly 認(rèn)為ChatGPT 生成的論文得分比圖靈原始論文高出14%。這或許有一定象征意義。


考慮到圖靈測(cè)試所追求的并非對(duì)ChatGPT們長(zhǎng)處的最佳利用。那么我們更應(yīng)該思索的是,我們?cè)谖磥?lái)會(huì)有一個(gè)比圖靈測(cè)試更好的評(píng)價(jià)標(biāo)準(zhǔn)嗎?現(xiàn)代是否需要一種測(cè)試去衡量各類生成式人工智能的進(jìn)步,而不是僅僅以它們模仿或愚弄人類的能力為標(biāo)準(zhǔn)?


這或許是更加迫在眉睫的問(wèn)題。


大語(yǔ)言模型的開始:馬爾科夫、香農(nóng)和語(yǔ)言模型


問(wèn)題繼續(xù)回到“智能”,人類心智中最根深蒂固難以去除的乃是文字。文字來(lái)到世間,為的就是把知識(shí)和思維保留下,讓其能跨越時(shí)空。歷史正是有了文字才成為歷史,過(guò)去之所以稱為過(guò)去,全靠文字來(lái)紀(jì)錄軌跡。


哪怕對(duì)于人類來(lái)說(shuō),掌握文字也需要一些特殊技巧。因?yàn)槲淖诌@類符號(hào)系統(tǒng)是人類獲取和沉淀知識(shí)的途徑,也是人類組織思維的手段。作為目前使用最廣泛的語(yǔ)言,有記錄的英語(yǔ)詞匯早已超過(guò)百萬(wàn),還正在不斷增加,而通過(guò)英語(yǔ)記錄下來(lái)的文本數(shù)據(jù)更是數(shù)不勝數(shù)。


既然文字記錄著人類的知識(shí),那機(jī)器能從過(guò)去的文本中獲得智能嗎?這就來(lái)到了現(xiàn)代自然語(yǔ)言處理的范疇。


1913年,俄國(guó)數(shù)學(xué)家馬爾科夫坐在他圣彼得堡的書房里,拿起筆和草稿紙刪去了《尤金·奧涅金》的所有標(biāo)點(diǎn)和空格—這是普希金在100年前創(chuàng)作的詩(shī)歌小說(shuō)。緊接著,他統(tǒng)計(jì)了剩下的前兩萬(wàn)個(gè)字母中元音、輔音的個(gè)數(shù)。


馬爾科夫所做的統(tǒng)計(jì)示例[6]


馬爾科夫發(fā)現(xiàn),雖然這長(zhǎng)串字母中有43%的元音,57%的輔音,但是元音與輔音之間的連接卻截然不同,元音-元音、輔音-輔音、元音-輔音/輔音-元音連接分別出現(xiàn)了1104、3827和15069次。這意味著若隨機(jī)抽取書中任何一個(gè)字母,如果結(jié)果是元音,那么下一個(gè)字母大概率是輔音,反之亦然?!队冉稹W涅金》的字母之間顯然存在著某種可以被數(shù)學(xué)建模的統(tǒng)計(jì)特性。


上述過(guò)程中比較數(shù)學(xué)的說(shuō)法就是,如果把字母當(dāng)做隨機(jī)變量,它上一個(gè)狀態(tài)(上一個(gè)字母)與下一個(gè)狀態(tài)(下一個(gè)字母)存在相關(guān)性。如果我們使用“轉(zhuǎn)換概率”,即下一個(gè)字母出現(xiàn)元音/輔音的概率,來(lái)刻畫這些相關(guān)性,這就形成了最簡(jiǎn)單的馬爾科夫鏈特性,這也是最簡(jiǎn)單的“語(yǔ)言模型”。


我們之所以說(shuō)最簡(jiǎn)單,是因?yàn)轳R爾科夫假設(shè)每一個(gè)字母出現(xiàn)的概率僅與前一個(gè)字母相關(guān),這當(dāng)然在現(xiàn)實(shí)世界里很少發(fā)生。因?yàn)橥ǔU嬲斫庖痪湓捫枰Y(jié)合這句話的語(yǔ)境,也就是上下文里包含的信息。比如現(xiàn)在的網(wǎng)絡(luò)流行語(yǔ)“YYDS”,可以翻譯成“永遠(yuǎn)的神”,當(dāng)然也可以認(rèn)為是“遠(yuǎn)洋大廈”的縮寫,這完全取決于語(yǔ)境本身。


那么,在數(shù)學(xué)上我們需要嚴(yán)格定義“上文”和“下文”都指什么。比如如果我們假設(shè)“上文”的范圍是N,即一個(gè)詞或者字母出現(xiàn)需要依賴往前數(shù)N個(gè)詞的話,1948年香農(nóng)提出的經(jīng)典語(yǔ)言模型N-gram就進(jìn)入了我們的視野。

N-gram語(yǔ)言模型用于預(yù)測(cè)下N個(gè)文字時(shí)的運(yùn)行方式(為防誤解,請(qǐng)注意它是長(zhǎng)度為N的滑動(dòng)窗)


如同上圖中的例子,我們也可以簡(jiǎn)單把這個(gè)語(yǔ)言模型做的事用一句比較“人話”的方式總結(jié):


考慮前N個(gè)詞,如果一個(gè)詞/句子出現(xiàn)的概率越大,它真正出現(xiàn)后人們會(huì)覺得越自然,也就越符合語(yǔ)言規(guī)律,整句話也就越“像一句人話”。


如果用流浪地球2的經(jīng)典臺(tái)詞為例來(lái)解釋這句表述,就是這樣:


1. 我相信人類的勇氣可以跨越時(shí)間,跨越每一個(gè)歷史、當(dāng)下和未來(lái)!
2. 我相信勇氣的人類可以跨越當(dāng)下、時(shí)間和未來(lái),跨越每一個(gè)歷史!
3. 勇氣人類的相信跨越跨越時(shí)間、歷史、每一個(gè)當(dāng)下和未來(lái)!


相信很多人會(huì)覺得第一句臺(tái)詞通順且優(yōu)雅,第二句雖然語(yǔ)句不通,但是大概會(huì)明白什么意思,但是第三句就基本沒什么道理了,基本不會(huì)存在于地球上的人類語(yǔ)言里。那么,從統(tǒng)計(jì)角度,在“人類語(yǔ)言模型”里,第一句話發(fā)生的概率最大,第二句話次之,第三句話幾乎不可能發(fā)生。這樣,一段文本的合理性就得到了量化。


馬爾科夫和香農(nóng)的語(yǔ)言模型奠定了自然語(yǔ)言處理任務(wù)的基石。從那時(shí)起,單詞、句子和段落之間的關(guān)系,也就是文本的合理性不再是虛無(wú)縹緲的概念,它變得可以被機(jī)器量化,也正是如此,“自然語(yǔ)言處理”正式成為“信息科學(xué)”的分支之一。機(jī)器翻譯、自動(dòng)問(wèn)答、情感分析、文本摘要、文本分類、關(guān)系抽取等等自然語(yǔ)言處理的下游任務(wù)得以成立,并蓬勃發(fā)展。


很顯然,越好的語(yǔ)言模型越是可以更好地理解一段文本的優(yōu)劣,馬爾科夫建立的語(yǔ)言模型來(lái)自一本書,那我們能找到更好的語(yǔ)言模型嗎?

連接主義、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型——能從文本里讀到真正的智能嗎?


自從圖靈測(cè)試被提出以來(lái),關(guān)于如何模擬智能的探索就一直存在著多種不同的流派。
連接主義和符號(hào)主義


其中一派人被稱為“符號(hào)主義”或“邏輯主義”,認(rèn)為智能的基礎(chǔ)是知識(shí),知識(shí)可以用符號(hào)表示,探索讓機(jī)器直接模擬智能的方法。


最開始這批科研人員并沒有考慮“知識(shí)的來(lái)源”,只是嘗試從現(xiàn)有的語(yǔ)言學(xué)知識(shí)分析文本結(jié)構(gòu),總結(jié)語(yǔ)言規(guī)律,進(jìn)而完成較為復(fù)雜的文本推斷等問(wèn)題。然而,后來(lái)大家發(fā)現(xiàn),智能的體現(xiàn)不能僅僅依靠推理本身,對(duì)一個(gè)智能系統(tǒng)來(lái)說(shuō),先驗(yàn)知識(shí)(對(duì)應(yīng)人的記憶和經(jīng)驗(yàn))是更加重要的一環(huán),但是僅依賴專家灌輸先驗(yàn)知識(shí)分(專家系統(tǒng))無(wú)論如何都比不上知識(shí)本身的膨脹速度,于是,知識(shí)工程,以及如何建立通用知識(shí)圖譜就成了自然語(yǔ)言處理領(lǐng)域非常重要的研究方向之一。


事實(shí)上,在2013年以前,符號(hào)主義學(xué)派都是自然語(yǔ)言處理領(lǐng)域的主流。但是考慮到這里我們的主要話題是ChatGPT,這里不多做討論,歷史留給大家自行探索。


另一派人被稱為“連接主義”,主張從人類大腦的神經(jīng)結(jié)構(gòu)出發(fā),先讓機(jī)器模擬人腦構(gòu)造,再以此模擬智能。大家對(duì)這部分工作最熟知的應(yīng)該是“神經(jīng)網(wǎng)絡(luò)”,這也是ChatGPT的開端。但在早期,神經(jīng)網(wǎng)絡(luò)在語(yǔ)言模型上遠(yuǎn)沒有如今那么出色,它對(duì)很多文本任務(wù)的提升并不大,傳統(tǒng)語(yǔ)言模型(比如N-gram模型)難以解決的問(wèn)題,它依然無(wú)法可解。

直到神經(jīng)網(wǎng)絡(luò)開始加深。


2012年,杰弗里·辛頓和他的學(xué)生在ILSVRC2012上用AlexNet(深度神經(jīng)網(wǎng)絡(luò)的一種)以超過(guò)第二名準(zhǔn)確率10%的壓倒性優(yōu)勢(shì)奪冠,開啟了深度學(xué)習(xí)對(duì)其他人工智能領(lǐng)域的革新。大家對(duì)被埋在故紙堆里的神經(jīng)網(wǎng)絡(luò)然語(yǔ)言處理模型開展了一波“再發(fā)掘”,挖出了迄今為止依然非常經(jīng)典的“詞嵌入”(Word Embeding)方法。


英語(yǔ)和德語(yǔ)單詞詞嵌入后可視化結(jié)果,可以看到語(yǔ)義相似單詞非常重合


不過(guò)在這里,為了更深入解釋“詞嵌入”,我們需要繼續(xù)請(qǐng)出馬爾科夫和他的《尤金·奧涅金》。在本文的上一部分中,我們敬愛的馬爾科夫先生對(duì)字母的發(fā)音方式做了統(tǒng)計(jì)建模,但考慮到發(fā)音方式和語(yǔ)言本身的關(guān)系并不明顯。在這里我們稍微調(diào)整一下馬爾科夫先生的目標(biāo),對(duì)《尤金·奧涅金》里的“單詞”建立建模。

然而,鑒于《尤金·奧涅金》里的“單詞”數(shù)目會(huì)遠(yuǎn)遠(yuǎn)多于字母的元音/輔音數(shù)目,如果使用前述的單詞間關(guān)系作為表示的話,不同“單詞-單詞”的組合關(guān)系會(huì)多得不可思議,也變得難以計(jì)算。

此時(shí),“詞嵌入”的優(yōu)勢(shì)就體現(xiàn)了出來(lái)。同樣是《尤金·奧涅金》,“詞嵌入”向量和對(duì)應(yīng)“詞嵌入”向量的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型會(huì)比僅用“單詞”進(jìn)行統(tǒng)計(jì)建模更高效。仿佛黎明中看到了曙光,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型成了此后的改進(jìn)重點(diǎn)。因?yàn)?,如果我們把《尤金·奧涅金》這本書換成更通用、更泛化的訓(xùn)練數(shù)據(jù)集(或者叫做語(yǔ)料庫(kù)),或者直接用人類所有文本數(shù)據(jù)來(lái)訓(xùn)練一個(gè)模型,這個(gè)模型也許就可以“精通人類語(yǔ)言”和“人類知識(shí)”。


神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的一些里程碑式歷史


于是,在此后的數(shù)年間,大量神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型不斷出現(xiàn),比如循環(huán)神經(jīng)網(wǎng)絡(luò)模型 (RNN) ,比如長(zhǎng)短期記憶模型 (LSTM)。但是總體上,都沒有脫離神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型+各類改進(jìn)的“詞嵌入”向量來(lái)完成統(tǒng)計(jì)建模的范疇。在此過(guò)程中,“詞嵌入”方法所無(wú)法解決的“多義詞”難題也逐漸被改進(jìn)。


同時(shí),自然語(yǔ)言處理相關(guān)研究也深受深度神經(jīng)網(wǎng)絡(luò)影響,試圖不斷增加神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的層數(shù)或者模型參數(shù),但是這種努力比起其他方面的進(jìn)展,其實(shí)并不能算得上非常成功。


當(dāng)然,現(xiàn)在回想,原因可能是當(dāng)時(shí)大多采用半監(jiān)督訓(xùn)練方法,可供訓(xùn)練的標(biāo)注數(shù)據(jù)不足,網(wǎng)絡(luò)本身也沒有采用生成式方法,這樣即使神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的層數(shù)增加或者模型參數(shù)增加,其訓(xùn)練數(shù)據(jù)也不能支持語(yǔ)言模型充分訓(xùn)練;另一個(gè)可能是以RNN和LSTM為代表的模型特征抽取和語(yǔ)言表示能力不足,對(duì)訓(xùn)練數(shù)據(jù)的利用不夠高效。


這一切,直到Transformer,和基于Transformer的大語(yǔ)言模型出現(xiàn),人們才找到通往“通用語(yǔ)言模型的曙光”。


大語(yǔ)言模型,大即是正義


自從深度學(xué)習(xí)問(wèn)世以來(lái),因?yàn)槠鋵訑?shù)越來(lái)越高,標(biāo)注一個(gè)高質(zhì)量數(shù)據(jù)集所需要成本也越來(lái)越大,那么如何在標(biāo)注數(shù)據(jù)有限的情況下高質(zhì)量完成訓(xùn)練,就成了一個(gè)非常重要的問(wèn)題。


遷移學(xué)習(xí)(圖源:Pixabay)


一個(gè)非常主流的思想就是“遷移學(xué)習(xí)”。在圖像處理領(lǐng)域,“遷移學(xué)習(xí)”是指利用大數(shù)據(jù)集完成預(yù)模型訓(xùn)練后,再針對(duì)特定任務(wù)微調(diào)參數(shù)(Fine-Tuning)以適應(yīng)不同圖像任務(wù)。而在語(yǔ)言模型極為重要的自然處理領(lǐng)域,如果擁有一個(gè)足夠強(qiáng)大的“語(yǔ)言模型”,去儲(chǔ)存基本的單詞、語(yǔ)義知識(shí),再根據(jù)特定任務(wù)調(diào)整,是不是可以讓性能更加提升?

答案是:可以


2018年6月,OpenAI公司提出初代GPT模型。同年10月,谷歌公司公布了自己的BERT模型,大幅度刷新了自然語(yǔ)言處理領(lǐng)域幾乎所有最優(yōu)記錄,從此開啟了預(yù)訓(xùn)練大模型時(shí)代。


在此后的4年時(shí)間里,預(yù)訓(xùn)練語(yǔ)言模型如 BERT 和 GPT(GPT-1和GPT-2,這些ChatGPT的前身),已成為當(dāng)前自然語(yǔ)言處理領(lǐng)域的主流技術(shù)趨勢(shì)。這些模型參數(shù)從3億到1.75萬(wàn)億不等,也因此被稱作大語(yǔ)言模型(Large Language Model)。


從2017年起,語(yǔ)言模型的模型參數(shù)不斷提升直到10億(圖源:ourworldindata.org)


我必須在這一節(jié)強(qiáng)調(diào),這些預(yù)訓(xùn)練大模型的本質(zhì)是在使用更大的模型、更多的數(shù)據(jù)去找到對(duì)人類更好的、更通用的“語(yǔ)言模型”,就像我們的祖先在7萬(wàn)年前自豪的那樣,大模型可以獲得更多知識(shí)。也正是因此,包括BERT和GPT在內(nèi)的大語(yǔ)言模型,在預(yù)訓(xùn)練過(guò)程中其實(shí)就已經(jīng)獲得了相當(dāng)數(shù)量的詞匯、句法和語(yǔ)義知識(shí),僅僅只需要少量標(biāo)記數(shù)據(jù)對(duì)模型細(xì)化,就可以完成各種各樣的自然語(yǔ)言處理任務(wù)。


如果一定要問(wèn)技術(shù)區(qū)別的話,BERT的訓(xùn)練過(guò)程更像讓機(jī)器不斷完成“完形填空”,而GPT的訓(xùn)練過(guò)程更像“單詞接龍”,前者會(huì)更擅長(zhǎng)語(yǔ)言理解問(wèn)題,后者更擅長(zhǎng)文本生成問(wèn)題,這里存在一些技術(shù)區(qū)分。但是至少,他倆對(duì)普通人和各種文本處理任務(wù),都已經(jīng)“足夠好”了。


大之后又如何,怎么讓人用起來(lái)?


有了一個(gè)好的語(yǔ)言模型,剩下的就是讓它“通用”。


我們現(xiàn)在生活在一個(gè)充滿“人工智能算法”的社會(huì),小度音箱、新聞推薦、有道翻譯、Grammerly語(yǔ)法檢查、美圖增強(qiáng),甚至圖像風(fēng)格轉(zhuǎn)換隨處可見。但是這些人工智能算法都只是“內(nèi)嵌”在各種已有產(chǎn)品、或者功能里,從來(lái)沒有外顯到直接影響用戶本身。


這就讓越來(lái)越多人對(duì)“人工智能”這個(gè)詞逐漸有了一個(gè)“思想鋼印”,覺得它最合適的場(chǎng)景還是去處理某個(gè)垂直任務(wù)。如果打開某云平臺(tái)網(wǎng)站,我們往往會(huì)看到在人工智能標(biāo)簽下琳瑯滿目的項(xiàng)目,人臉識(shí)別會(huì)被分為“人臉檢測(cè)與五官定位、人臉屬性識(shí)別、人體檢測(cè)….”等等6種。


學(xué)術(shù)界也是如此,雖然自然語(yǔ)言處理的關(guān)鍵在于理解單詞、句子的結(jié)構(gòu)這些“語(yǔ)言知識(shí)”本身,但它依然會(huì)被分為“機(jī)器翻譯,語(yǔ)言生成,文本歸納” 等等任務(wù),而其評(píng)價(jià)標(biāo)準(zhǔn)和對(duì)應(yīng)的產(chǎn)品形態(tài)各不相同。


預(yù)訓(xùn)練大模型的出現(xiàn)開始讓這些下游領(lǐng)域產(chǎn)生被“一統(tǒng)江湖”的苗頭,這些任務(wù)從原本的“設(shè)計(jì)模型,從零開始訓(xùn)練”,調(diào)整為“加載預(yù)訓(xùn)練模型,微調(diào)任務(wù)參數(shù)”。如果按照一貫思維,面向公司的“通用語(yǔ)言模型”到這種程度也就夠了,模型開發(fā)商可以向下游產(chǎn)品廠商收取模型服務(wù)費(fèi)用,而模型開發(fā)商可以專注于提升模型對(duì)的精度,簡(jiǎn)化開發(fā)難度。這就是Google對(duì)于BERT和后續(xù)模型的想法。

OpenAI與其他公司之間對(duì) “大語(yǔ)言模型”的設(shè)計(jì)的根本分歧便在這里。他們希望讓這套模型更普適,把“通用語(yǔ)言模型”做成一個(gè)直接面向用戶的產(chǎn)品。而要達(dá)成這個(gè)目標(biāo),就必須考慮繼續(xù)優(yōu)化“微調(diào)”這一步,直到模型本身不需要任何調(diào)整干預(yù)即可直接執(zhí)行所有自然語(yǔ)言處理任務(wù)。



《流浪地球2》中的MOSS


移除“微調(diào)”,理解人類“命令/指示”,這就是從GPT2.0到GPT3.0,再到ChatGPT,OpenAI所遵循的設(shè)計(jì)思路。


因?yàn)閷?duì)于人類用戶,最好的方式就是語(yǔ)言模型可以直接理解我們對(duì)它的“指令”或者“示例”,根據(jù)指令去調(diào)用相應(yīng)的自然語(yǔ)言處理下游任務(wù)。于是GPT選擇了從“微調(diào)”到“提示學(xué)習(xí)(Prompt Learning)”,再到“指示學(xué)習(xí)(Instruct Learning)”的技術(shù)路徑,一步一步降低了用戶使用門檻,把“通用語(yǔ)言模型”調(diào)整到適配正常人類的習(xí)慣,這樣才在現(xiàn)在獲得巨大成功。
 
ChatGPT在大語(yǔ)言模型的基礎(chǔ)上,一步一步通過(guò)帶有人類反饋的增強(qiáng)學(xué)習(xí)(MOSS:人在回路)注入人類關(guān)于“命令”、“指示”、“友善”等先驗(yàn)知識(shí),讓“通用語(yǔ)言模型”的回答更“平易近人”、“更有用”、“更無(wú)害”,同時(shí)可以理解用戶指令,應(yīng)該是ChatGPT最大的貢獻(xiàn)之一。


這也完美符合了我們對(duì)未來(lái)“通用人工智能”的期待。


ChatGPT和我們的未來(lái)


ChatGPT毫無(wú)疑問(wèn)是人工智能領(lǐng)域的重大突破,正如很多人所說(shuō),它的突破或許并不顯著的體現(xiàn)在技術(shù)進(jìn)步,而是在于它成功讓人工智能產(chǎn)品以一種用戶可以接受的形態(tài)進(jìn)入大家的生活。對(duì)大部分人來(lái)說(shuō),它比我們之前的任何產(chǎn)品都更接近“通用人工智能”。


同時(shí),不可否認(rèn)的是,ChatGPT依然存在很多問(wèn)題。ChatGPT依然是一個(gè)基于統(tǒng)計(jì)規(guī)律的大語(yǔ)言模型,它有人類無(wú)懈可擊的語(yǔ)言天賦,但是只能做聯(lián)想而不能完成“邏輯推理”。從這個(gè)角度來(lái)講,ChatGPT會(huì)傾向于制造出令人信服的回應(yīng),當(dāng)然其中可能包含“生成的”幾個(gè)事實(shí)錯(cuò)誤、虛假陳述和錯(cuò)誤數(shù)據(jù),因?yàn)樽鳛橐粋€(gè)自然語(yǔ)言處理模型,它也不知道高達(dá)數(shù)十PB的無(wú)監(jiān)督訓(xùn)練數(shù)據(jù)里什么是“事實(shí)”,這更像一個(gè)有點(diǎn)滑頭的“虛擬助手”。另外,因?yàn)樵谟?xùn)練過(guò)程中,為了識(shí)別人類指令而注入過(guò)大量“指令”知識(shí),ChatGPT會(huì)對(duì)“指令”本身非常敏感,但同時(shí)會(huì)對(duì)一些上下文無(wú)關(guān),需要“事實(shí)依據(jù)”做判斷的歧義詞識(shí)別不高。


但是這些問(wèn)題似乎不難解決。目前的ChatGPT依然只是離線版本。在我們看到的bing(在線版本)的一些應(yīng)用示例里,部分問(wèn)題似乎已經(jīng)被緩解。事實(shí)上,如果ChatGPT能夠?qū)π畔⒃催M(jìn)行可信度分級(jí),并且在生成的回答中列出參考信息源,回答的可信度問(wèn)題應(yīng)該會(huì)得到一定程度的規(guī)避。如果能在未來(lái)接入一些專家構(gòu)建的專業(yè)知識(shí)庫(kù)(比如金融知識(shí)圖譜),它可以被轉(zhuǎn)變?yōu)樘囟I(lǐng)域的專家。


對(duì)大多數(shù)普通人來(lái)說(shuō),ChatGPT都是一個(gè)合格的助手,因?yàn)樗嘘P(guān)于人類語(yǔ)言的技能它都很精通(或者在可見的未來(lái)里會(huì)很精通),比如歸納總結(jié)、翻譯、書寫文章、風(fēng)格修正、翻譯、潤(rùn)色、寫代碼等等,因而,從事這些工作的勞動(dòng)者,如果不能掌握將ChatGPT作為助手的技能,也許將會(huì)成為最早期被機(jī)器取代的人。


然而,即便如此,我始終認(rèn)為,AI替代的不是簡(jiǎn)單的某個(gè)行業(yè),而是不會(huì)使用AI的從業(yè)者。AI帶給人類的意義也不是替代我們的工作,而是讓我們從一些重復(fù)性工作解放出來(lái),讓人類去真正思考“什么鑄就了人類的唯一”。


這或許才是千萬(wàn)年以后,人類回望時(shí)間長(zhǎng)河,在被歷史沖刷下還能保留,甚至愈發(fā)輝煌的人類豐碑。(本文作者崔原豪為北京郵電大學(xué)信息與通信工程博士、中國(guó)計(jì)算機(jī)學(xué)會(huì)科學(xué)普及工作委員會(huì)主任助理,曾擔(dān)任電影《流浪地球2》科學(xué)顧問(wèn)。除特別注明外,文中圖片由作者提供。)

注釋:
知識(shí)表示:即knowledge representation,是指把知識(shí)客體中的知識(shí)因子與知識(shí)關(guān)聯(lián)起來(lái),便于人們識(shí)別和理解知識(shí)。知識(shí)表示是知識(shí)組織的前提和基礎(chǔ),任何知識(shí)組織方法都是要建立在知識(shí)表示的基礎(chǔ)上。


  參考文獻(xiàn):下滑動(dòng)可瀏覽)


1.尤瓦爾, 赫拉利, 人類簡(jiǎn)史, 等. 北京: 中信出版社, 2017: 12-15 Юваль Ной Харари[J]. Краткая история человечества./Переводчик Линь Цзюньхун-Пекин: издательство CITIC, 2017: 12-15.

2.程林 . 當(dāng)代科幻中的人機(jī)關(guān)系——主持人語(yǔ) [J]. 廣州大學(xué)學(xué)報(bào)(社科版),2020(2):

3.Searle J R. Minds, brains, and programs[J]. Behavioral and brain sciences, 1980, 3(3): 417-424.

4.Noever D, Ciolino M. The Turing Deception[J]. arXiv preprint arXiv:2212.06721, 2022.

5.Goody J, Watt I. The consequences of literacy[J]. Comparative studies in society and history, 1963, 5(3): 304-345.

6.Markov A A. An example of statistical investigation of the text Eugene Onegin concerning the connection of samples in chains[J]. Science in Context, 2006, 19(4): 591-600.

7.Shannon C E. A mathematical theory of communication[J]. The Bell system technical journal, 1948,

8.Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J]. Advances in neural information processing systems, 2000, 13.

9.Thang Luong, Hieu Pham, and Christopher D. Manning. 2015. Bilingual Word Representations with Monolingual Quality in Mind. In Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing, pages 151–159, Denver, Colorado. Association for Computational Linguistics.

10.A Brief History of Natural Language Processing — Part 2, Antoine Louis, https://medium.com/@antoine.louis/a-brief-history-of-natural-language-processing-part-2-f5e575e8e37






關(guān)注《知識(shí)分子》視頻號(hào)

get更多有趣、有料的科普內(nèi)容





THE END





參與討論
0 條評(píng)論
評(píng)論
暫無(wú)評(píng)論內(nèi)容