[數學]《紅樓夢》等名著作者是誰? 讓數學來證明

[數學]《紅樓夢》等名著作者是誰? 讓數學來證明

yll 於 星期二 四月 20, 2004 7:48 pm


北京新浪網 (2004/04/19 16:05)
《紅樓夢》等名著作者是誰? 讓數學來證明  ㄏㄏㄏ

http://news.sina.com.tw/articles/11/88/76/11887612.html?/tech/20040419.html
--------------------------------------------------------------------------------
【來稿】 《紅樓夢》是一人所作?
《紅樓夢》成書迄今已逾200年,作為中國最重要的一部小說,它不僅感動了中國人,也得到其它民族的重視與喜愛。《紅樓夢》有各種不同的版本,數十種續書,流傳到世界各國,被翻譯成各種文字,透過不同的文字翻譯,感動了不同民族的人民。  

長期以來,人們普遍認為曹雪芹只寫了《紅樓夢》的前80回,後40回是高鶚續寫,但數學統計進入文學領域後,這個定論遭到了計算機的質疑。1981年,首屆國際《紅樓夢》研討會在美國召開,美國威斯康星大學講師陳炳藻獨樹一幟,宣讀了題為《從詞匯上的統計論〈紅樓夢〉作者的問題》的論文,首次借助計算機進行《紅樓夢》研究,轟動了國際紅學界。陳炳藻從字、詞出現頻率入手,通過計算機進行統計、處理、分析,對《紅樓夢》後40回系高鶚所作這一流行看法提出異議,認為120回均系曹雪芹所作。

語體風格是人們在語言文字表達活動中的個人言語特征,是人格在語言文字活動中的某種體現。這種風格可以在一定程序上通過數量特征來刻畫。例如,句長和詞長可以代表作者造詞句的風格,當然,反映作者風格的不是單個詞的詞長和單個句子的句長,而是以一定數量的語料為基礎的平均句長和平均詞長﹔此外,字、詞在作品中出現的頻率也是個人風格的體現。利用計算機計算一部作品或作者平均詞長和平均句長,對作品或作者使用的字、詞、句的頻率進行統計研究,從而了解作者的風格,這被稱之為計算風格學。計算風格學現在在社會科學領域成為一門饒有興味的學科,尤其在判斷作者真偽,考證作者疑難方面更是大顯身手。

讓佚名作現身

“作者考證”有時是一個很困難的問題,計算風格學可被應用來解決這種問題。我們看看兩個例子。

出現於16世紀90年代的一部五幕劇《愛德華三世》,表現了14世紀英王愛德華三世統治時期勇武的騎士精神。但該劇作者究竟是誰,戲劇界爭論了幾百年。不久前,通過電腦對該劇的語言風格進行分析,莎翁作品的權威機構──阿頓公司正式確認,《愛德華三世》是莎士比亞的一部早期作品。莎劇專家說,這部作品本身所表現出的深刻人性、博大精神和文辭語言的華麗無可辯駁地“用莎士比亞自己的聲音”證明了它的來源。

1964年,美國統計學家摩斯泰勒和瑕萊斯考證了12篇署名“聯邦主義者”的文章作者,可能的作者是兩個人,一個是美國開國政治家漢密爾頓,另一位是美國第四任總統麥迪遜。究竟是哪一位呢?統計學家在進行分析時發現漢密爾頓和麥迪遜在已有著作中的平均句長幾乎完全相同。這使得這一能反映寫作風格特征的數據此時失效了。於是,統計學家轉而從用詞習慣上來找出這兩位作者的有區別性的風格特征,而且終於找到了兩位作者在虛詞的使用上有明顯的不同。漢密爾頓他已有的18篇文章中,有14篇使用了“enough”一詞﹔而麥迪遜在他的14篇文章中根本未使用“enough”一詞。漢密爾頓喜歡用“while”,而麥迪遜總是用“whilst”。漢密爾頓喜歡用“upon”,而麥迪遜很少用。然後,再把兩位可能的作者的上述風格特征指標,與未知的12篇署名“聯邦主義者”的文章中表現出來的相應的風格特征進行比較。結果發現那位署名“聯邦主義者”的作者就是美國第四任總統麥迪遜。這樣就了結了這一考據學上長期懸而未決的公案。兩位統計學家所使用的數學方法也得到了學術界的好評。

《靜靜的頓河》是不是抄襲?

長篇小說《靜靜的頓河》是一部既磅礡壯觀又委婉細膩、扣人心弦的史詩性長篇小說,是當代世界文學中流傳最廣泛、讀者最多的名著之一。他的作者肖洛霍夫因此獲得1965年諾貝爾文學獎。但小說出版後即有人說這本書是肖洛霍夫從一位名不見經傳的哥薩克作家克留柯夫那里抄襲來的。俄國流亡在國外的一些作家如索爾仁尼琴、麥德維杰等,認為《靜靜的頓河》的大部份內容是抄襲哥薩克作家克留科夫的作品,理由是該書第一卷出版時,肖洛霍夫年紀尚輕,并無生活經歷﹔另外,他以後未能寫出具有同樣文學價值的作品。肖洛霍夫充其量是合作者罷了。

為了弄清楚誰是《靜靜的頓河》的真正作者,捷澤等學者釆用計算風格學的方法進行考證。具體辦法是把《靜靜的頓河》四卷本同肖洛霍夫、克留柯夫這兩人的其他在作者問題上沒有疑義的作品都用計算機進行分析,獲得可靠的數據,并加以比較,以期澄清疑問,得出誰是真正作者的結論。

捷澤等學者從〈靜靜的頓河》中隨機地挑選出2000個句子,再從肖洛霍夫、克留柯夫的各一篇小說中隨機地挑先500個句子,總共3組樣本,3000個句子,輸入計算機進行處理。處理的步驟如下:

1、首先計算句子的平均長度,結果3組樣本十分接近。於是再按不同的長度細分成若干組,對3組樣本中對應的句子組進行比較,發現肖洛霍夫的小說與《靜靜的頓河》比較吻合,而克留柯夫的小說與《靜靜的頓河》相距甚遠。

2、進行詞類統計分析。從3個樣本中各取出10000個單詞,結果發現,除了代詞以外,有6類詞肖洛霍夫的小說都與《靜靜的頓河》相等,而克留柯夫的小說則與之不相符。

3、考察處在句子中的不同位置的詞類狀況。俄語的詞類在句子中的不同位置可以很好地表現文體的風格特點,特別是句子開頭的兩個詞和句子結尾的3個詞往往可以起到區分文體風格的作用。捷澤等學者統計了3種樣本中句子開頭的詞類和句子結尾的詞類,發現肖洛霍夫的小說與《靜靜的頓河》十分接近,而克留柯夫的小說則與之有相當大的距離。

4、進行句子結構的分析,統計3種樣本中句子的最常用格式。結果發現,肖洛霍夫的小說與《靜靜的頓河》的最常見句式都是“介詞+體詞”起始的句子,而克留柯夫的小說的最常見句式是以:“主詞+動詞”起始的句子。

5、統計3種樣本中頻率最高的15種開始句子的結構,發現肖洛霍夫小說中有14種結構與《靜靜的頓河》相符,而克留柯夫小說中只有5種出現在《靜靜的頓河》中。

6、統計3種樣本中頻率最高的15種結尾句子的結構,發現肖洛霍夫小說中15種結構與《靜靜的頓河》完全相符,而克留柯夫小說中結尾句子的結構與《靜靜的頓河》完全不符。

根據以上6個方面的統計結果與分析,捷澤等人已可以下結論:《靜靜的頓河》的真正作者是肖洛霍夫。然而,捷澤等人對於這樣一部世界名著,這樣一個世界文學界的重大疑案,釆取了十分謹慎的態度,為了精益求精,他們在更大規模基礎上進行研究,最終確定《靜靜的頓河》確實是肖洛霍夫的作品,他在寫作時或許參考過克留柯夫的手稿。後來,原蘇聯文學研究者從另外一些方面又進一步證實了肖洛霍夫是《靜靜的頓河》的真正作者。

計算風格學不僅能考證作者,還作者一個清白,在更廣闊的范圍內,通過對不同時期的文學家作品的統計計算,還可以反映一個時代的文化風格變遷。曾有人對20位德語作者的22部著作的平均詞長和平均句長進行過計算,從而發現了德語書面語言的句子有變短的趨勢。(魯秋楓)
看見一個需要,並用數學解決它!

yll
帥哥良~
帥哥良~
 
文章: 4368
註冊時間: 2002-08-28
來自: 天父的小花園~

J+W 於 星期四 五月 27, 2004 10:05 pm


印象中這好像屬於歷史研究法的外部鑑定

J+W
版 主
版 主
 
文章: 2165
註冊時間: 2003-12-30

訪客 於 星期六 十月 30, 2004 7:47 pm


的確是
這是數學嗎........
歷史可以不要發表
雖然.其實我也蠻想知道的說
紅樓夢是中國蠻著名的言情小說
也不錯看.....阿.....我扯到哪去了
真白吃^.^

訪客

 






數學文章