close

jk-rowling

署名Robert Galbraith 的新作家寫了一本偵探小說。它受到了讀者和書評人的高度評價,但是其銷量卻極為慘淡,只賣了1500 本左右。如果不是一次意外轉折,它可能仍然不為大眾所知。英國的Sunday Times 發現,Robert Galbraith 原來是「哈利波特」作者J.K.羅琳的化名。這個消息一經公佈,此書受到關注的程度就可想而知了,它立刻升至亞馬遜暢銷書排行第一位。可以想像的是,其續集的銷量也不用擔憂了。

從這個故事中,我們可以有許多感嘆。不過,關於作者身份如何被揭開的,多數人可能不會去深究,但其實這個故事是很有趣的,在揭秘的過程中,電腦再次發揮了重要的作用。

根據nationalgeoprahic網站的報導,事情的經過是這樣的,Sunday Times的藝術編輯Richard Books的一位同事從Twitter上取得一條匿名消息,宣稱Galbraith就是羅琳。隨後,該帳號被刪除。為確定此消息的可靠性,Brooks的團隊首先上網查詢了一下,發現兩位作者的出版商相同,隨後他們找到了兩位電腦科學家,通過語言分析進一步確認。在確定Twitter上透露的消息準確之後,Brooks與羅琳進行了聯繫,隨後他從羅琳的發言人那裡得到證實。

這兩位電腦科學家是:牛津大學的Peter Millican 和Dunquesne 大學的Patrick Juola。Sunday Times 給了他們五本書,除了《Cuckoo》之外,還有羅琳的另一本小說《The Casual Vacancy》,以及另外三本英國犯罪小說。

Patrick Juola 使用了一個叫做JGAAP 的軟體。他用不同的分析方法來檢測寫作的不同面向。其中一個測試是詞組的使用,因為不同的作者會使用不同的詞彙來形容某種東西,另一個測試是檢查某些常見詞彙的出現頻率。最強大的證據是單詞長度測試, Juola 說,從這個測試中發現了羅琳寫作的特色。全部測試的時間是一個半小時​​,所有測試都證明,《Cuckoo》與羅琳的《Casual Vacancy》最為接近。

與此同時,Peter Millican 也進行了測試。在上述的五本書之外,他又增加了幾本書,然後使用語言分析軟體Signature 進行了測試。軟體透過六個方面對書籍進行對比:單詞長度、句子長度、段落長度、單詞出現頻率、標點出現頻率,以及單詞使用情況。測試同樣顯示出Cuckoo 與羅琳所寫的書最為接近。在五個小時的測試之後,Peter Millican 寫信給Sunday Times,說他非常確信這是羅琳的作品。

對於Patrick Juola 來說,收到此類請求並非第一次,他曾多次參與語言對比測試,其中不乏古怪的例子。有一次,他證明了歐巴馬的書「Dreams from my Father」並非本土恐怖分子Bill Ayers 所寫,另一次,他曾確認報紙上的某位匿名政治批評家的身份,使此人得以留在美國,而不是被驅逐出境。

語言分析同樣有著商業上的價值。Patrick Juola 說,有些人會分析亞馬遜這樣的網站上的產品評論,從而判斷哪些評論是廠商所為,或者提供一些有價值的地域模式分析。

Juola 說,那位匿名提供訊息的人,刪除帳號是很聰明的。因為,「如果我們仍然能夠看到那個帳號的話,我們可以分析一下句法,看看它是否能和某個出版社工作的人對應上。」

 

 

 

 

 

arrow
arrow
    全站熱搜

    selina0928113 發表在 痞客邦 留言(0) 人氣()