始终逃不出木子美的魔爪

搜狗弄了个文风测试,朋友们弄着玩,自己手痒也弄。
不弄不知道,一弄吓一跳,和自己八竿子打不着的木子美居然灵魂附体,阴魂不散:
 
结果一:
木子美
始终逃不出木子美的魔爪
86%
小心雷区,不过也可以反其道行之。相似到这个程度,就看你怎么利用咯!
流氓燕
始终逃不出木子美的魔爪
11%
放心吧,你和他/她的相似度基本可以忽略不计。
路遥
始终逃不出木子美的魔爪
7%
如果不是我们科学的分析结果,你没有发觉自己还有些许这位作家的风格吧^_^

 
结果二:
路遥
始终逃不出木子美的魔爪
28%
没有想到吧,你有这位作家那么一点点的味道哟。
木子美
始终逃不出木子美的魔爪
15%
放心吧,你和他/她的相似度基本可以忽略不计。
骷髅精灵
始终逃不出木子美的魔爪
10%
如果不是我们科学的分析结果,你没有发觉自己还有些许这位作家的风格吧^_^

结果三:
王安忆
始终逃不出木子美的魔爪
35%
Hoho,受到这位作家的一些轻微影响。
木子美
始终逃不出木子美的魔爪
20%
放心吧,你和他/她的相似度基本可以忽略不计。
路遥
始终逃不出木子美的魔爪
19%
这个区间是比较正常的,看来你已经有了掌握神韵的感觉喔。

========================================================
 
大家都把这个测试当作娱乐,我却比较较真,因为好歹自己对文本挖掘有一些粗浅的认识。而这些粗浅的认识告诉我,搜狗做这个程序所使用的方法不对。
 
或许自己选择这三篇文章中,或多或少出现了一些与性相关的词语,于是,以赤裸裸写性著称的木子美就与我相似了。
 
这种判断方法显然是有问题的。两个人的文风是否相似,不是写什么决定的,而是怎么写决定的。同一个人可以写不同的主题,不同的人可以写相同的主题。不能因为这两个人写了同样的主题,文风就相似了。
 
可以看出搜狗的程序大致这样:先对输入文本进行分词,再对分词结果进行统计,再将统计结果与各个作家的结果进行对比,取出相似的前几位。粗略地看,似乎每一步都有道理,但是,其实问题从第二步就开始出现了。
 
对分词整体结果的统计是引入错误的开始。我们知道,词语分为实词和虚词,实词包含了具体的意义,而虚词没有。也就是说,实词是写什么的具体反应。对实词进行统计,那么统计出来的结果其实是文章内容上的相似度,而不是文风上的相似度。
 
能从一定程度上反应文风的,只有虚词。一方面,它与叙述内容无关;另一方面,不同的人因为遣词造句的方式不同,所使用的不同虚词的频度不同。曾经有人做过这样的研究:分别统计《红楼梦》前80回和后40回的虚词,它们在分布上有很大的不同。这样的实验结果证实了《红楼梦》前80回和后40回在文风上存在显著的差异,也为后40回为他人(高鄂)所续提供了证据。
 
因此,搜狗在统计分词结果的时候,一方面应该首先去除实词,以免引进与叙述内容相关的混淆因子;另一方面,应该在虚词上大下功夫,这才是关键所在。
 
说完了,就此打住。这个博客是用来搞文字的,不是用来搞研究的。此篇属于不务正业,今后会尽量杜绝此类文章。