搜狗弄了个文风测试,朋友们弄着玩,自己手痒也弄。
不弄不知道,一弄吓一跳,和自己八竿子打不着的木子美居然灵魂附体,阴魂不散:
文章一 : 《假如食色颠倒了》
结果一:
- 86%
- 小心雷区,不过也可以反其道行之。相似到这个程度,就看你怎么利用咯!
- 11%
- 放心吧,你和他/她的相似度基本可以忽略不计。
- 7%
- 如果不是我们科学的分析结果,你没有发觉自己还有些许这位作家的风格吧^_^
文章二: 《巨靠青春》片段《小鸡鸡的故事》
结果二:
路遥
路遥
- 28%
- 没有想到吧,你有这位作家那么一点点的味道哟。
- 15%
- 放心吧,你和他/她的相似度基本可以忽略不计。
- 10%
- 如果不是我们科学的分析结果,你没有发觉自己还有些许这位作家的风格吧^_^
文章三: 《头发的故事(中)》
结果三:
王安忆
王安忆
- 35%
- Hoho,受到这位作家的一些轻微影响。
- 20%
- 放心吧,你和他/她的相似度基本可以忽略不计。
- 19%
- 这个区间是比较正常的,看来你已经有了掌握神韵的感觉喔。
========================================================
大家都把这个测试当作娱乐,我却比较较真,因为好歹自己对文本挖掘有一些粗浅的认识。而这些粗浅的认识告诉我,搜狗做这个程序所使用的方法不对。
或许自己选择这三篇文章中,或多或少出现了一些与性相关的词语,于是,以赤裸裸写性著称的木子美就与我相似了。
这种判断方法显然是有问题的。两个人的文风是否相似,不是写什么决定的,而是怎么写决定的。同一个人可以写不同的主题,不同的人可以写相同的主题。不能因为这两个人写了同样的主题,文风就相似了。
可以看出搜狗的程序大致这样:先对输入文本进行分词,再对分词结果进行统计,再将统计结果与各个作家的结果进行对比,取出相似的前几位。粗略地看,似乎每一步都有道理,但是,其实问题从第二步就开始出现了。
对分词整体结果的统计是引入错误的开始。我们知道,词语分为实词和虚词,实词包含了具体的意义,而虚词没有。也就是说,实词是写什么的具体反应。对实词进行统计,那么统计出来的结果其实是文章内容上的相似度,而不是文风上的相似度。
能从一定程度上反应文风的,只有虚词。一方面,它与叙述内容无关;另一方面,不同的人因为遣词造句的方式不同,所使用的不同虚词的频度不同。曾经有人做过这样的研究:分别统计《红楼梦》前80回和后40回的虚词,它们在分布上有很大的不同。这样的实验结果证实了《红楼梦》前80回和后40回在文风上存在显著的差异,也为后40回为他人(高鄂)所续提供了证据。
因此,搜狗在统计分词结果的时候,一方面应该首先去除实词,以免引进与叙述内容相关的混淆因子;另一方面,应该在虚词上大下功夫,这才是关键所在。
说完了,就此打住。这个博客是用来搞文字的,不是用来搞研究的。此篇属于不务正业,今后会尽量杜绝此类文章。