2006 十一月 22 | 小恐的流氓生活

搜狗弄了个文风测试，朋友们弄着玩，自己手痒也弄。

不弄不知道，一弄吓一跳，和自己八竿子打不着的木子美居然灵魂附体，阴魂不散：

文章一：《假如食色颠倒了》

结果一：

木子美: 86%; 小心雷区，不过也可以反其道行之。相似到这个程度，就看你怎么利用咯！

流氓燕: 11%; 放心吧，你和他/她的相似度基本可以忽略不计。

路遥: 7%; 如果不是我们科学的分析结果，你没有发觉自己还有些许这位作家的风格吧^_^

文章二：《巨靠青春》片段《小鸡鸡的故事》

结果二：
路遥

28%

没有想到吧，你有这位作家那么一点点的味道哟。

木子美: 15%; 放心吧，你和他/她的相似度基本可以忽略不计。

骷髅精灵: 10%; 如果不是我们科学的分析结果，你没有发觉自己还有些许这位作家的风格吧^_^

文章三：《头发的故事（中）》

结果三：
王安忆

35%

Hoho，受到这位作家的一些轻微影响。

木子美: 20%; 放心吧，你和他/她的相似度基本可以忽略不计。

路遥: 19%; 这个区间是比较正常的，看来你已经有了掌握神韵的感觉喔。

========================================================

大家都把这个测试当作娱乐，我却比较较真，因为好歹自己对文本挖掘有一些粗浅的认识。而这些粗浅的认识告诉我，搜狗做这个程序所使用的方法不对。

或许自己选择这三篇文章中，或多或少出现了一些与性相关的词语，于是，以赤裸裸写性著称的木子美就与我相似了。

这种判断方法显然是有问题的。两个人的文风是否相似，不是写什么决定的，而是怎么写决定的。同一个人可以写不同的主题，不同的人可以写相同的主题。不能因为这两个人写了同样的主题，文风就相似了。

可以看出搜狗的程序大致这样：先对输入文本进行分词，再对分词结果进行统计，再将统计结果与各个作家的结果进行对比，取出相似的前几位。粗略地看，似乎每一步都有道理，但是，其实问题从第二步就开始出现了。

对分词整体结果的统计是引入错误的开始。我们知道，词语分为实词和虚词，实词包含了具体的意义，而虚词没有。也就是说，实词是写什么的具体反应。对实词进行统计，那么统计出来的结果其实是文章内容上的相似度，而不是文风上的相似度。

能从一定程度上反应文风的，只有虚词。一方面，它与叙述内容无关；另一方面，不同的人因为遣词造句的方式不同，所使用的不同虚词的频度不同。曾经有人做过这样的研究：分别统计《红楼梦》前80回和后40回的虚词，它们在分布上有很大的不同。这样的实验结果证实了《红楼梦》前80回和后40回在文风上存在显著的差异，也为后40回为他人（高鄂）所续提供了证据。

因此，搜狗在统计分词结果的时候，一方面应该首先去除实词，以免引进与叙述内容相关的混淆因子；另一方面，应该在虚词上大下功夫，这才是关键所在。

说完了，就此打住。这个博客是用来搞文字的，不是用来搞研究的。此篇属于不务正业，今后会尽量杜绝此类文章。

一	二	三	四	五	六	日
« 十				十二 »
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

小恐的流氓生活

生命不息，巨靠不已

日度归档：十一月 22, 2006

始终逃不出木子美的魔爪