搜狗弄了个文风测试,朋友们弄着玩,自己手痒也弄。
不弄不知道,一弄吓一跳,和自己八竿子打不着的木子美居然灵魂附体,阴魂不散:
文章一 : 《假如食色颠倒了》
结果一:
- 86%
- 小心雷区,不过也可以反其道行之。相似到这个程度,就看你怎么利用咯!
- 11%
- 放心吧,你和他/她的相似度基本可以忽略不计。
- 7%
- 如果不是我们科学的分析结果,你没有发觉自己还有些许这位作家的风格吧^_^
文章二: 《巨靠青春》片段《小鸡鸡的故事》
结果二:
路遥
路遥
- 28%
- 没有想到吧,你有这位作家那么一点点的味道哟。
- 15%
- 放心吧,你和他/她的相似度基本可以忽略不计。
- 10%
- 如果不是我们科学的分析结果,你没有发觉自己还有些许这位作家的风格吧^_^
文章三: 《头发的故事(中)》
结果三:
王安忆
王安忆
- 35%
- Hoho,受到这位作家的一些轻微影响。
- 20%
- 放心吧,你和他/她的相似度基本可以忽略不计。
- 19%
- 这个区间是比较正常的,看来你已经有了掌握神韵的感觉喔。
========================================================
大家都把这个测试当作娱乐,我却比较较真,因为好歹自己对文本挖掘有一些粗浅的认识。而这些粗浅的认识告诉我,搜狗做这个程序所使用的方法不对。
或许自己选择这三篇文章中,或多或少出现了一些与性相关的词语,于是,以赤裸裸写性著称的木子美就与我相似了。
这种判断方法显然是有问题的。两个人的文风是否相似,不是写什么决定的,而是怎么写决定的。同一个人可以写不同的主题,不同的人可以写相同的主题。不能因为这两个人写了同样的主题,文风就相似了。
可以看出搜狗的程序大致这样:先对输入文本进行分词,再对分词结果进行统计,再将统计结果与各个作家的结果进行对比,取出相似的前几位。粗略地看,似乎每一步都有道理,但是,其实问题从第二步就开始出现了。
对分词整体结果的统计是引入错误的开始。我们知道,词语分为实词和虚词,实词包含了具体的意义,而虚词没有。也就是说,实词是写什么的具体反应。对实词进行统计,那么统计出来的结果其实是文章内容上的相似度,而不是文风上的相似度。
能从一定程度上反应文风的,只有虚词。一方面,它与叙述内容无关;另一方面,不同的人因为遣词造句的方式不同,所使用的不同虚词的频度不同。曾经有人做过这样的研究:分别统计《红楼梦》前80回和后40回的虚词,它们在分布上有很大的不同。这样的实验结果证实了《红楼梦》前80回和后40回在文风上存在显著的差异,也为后40回为他人(高鄂)所续提供了证据。
因此,搜狗在统计分词结果的时候,一方面应该首先去除实词,以免引进与叙述内容相关的混淆因子;另一方面,应该在虚词上大下功夫,这才是关键所在。
说完了,就此打住。这个博客是用来搞文字的,不是用来搞研究的。此篇属于不务正业,今后会尽量杜绝此类文章。
我的结果竟然和你的非常一样
木子美,流氓燕,路谣… 竟然还出现了一次琼瑶
于是我拿老大的文字小试了一把(原谅我的冒犯)
竟然出现了下面这个,我快晕死了
天啊……
无名氏,您的评测结果:通过评测,您的文章与知名作家的相似度比较结果见下:
路遥27% 没有想到吧,你有这位作家那么一点点的味道哟。
木子美21% 放心吧,你和他/她的相似度基本可以忽略不计。
林清玄8% 如果不是我们科学的分析结果,你没有发觉自己还有些许这位作家的风格吧^_^
忘记说了,我用的是《第一次杀人》
我在北京偶遇过木子美,感觉她人气质很好,整个给人的感觉很舒服。
看过她的一篇文字,很感叹,这就是人才!
难怪乎,哲学系毕业的。和我这样学路桥的人就是不一样,成天脑子里都要装水泥沙子的。
说到木子美
两周前
我坐公交车,进了一个站,公交车停了一下,上了乘客后开始起步,我从车窗望出去,看见一女的在站台等车,第一反应就是“她是木子美”!!
在网上看过她照片,她的头发很有特点
我现在还觉得当时看到的那个就是木子美
哈哈
我觉得木子美挺不错的
上校真见过?
小龙,您的评测结果:通过评测,您的文章与知名作家的相似度比较结果见下:
郭敬明 37%Hoho,受到这位作家的一些轻微影响。
柯南道尔 18%这个区间是比较正常的,看来你已经有了掌握神韵的感觉喔。
安徒生 16%这个区间是比较正常的,看来你已经有了掌握神韵的感觉喔。
看来,我比较适合造童话故事.