如何进行海量的原创性分析？

比对两篇文章的原创性并不难，余弦定理或者其他方式都可以做到；那如何对数十亿网页进行原创性分析呢？如果一一对比的话，那岂不是运算量达到数十亿的平方；通过机群并行确实能做到，但总感觉这种方式很笨，而且很耗电费。求教有何优雅的海量网页的原创性分析的思路？

喜欢这个问题 | 分享 | 新建回答

回答

喷火的尾巴

0 赞

这个问题应该属于“海量网页的相似度分析”；比较合适的解决方法应该是“局部敏感哈希(Locality-Sensitive Hashing, LSH)”。

LSH 局部敏感哈希

待会我专门来写一篇文章介绍。

0 赞 0 条评论分享

东方不败

0 赞

我目前唯一想到的就是提前剪枝，也就是提前根据语言、关键词聚类等方式将网页总数n，分割成n1、n2、n3…

n = n1 + n2 + n3 + …

n² > n1² + n2² + n3² + …

所以，我唯一提供的思路就是通过细分，减少比对计算量。即使是使用word2vec来也无法避免对比计算量，而且word2vec似乎也不是非常适合这件事；总之，我目前真的认为除了细分后进行对比，别无他法。但是我总是隐隐感觉还会有更好的方法。

0 赞 0 条评论分享