如何进行海量的原创性分析?

比对两篇文章的原创性并不难,余弦定理或者其他方式都可以做到;那如何对数十亿网页进行原创性分析呢?如果一一对比的话,那岂不是运算量达到数十亿的平方;通过机群并行确实能做到,但总感觉这种方式很笨,而且很耗电费。求教有何优雅的海量网页的原创性分析的思路?

喜欢这个问题 | 分享 | 新建回答

回答

喷火的尾巴

Feb 17, 2020
0 赞

这个问题应该属于“海量网页的相似度分析”;比较合适的解决方法应该是“局部敏感哈希(Locality-Sensitive Hashing, LSH)”。

LSH 局部敏感哈希

待会我专门来写一篇文章介绍。



东方不败

Feb 17, 2020
0 赞

我目前唯一想到的就是提前剪枝,也就是提前根据语言、关键词聚类等方式将网页总数n,分割成n1、n2、n3…

n = n1 + n2 + n3 + …

n² > n1² + n2² + n3² + …

所以,我唯一提供的思路就是通过细分,减少比对计算量。即使是使用word2vec来也无法避免对比计算量,而且word2vec似乎也不是非常适合这件事;总之,我目前真的认为除了细分后进行对比,别无他法。但是我总是隐隐感觉还会有更好的方法。