• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

SPuerBRead/HTMLSimilarity: 网页相似度判断:根据网页结构判断页面相似性 ,可用于相 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

SPuerBRead/HTMLSimilarity

开源软件地址:

https://github.com/SPuerBRead/HTMLSimilarity

开源编程语言:

Python 100.0%

开源软件介绍:

HTMLSimilarity

根据网页结构判断页面相似性(Determine page similarity based on HTML page structure)

PyV

使用方法

from htmlsimilarity import get_html_similarity

is_similarity, value = get_html_similarity(html_doc1, html_doc2)

说明

输入参数:
  • HTML文档1
  • HTML文档2
  • 降维后的维数,默认是5000
返回值:
  • 是否相似
  • 相似值(value<0.2时相似,value>0.2时不相似)

判断方法

根据网页的DOM树确定网页的模板特征向量,对模板特征向量计算网页结构相似性。

详细参考:李景阳, 张波. 网页结构相似性确定方法及装置:.

原理参考上述专利文章,对其判断相似性部分进行简单实现。

用途

判断越权时,需要对response进行对比,当后端返回渲染后HTML的情况下,无法直接判断是否出现了越权,利用常规的文本相似度对比如difflib,通过分词或最长公共子串等方法进行判断并不适用于用来判断越权,所以使用根据页面结构判断相似度,确定是否出现了越权。




鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap