基于突变流量的野黑产应用采集方法
date
Jan 17, 2024
slug
paper_app_collection
status
Published
tags
论文阅读
summary
An underground industry application collection method based on flow analysis
type
Post
方案概述
- 基于被动 DNS 数据库计算获取发生访问量突变的域名, 它们是潜在的被引流对象
- 通过伴随算法反查访问者在临近时间内的访问序列,得到的网站可能就是为突变域名引流的门户网站
- 构建了基于多种特征的二分类模型, 通过模型判别得到黑产门户
- 通过这些黑产门户, 便可以下载到应用
被动DNS数据库
- 域名、IP地址、查询时间
突变域名的识别
- 对于每个域名,计算其访问量的突变率。突变率可以通过比较当前访问量与历史访问量的平均值或中位数来确定。例如,如果当前访问量是历史平均访问量的两倍或更多,那么可以认为该域名发生了突变。
- 根据计算出的突变率,识别出那些访问量显著增加的域名。这些域名被认为是突变域名
- 突变域名≈黑产网站
伴随域名的提取
- 利用被动DNS数据,可以反查在突变域名访问发生当天访问过该域名的所有客户端IP地址。这些IP地址代表了访问突变域名的用户
- 对于每个访问突变域名的客户端IP,获取其在特定时间窗口(例如,突变发生前后的几分钟或几小时内)内的DNS请求序列。这些请求序列包含了用户访问的其他域名
- 分析请求序列中的域名,找出那些在时间窗口内被多个客户端IP访问的域名。这些域名可能与突变域名有关联,因为它们在用户访问突变域名前后被频繁访问。
- 例如,用户可能通过伴随域名被引导到突变域名,或者两者之间有某种流量共享的关系。
黑产门户网站的判别
- 特征提取
- 域名元数据特征:
- 30天内访问量:域名在30天内的总访问量。
- 30天内访问量方差:访问量的波动程度。
- 30天内访问IP数:在30天内访问该域名的不同IP地址的数量。
- 30天内访问IP数方差:访问IP数的波动程度。
- 网页外链特征:
- 外链数量:指向该域名的外部链接总数。
- 外链中图片的比例:外链中图片链接的比例。
- SLD数量:指向该域名的二级域名(Second-Level Domain)的数量。
- SLD数量/总外链数量:SLD数量占总外链数量的比例。
- FQDN数量:指向该域名的完全限定域名(Fully Qualified Domain Name)的数量。
- FQDN数量/SLD数量:FQDN数量占SLD数量的比例。
- 外链的path数/FQDN数量:不同外链路径(path)的数量占FQDN数量的比例。
- 渠道数:通过第三方数据统计平台(如百度统计)获取的访问量渠道数量。
- 网页源码内容特征:
- 列表数:网页中列表的数量。
- 最大列表宽度:网页中列表的最大宽度。
- “下载”相关语义词数:网页源码中与“下载”相关的语义词的数量。
- “黑产”相关语义词数:网页源码中与“黑产”相关的语义词的数量。
- 网页截图视觉特征:
- 亮度:使用图像处理技术计算网页截图的亮度。
- 亮度(luminosity 方法)
- 饱和度:网页截图的饱和度。
- 空白对比度
- 对比度:网页截图的对比度。
- 传统机器学习算法进行二分类