Hiding in Plain Sight: A longitudinal Study of Combosquatting Abuse
作者:陆超逸 (清华大学)
论文发表于CCS 2017,论文作者:Panagiotis Kintis, Najmeh Miramirkhani, Charles Lever, Yizheng Chen, Rosa Romero-Gómez, Nikolaos Pitropakis, Nick Nikiforakis, Manos Antonakakis
摘要
论文是一篇纯测量文章,主要关注了 Combosquatting 这种域名注册现象,并对它进行了第一次的系统性研究。Combosquatting 的特点是,通过向知名域名添加其他关键词的方式,构造并注册新的域名(例如alipay-login.com);这种域名可以用于钓鱼、恶意软件传播、APT攻击、品牌滥用等行为。作者通过测量发现,这样的域名规模非常庞大,达到百万量级,并且活跃时间非常长;案例分析表明,已经有一些这样的域名被用于恶意用途或攻击。
背景
在商标领域,如果有一个品牌做大了(比如:奥利奥),就会有很多“山寨品牌”希望靠模仿来迷惑消费者(比如:澳丽澳、粤利粤等)。在域名注册领域也是一样,有一些投机者通过域名抢注(domain squatting)的方式来大量注册他们认为有价值的域名,吸引来自用户的流量。
以往的工作已经研究了以下几种抢注方式,可以用图1来总结:
- Typosquatting,包含typo(偶然手抖打错,例如baiud.com)的域名。我们在输入域名时经常会因为不小心敲错而访问错误的网址;因此,通过注册这样的域名,可以获取来自用户的偶然流量。上学期跟大家分享的[1]中已经提出,如果有域名的管理员将权威服务器NS记录不小心打错了,就可能产生劫持。[2]中详细给出了5种构造Typosquatting域名的方式。
- Bitsquatting,出现比特反转的域名(例如:yo5tube.com)[3]。处理DNS请求的各个服务器的硬件问题,导致域名的某一位出现比特反转,解析的域名变成了其他域名。根据Verisign的统计[4],每1M-10M个DNS请求就会出现一个比特反转导致错误的请求。通过注册这样的域名获取的仍然是偶然流量。
- Soundsquatting,用同音构造的新域名(例如:yewtube.com、baidoo.com)[5]。
- Homograph,通过用长得比较像的其他字符替代品牌里面的字符,使得新的域名和品牌域名长得非常像,具有迷惑作用(例如:y0utube.com、ba1du.com)[6, 7]。自从引入了国际化域名(IDN)以来,因为不同语言中长得像的字符数量增多了,这种域名显著增多。我们在DSN 2018发表的文章[8]中详细研究了这个问题,文章将于6月发表。
而论文研究的Combosquatting是另外一种。类似于“六个核桃”变成了“六个核桃花生露”、“六个核桃三个枣”,在知名域名的基础上加上一些关键词形成新的域名,同样也是起到迷惑用户的作用。图2给出了几个例子:
图2 Combosquatting域名示例
Combosquatting的原理非常简单,有以下特点:
- 知名域名的名字原封不动借用过来,不作任何改动。
- 理论上讲,注册者的“创作”空间是无限的:可以在前面或后面加(jibber-baidu.com、baidu-jabber.com)、可以加任意长度(omg-baidu.com、tgif-baidu.com)、可以加任意词汇(oh-baidu.com、really-baidu.com)。这也是Combosquatting与上面几种注册现象的区别:给定一个知名域名,是可以穷举把上面几种方式 所有能构造出来的域名 列出来的,而Combosquatting不行。
- (需要注意的是,为了方便观察,在这篇总结里面所有的Combosquatting域名例子,单词之间都添加了连字符 -。真实的域名注册案例可能是没有的。)
Combosquatting域名可以用来干什么:
- 钓鱼。例如apple-security-center.com、iphone-location.com,具有迷惑性。
- 恶意软件分发。僵尸网络C2域名。
- 商标滥用。vicroriasecret-outlet.org模仿维秘,卖假货。
- 社会工程,收集PII(Personal Identifiable Information)。
- APT攻击。
测量
对于Combosquatting这种现象,我们在测量过程中需要依次解决以下问题:
- 有哪些知名域名被模仿了?
- 怎么样识别Combosquatting这样的域名?
- 这样的域名有什么特点?
- 这样的域名都被拿来做什么了?
- 有哪些知名域名被模仿了。
答案当然是知名的、访问量高的域名。因此,作者选用了美国Alexa Top 500的域名作为可能的受害者(注:为什么是美国的品牌?可能是因为大多数域名都是英文的)。但是,需要手工剔除一些品牌,因为它们用的单词非常普通,或者非常短,会产生相当多的误判(例如,不能说apple-pie.com模仿了apple.com,或者bikeandride.com模仿了ikea.com)。
作者通过手工筛选,留下了246个知名域名作为研究对象。这些知名域名被手工分为22个类别。
- 怎么样识别Combosquatting域名?
根据Combosquatting域名构造的原理,给定一个知名域名,要识别其实非常简单:在现有的活跃的所有域名里面,如果一个域名完整包含了这个知名域名,那么它就可以算是Combosquatting域名。
图3显示了作者收集的数据。作者通过5年某运营商提供的Passive DNS记录和1年的Active DNS记录,获取了这段时间内活跃的域名列表。除此之外,还有4个公开的域名黑名单,以及公开的证书信息。
图3 数据收集
图4显示了给定一个知名域名,如何判定Combosquatting域名。前面已经提到过这个方法的核心是,看一个域名里面有没有完整包含知名域名的名字;那么,对上一步的域名列表中的每个域名,依次搜有没有包含246个知名的名字就可以了。需要特别说明的是,Typosquatting域名也有可能会满足这个条件,因此需要剔除掉。这一步发现,符合条件的域名数量非常多,已经达到百万量级。
图4 Combosquatting域名的判定
图5显示了如何识别Combosquatting滥用(Combosquatting abuse),也就是现在已经被拿去干坏事的Combosquatting域名。将上一步检测出来的Combosquatting域名列表和黑名单比对,如果一个域名已经在黑名单里面,那么就算作滥用。
图5 Combosquatting域名滥用的判定
- Combosquatting域名有什么特点?
对于这些域名,通过域名列表、Passive DNS解析记录、证书信息等,可以得到它们的以下特点。
- 与Typosquatting的区别:Typosquatting的构造方式是有限的,而Combosquatting是无限的。事实上,检测出的Combosquatting域名也比Typosquatting域名数量多得多,高出两个数量级,如图6所示。
- 很多Combosquatting域名具有证书。这是因为,这样的域名如果要达到迷惑用户的效果,更多的是依靠与用户的交互(比如,把网站做成钓鱼网站),而不是像Typosquatting域名一样获取偶然流量。
- 虽然Combosquatting域名具有无限的构造空间,但是实际上这些注册者会精心构造域名、精心选词。通过分词作者发现,90%的Combosquatting域名只有2-3个英文单词。这一点容易理解,不会有用户愿意敲非常长的域名,非常长的域名通常是可疑的。
- Combosquatting域名通常具有较长的活跃期。图7表明,有50%以上的Combosquatting域名活跃超过100天;恶意的域名活跃时间更长。
- 现在的恶意域名检测系统对于Combosquatting域名的检测效果并不是很好,主要表现在检测的滞后性。图8显示,有30%左右的恶意Combosquatting域名在被列入黑名单之前100天就已经开始活跃了。
- 恶意的Combosquatting域名的指向更集中,有个别的网段和AS具有非常多这样的域名。可能是因为sinkhole,以及允许恶意余名长期存活的AS数量本身不多引起的。
图6 两种域名抢注的数量比较
图7 Combosquatting域名的活跃期
图8 恶意Combosquatting域名的检测滞后时间
- 这些Combosquatting域名都被用来干什么了?(见下一部分用途和案例分析)
用途和案例分析
这些Combosquatting域名都用来干什么了?
作者通过浏览器示例,爬取了1.1M个Combosquatting域名的HTML页面。目前对页面内容进行准确分类仍然是比较难解决的一个问题,因此作者采用了图9的过滤方法,将页面分为三类:
图9 页面内容分类方法
- Affiliate abuse:这些页面通过affiliate ID跳转到一些知名的网站,以此获取提成。
- Phishing:检测方法是,页面和知名网站页面非常像(通过感知哈希比较),并且有登录框。
- 其他:无法进行准确分类,通过人工抽样(8700个)来观察。
这一步共发现2,573个域名涉及affiliate abuse、174个域名涉及钓鱼,还有1,165个其他类别的域名被判定为恶意。
在案例分析部分,作者发现在2016年10月30日,有505个Combosquatting域名指向同一个IP集合。因此,使用python requests爬虫爬取了两次这些域名的页面,如图10所示。第一次使用默认设置(模拟自动爬取系统),第二次指定User-Agent为Chrome浏览器(模拟真实用户)。比较有意思的是,发现了一个域名在两次爬取表现的行为有不一致,因此是在对自动系统隐藏一些它背后的动机。经过手动访问进行确认,这个域名和恶意软件有关。
图10 页面爬取方法
总结
Combosquatting是一种原理非常简单、并不难发现,但是没有被系统研究过的域名注册现象。文章的题目也说明了这一点(Hiding in plain sight:看起来是隐藏的,但是非常容易被发现)。它最大的特点是,构造空间是无限的,并且没有固定的生成模式。
作者通过知名域名筛选、解析记录分析、页面爬取等步骤,对Combosquatting域名的构造特点、解析特点、使用场景进行了测量。文中得到的主要结论包括:
- Combosquatting现象非常普遍存在,并且比Typosquatting等之前研究过的现象流行得多。
- 即使构造空间是无限的,注册者在构造Combosquatting这样的域名的时候,会精心选词。
- 现在的恶意域名检测系统对于Combosquatting域名的滥用检测存在比较大的滞后性。
- 一些Combosquatting域名非常集中地指向一些网段和AS。
- 从黑名单和案例分析中看到,Combosquatting域名已经涉及到一些恶意行为,例如钓鱼、恶意软件、APT攻击、个人信息收集等。
参考文献
[1] Vissers, T., Barron, T., Van Goethem, T., Joosen, W., & Nikiforakis, N. (2017, October). The wolf of name street: Hijacking domains through their nameservers. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (pp. 957-970). ACM.
[2] Wang, Y. M., Beck, D., Wang, J., Verbowski, C., & Daniels, B. (2006). Strider Typo-Patrol: Discovery and Analysis of Systematic Typo-Squatting.SRUTI,6, 31-36.
[3] Nikiforakis, N., Van Acker, S., Meert, W., Desmet, L., Piessens, F., & Joosen, W. (2013, May). Bitsquatting: Exploiting bit-flips for fun, or profit?. In Proceedings of the 22nd international conference on World Wide Web (pp. 989-998). ACM.
[4] Duane Wessels. 2012. Evidence of Bitsquatting in COM/NET Queries. https://
http://www.nanog.org/meetings/nanog54/presentations/Tuesday/Wessels.pdf. (2012).
[5] Nikiforakis, N., Balduzzi, M., Desmet, L., Piessens, F., & Joosen, W. (2014, October). Soundsquatting: Uncovering the use of homophones in domain squatting. In International Conference on Information Security (pp. 291-308). Springer, Cham.
[6] Holgers, T., Watson, D. E., & Gribble, S. D. (2006, June). Cutting through the Confusion: A Measurement Study of Homograph Attacks. In USENIX Annual Technical Conference, General Track (pp. 261-266).
[7] Al Helou, J., & Tilley, S. (2010, September). Multilingual web sites: Internationalized Domain Name homograph attacks. In Web Systems Evolution (WSE), 2010 12th IEEE International Symposium on (pp. 89-92). IEEE.
[8] Baojun Liu, Chaoyi Lu, et al. A Reexamination of Internationalized Domain Names: the Good, the Bad and the Ugly, DSN 2018 (To appear)