眼皮下的冒牌货:Combosquatting域名抢注的测量研究

Hiding in Plain Sight:  A longitudinal Study of Combosquatting Abuse

作者:陆超逸  (清华大学)

论文发表于CCS 2017,论文作者:Panagiotis Kintis, Najmeh Miramirkhani, Charles Lever, Yizheng Chen, Rosa Romero-Gómez, Nikolaos Pitropakis, Nick Nikiforakis, Manos Antonakakis

摘要

论文是一篇纯测量文章,主要关注了 Combosquatting 这种域名注册现象,并对它进行了第一次的系统性研究。Combosquatting 的特点是,通过向知名域名添加其他关键词的方式,构造并注册新的域名(例如alipay-login.com);这种域名可以用于钓鱼、恶意软件传播、APT攻击、品牌滥用等行为。作者通过测量发现,这样的域名规模非常庞大,达到百万量级,并且活跃时间非常长;案例分析表明,已经有一些这样的域名被用于恶意用途或攻击。

背景

在商标领域,如果有一个品牌做大了(比如:奥利奥),就会有很多“山寨品牌”希望靠模仿来迷惑消费者(比如:澳丽澳、粤利粤等)。在域名注册领域也是一样,有一些投机者通过域名抢注(domain squatting)的方式来大量注册他们认为有价值的域名,吸引来自用户的流量。

以往的工作已经研究了以下几种抢注方式,可以用图1来总结:

图1 几种域名抢注方式及示例

  • Typosquatting,包含typo(偶然手抖打错,例如baiud.com)的域名。我们在输入域名时经常会因为不小心敲错而访问错误的网址;因此,通过注册这样的域名,可以获取来自用户的偶然流量。上学期跟大家分享的[1]中已经提出,如果有域名的管理员将权威服务器NS记录不小心打错了,就可能产生劫持。[2]中详细给出了5种构造Typosquatting域名的方式。
  • Bitsquatting,出现比特反转的域名(例如:yo5tube.com)[3]。处理DNS请求的各个服务器的硬件问题,导致域名的某一位出现比特反转,解析的域名变成了其他域名。根据Verisign的统计[4],每1M-10M个DNS请求就会出现一个比特反转导致错误的请求。通过注册这样的域名获取的仍然是偶然流量。
  • Soundsquatting,用同音构造的新域名(例如:yewtube.com、baidoo.com)[5]。
  • Homograph,通过用长得比较像的其他字符替代品牌里面的字符,使得新的域名和品牌域名长得非常像,具有迷惑作用(例如:y0utube.com、ba1du.com)[6, 7]。自从引入了国际化域名(IDN)以来,因为不同语言中长得像的字符数量增多了,这种域名显著增多。我们在DSN 2018发表的文章[8]中详细研究了这个问题,文章将于6月发表。

而论文研究的Combosquatting是另外一种。类似于“六个核桃”变成了“六个核桃花生露”、“六个核桃三个枣”,在知名域名的基础上加上一些关键词形成新的域名,同样也是起到迷惑用户的作用。图2给出了几个例子:

图2 Combosquatting域名示例

Combosquatting的原理非常简单,有以下特点:

  • 知名域名的名字原封不动借用过来,不作任何改动。
  • 理论上讲,注册者的“创作”空间是无限的:可以在前面或后面加(jibber-baidu.com、baidu-jabber.com)、可以加任意长度(omg-baidu.com、tgif-baidu.com)、可以加任意词汇(oh-baidu.com、really-baidu.com)。这也是Combosquatting与上面几种注册现象的区别:给定一个知名域名,是可以穷举把上面几种方式 所有能构造出来的域名 列出来的,而Combosquatting不行。
  • (需要注意的是,为了方便观察,在这篇总结里面所有的Combosquatting域名例子,单词之间都添加了连字符 -。真实的域名注册案例可能是没有的。)

Combosquatting域名可以用来干什么:

  • 钓鱼。例如apple-security-center.com、iphone-location.com,具有迷惑性。
  • 恶意软件分发。僵尸网络C2域名。
  • 商标滥用。vicroriasecret-outlet.org模仿维秘,卖假货。
  • 社会工程,收集PII(Personal Identifiable Information)。
  • APT攻击。

测量

对于Combosquatting这种现象,我们在测量过程中需要依次解决以下问题:

  • 有哪些知名域名被模仿了?
  • 怎么样识别Combosquatting这样的域名?
  • 这样的域名有什么特点?
  • 这样的域名都被拿来做什么了?
  1. 有哪些知名域名被模仿了。

答案当然是知名的、访问量高的域名。因此,作者选用了美国Alexa Top 500的域名作为可能的受害者(注:为什么是美国的品牌?可能是因为大多数域名都是英文的)。但是,需要手工剔除一些品牌,因为它们用的单词非常普通,或者非常短,会产生相当多的误判(例如,不能说apple-pie.com模仿了apple.com,或者bikeandride.com模仿了ikea.com)。

作者通过手工筛选,留下了246个知名域名作为研究对象。这些知名域名被手工分为22个类别。

  1. 怎么样识别Combosquatting域名?

根据Combosquatting域名构造的原理,给定一个知名域名,要识别其实非常简单:在现有的活跃的所有域名里面,如果一个域名完整包含了这个知名域名,那么它就可以算是Combosquatting域名。

图3显示了作者收集的数据。作者通过5年某运营商提供的Passive DNS记录和1年的Active DNS记录,获取了这段时间内活跃的域名列表。除此之外,还有4个公开的域名黑名单,以及公开的证书信息。

图3 数据收集

图4显示了给定一个知名域名,如何判定Combosquatting域名。前面已经提到过这个方法的核心是,看一个域名里面有没有完整包含知名域名的名字;那么,对上一步的域名列表中的每个域名,依次搜有没有包含246个知名的名字就可以了。需要特别说明的是,Typosquatting域名也有可能会满足这个条件,因此需要剔除掉。这一步发现,符合条件的域名数量非常多,已经达到百万量级。

图4 Combosquatting域名的判定

图5显示了如何识别Combosquatting滥用(Combosquatting abuse),也就是现在已经被拿去干坏事的Combosquatting域名。将上一步检测出来的Combosquatting域名列表和黑名单比对,如果一个域名已经在黑名单里面,那么就算作滥用。

图5 Combosquatting域名滥用的判定

  1. Combosquatting域名有什么特点?

对于这些域名,通过域名列表、Passive DNS解析记录、证书信息等,可以得到它们的以下特点。

  • 与Typosquatting的区别:Typosquatting的构造方式是有限的,而Combosquatting是无限的。事实上,检测出的Combosquatting域名也比Typosquatting域名数量多得多,高出两个数量级,如图6所示。
  • 很多Combosquatting域名具有证书。这是因为,这样的域名如果要达到迷惑用户的效果,更多的是依靠与用户的交互(比如,把网站做成钓鱼网站),而不是像Typosquatting域名一样获取偶然流量。
  • 虽然Combosquatting域名具有无限的构造空间,但是实际上这些注册者会精心构造域名、精心选词。通过分词作者发现,90%的Combosquatting域名只有2-3个英文单词。这一点容易理解,不会有用户愿意敲非常长的域名,非常长的域名通常是可疑的。
  • Combosquatting域名通常具有较长的活跃期。图7表明,有50%以上的Combosquatting域名活跃超过100天;恶意的域名活跃时间更长。
  • 现在的恶意域名检测系统对于Combosquatting域名的检测效果并不是很好,主要表现在检测的滞后性。图8显示,有30%左右的恶意Combosquatting域名在被列入黑名单之前100天就已经开始活跃了。
  • 恶意的Combosquatting域名的指向更集中,有个别的网段和AS具有非常多这样的域名。可能是因为sinkhole,以及允许恶意余名长期存活的AS数量本身不多引起的。

 图6 两种域名抢注的数量比较

图7 Combosquatting域名的活跃期

图8 恶意Combosquatting域名的检测滞后时间

  1. 这些Combosquatting域名都被用来干什么了?(见下一部分用途和案例分析)

用途和案例分析

这些Combosquatting域名都用来干什么了?

作者通过浏览器示例,爬取了1.1M个Combosquatting域名的HTML页面。目前对页面内容进行准确分类仍然是比较难解决的一个问题,因此作者采用了图9的过滤方法,将页面分为三类:

 

图9 页面内容分类方法

  • Affiliate abuse:这些页面通过affiliate ID跳转到一些知名的网站,以此获取提成。
  • Phishing:检测方法是,页面和知名网站页面非常像(通过感知哈希比较),并且有登录框。
  • 其他:无法进行准确分类,通过人工抽样(8700个)来观察。

这一步共发现2,573个域名涉及affiliate abuse、174个域名涉及钓鱼,还有1,165个其他类别的域名被判定为恶意。

在案例分析部分,作者发现在2016年10月30日,有505个Combosquatting域名指向同一个IP集合。因此,使用python requests爬虫爬取了两次这些域名的页面,如图10所示。第一次使用默认设置(模拟自动爬取系统),第二次指定User-Agent为Chrome浏览器(模拟真实用户)。比较有意思的是,发现了一个域名在两次爬取表现的行为有不一致,因此是在对自动系统隐藏一些它背后的动机。经过手动访问进行确认,这个域名和恶意软件有关。

 

图10 页面爬取方法

总结

Combosquatting是一种原理非常简单、并不难发现,但是没有被系统研究过的域名注册现象。文章的题目也说明了这一点(Hiding in plain sight:看起来是隐藏的,但是非常容易被发现)。它最大的特点是,构造空间是无限的,并且没有固定的生成模式。

作者通过知名域名筛选、解析记录分析、页面爬取等步骤,对Combosquatting域名的构造特点、解析特点、使用场景进行了测量。文中得到的主要结论包括:

  1. Combosquatting现象非常普遍存在,并且比Typosquatting等之前研究过的现象流行得多。
  2. 即使构造空间是无限的,注册者在构造Combosquatting这样的域名的时候,会精心选词。
  3. 现在的恶意域名检测系统对于Combosquatting域名的滥用检测存在比较大的滞后性。
  4. 一些Combosquatting域名非常集中地指向一些网段和AS。
  5. 从黑名单和案例分析中看到,Combosquatting域名已经涉及到一些恶意行为,例如钓鱼、恶意软件、APT攻击、个人信息收集等。

参考文献

[1] Vissers, T., Barron, T., Van Goethem, T., Joosen, W., & Nikiforakis, N. (2017, October). The wolf of name street: Hijacking domains through their nameservers. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (pp. 957-970). ACM.

[2] Wang, Y. M., Beck, D., Wang, J., Verbowski, C., & Daniels, B. (2006). Strider Typo-Patrol: Discovery and Analysis of Systematic Typo-Squatting.SRUTI,6, 31-36.

[3] Nikiforakis, N., Van Acker, S., Meert, W., Desmet, L., Piessens, F., & Joosen, W. (2013, May). Bitsquatting: Exploiting bit-flips for fun, or profit?. In Proceedings of the 22nd international conference on World Wide Web (pp. 989-998). ACM.

[4] Duane Wessels. 2012. Evidence of Bitsquatting in COM/NET Queries. https://

http://www.nanog.org/meetings/nanog54/presentations/Tuesday/Wessels.pdf. (2012).

[5] Nikiforakis, N., Balduzzi, M., Desmet, L., Piessens, F., & Joosen, W. (2014, October). Soundsquatting: Uncovering the use of homophones in domain squatting. In International Conference on Information Security (pp. 291-308). Springer, Cham.

[6] Holgers, T., Watson, D. E., & Gribble, S. D. (2006, June). Cutting through the Confusion: A Measurement Study of Homograph Attacks. In USENIX Annual Technical Conference, General Track (pp. 261-266).

[7] Al Helou, J., & Tilley, S. (2010, September). Multilingual web sites: Internationalized Domain Name homograph attacks. In Web Systems Evolution (WSE), 2010 12th IEEE International Symposium on (pp. 89-92). IEEE.

[8] Baojun Liu, Chaoyi Lu, et al. A Reexamination of Internationalized Domain Names: the Good, the Bad and the Ugly, DSN 2018 (To appear)

Bookmark the permalink.

Comments are closed.