浏览器指纹核心之FingerprintJS(浏览器指纹库)
网页追踪的五种技术:
五种技术:HTTP cookies(又称作标准信息记录程序)是由 Web 服务器保存在用户浏览器(客户端)上的包含有关用户信息的小文本文件,分为第一方cookie和第三方cookie。
其中,第三方cookie是与网站用户毫无关系的其他公司为了跟踪用户而安置在不同网站上的。基于cookie在多个网站跟踪得来的用户信息,比如兴趣、身体状况甚至是政治观点等等,广告商建立用户画像(online profiling),识别用户身份特征,并根据用户特点推送特定广告或者将用户信息转手卖给其他企业。
无论是第一方cookie还是第三方cookie,网络用户都可以选择删除cookies文件来避免互联网公司跟踪自己的网页浏览记录。Flash cookie是Adobe Flash的开发者建立在用户电脑上用以储存用户信息的文件。它与HTTP cookie最显著的不同在于,即使用户已经删除,Flash cookies仍然能够在不告知用户的情况下再次生成,继续跟踪用户信息。
Etags(实体标签),开发本意是希望通过直接保存历史浏览网页为用户提供更快速的浏览体验,但这种技术也被广告商用来在用户端储存识别码。
HTML5 本地储存方式的优点在于储存时间长、容量大,在苹果研发越来越多的脱离Flash软件的产品之后,HTML5将成为Flash cookie的替代之选,使用范围越来越广。
The Evercookie 跟踪机制则是融合前述几种技术,其特点是重复——即便用户删除了某个跟踪文本,另一个追踪文本会立刻恢复生成识别码。
第二大类技术,浏览器指纹识别是指服务器一端通过浏览器直接查询用户的电脑属性,比如用户使用哪个浏览器、下载了哪些字体,以此识别用户特征。由于该活动在服务器一端进行,所以用户很难发现和阻挡。综上,跟踪技术从旧到新、不断迭代,都是广告商为了使这些跟踪技术更难被消费者察觉和阻挡,以更隐秘的方式剥夺网络使用者面对广告推送的选择权,从而使行为广告成为“人们无法拒绝的offer”。
设备指纹反欺诈技术
设备指纹具备不受浏览器兼容性限制、用户无法修改、不会被浏览器清除、可跨应用追踪等诸多优点,可谓集美貌与智慧于一身,在网络营销、反欺诈等领域应用广泛。设备指纹也有门派之分,其中主要分为主动式、被动式和混合式,其中主动式发展最早、技术门槛相对较低,因而目前应用比被动式和混合式两种更为广泛。
主动式设备指纹
主动式设备指纹的应用,需要收集诸多信息才能保证设备识别的准确性,如MAC地址、设备IMEI号、广告跟踪ID、设备唯一序列号、地理位置等等。
此外,还要突破浏览器兼容性、千变万化的设备型号、代理、软件篡改设备信息等重重难关。
主动式设备指纹技术:
Step 1:准备好已联网的电脑一台
Step 2:打开以下网站https://github.com/Valve/fingerprintjs2
Step 3:加载fingerprintjs2
Step 4:接着在页面中加入以下代码就可以轻松获得设备指纹啦
主动式设备指纹技术存在的弊端:
1.存在明显的用户隐私侵犯,并因此可能导致被Google和苹果Apple Store下架。举个例子,金融、支付行业中有很多业务场景对于用户隐私的保护要求很高,就无法使用主动式设备指纹做设备识别。
2.主动式指纹不能实现App和mobile web间,不同浏览器间的设备识别。主动式设备指纹对于需要跨网页/应用追踪用户行为的场景,比如追踪App安装究竟来自哪个广告渠道,就无能为力。
3.主动式设备指纹所取特征均暴露于客户端,欺诈者可轻易通过一些一键新机等工具篡改相应特征信息,从而使指纹无效。这些场景就需要相对技术门槛更高的被动式设备指纹技术来解决了。
被动式设备指纹技术
最新的被动式设备指纹技术,从数据包的OSI七层协议中,提取出这台设备的操作系统、协议栈和网络状态相关的特征,并结合机器学习算法以标识和跟踪具体的移动设备。相比于主动式设备指纹技术,被动式设备指纹技术在适用范围和灵活性上,有着不可比拟的优势:
1)更大的适用范围,由于被动式设备指纹技术完全工作在服务器侧,一些无法植入SDK或JS的场景也可使用;
2)跨Web/App,跨浏览器的识别;
3)完全不侵犯用户隐私,避免了被AppStore下架的风险。
混合式设备指纹技术
混合式设备指纹技术指将主动式和被动式设备指纹技术整合在同一个设备识别与跟踪的架构中,将主动式设备指纹技术在客户端生成的设备标识符,与被动式设备指纹技术在服务器端收集的、协议栈相关的特征信息对应起来,使得所有的设备都有一个唯一的设备识别ID。
混合式设备指纹技术融合了主动式和被动式设备指纹技术各自的优点,在准确识别设备的同时,扩大了设备指纹技术的适用范围。
准确率进一步提高:
主动式设备指纹技术本身已经具有很高的准确率,接近100%。在此基础上,混合式设备指纹技术能够将主动式和被动式的识别结果相互印证和校验,从而使准确率进一步提高。
适用范围更广:
出于隐私保护的目的,纯主动式设备指纹技术的使用场景越来越受限,同时其对于SDK和JS代码的依赖,致使其无法应用在不便于在客户端植入代码的场景。例如,Apple公司就严格限制APP中用户与设备信息的收集行为,任何超越合理范围的信息收集都可能被视为违规行为,而遭到APP下架的惩罚。
而混合式设备指纹技术则可根据用户的不同场景,来灵活决定设备指纹的生成和校验方式。对于用户隐私保护要求宽松的场景,可以使用主动式设备指纹技术来获得快速、稳定的设备标识;而对于用户隐私保护要求严格,或无法嵌入SDK和Javascript代码的场景,则可以使用被动式设备指纹技术。
此外,在需要将同一用户在移动Web和App中的行为关联起来的场景中,混合式设备指纹技术也有着比主动式更大的应用范围。
用户行为信息分析
在坚实的设备指纹的基础上,需要在会话和账号两层采集和提取用户行为信息。在会话的层面上,借助基于概率的聚类模型和模式挖掘算法(sequential pattern mining),将用户的行为模式,比如事件发生的次序以及事件发生的间隔时间,归为几类。并在此基础上识别出异常行为模式。
这些标示特征为区分正常用户和欺诈者或自动化工具提供了重要信息;更进一步,在账号的层面上:首先以账号为索引,将会话层面上提取到的行为信息特征按时间串联起来,得到账户层面的异常行为标示特征。其次根据账号相关联的历史行为数据,提取出用户的偏好属性,比如是否为僵尸账号,相邻登录的平均地理距离等。最后,我们将这些信息综合起来,形成特有的用于反欺诈的用户画像。
当一个账号再次出现在业务中时,用户画像中的特征就可以帮助我们评估对应业务事件的风险。在实践中,我们还发现,由“羊毛党”控制的账号,通常具有某些相似性,比如所用手机号码都来自某个号段,用户名都由三个小写字母,五个大写字母和四个数字组成。据此,我们就可以定义账号之间的相似度。这样即使一个账号首次出现,我们也可以使用用户画像,对其风险做一个大致的评估。
用户画像除了本身能直接应用于欺诈行为的判断外。还可作为网络图谱模型的输入,为欺诈网络的发现提供线索和依据。
规则引擎与机器学习模型
目前并没有一个通用的反欺诈框架可以识别并防范所有形式的欺诈。在每一个领域,金融欺诈都有不同的形式和特征,比如,一个应用于信用卡申请的反欺诈模型并不能直接应用于保险领域,亦无法直接应用于信贷领域。
最常用的反欺诈模型,是通过建立一个规则引擎或者机器学习模型来描述欺诈行为的特征,从而将欺诈行为从正常操作中区别开来。在反欺诈规则引擎中,这些甄别欺诈行为的规则依赖于从大量历史案例中总结出来的“专家知识”。例如,如果一个人申请贷款所用的手机号与其常用的手机号不一致,则这笔申请的欺诈风险就被认定稍高一些。
反欺诈机器学习模型,它指的是采用数据挖掘方法,基于历史数据(即,已知的欺诈申请和正常申请的数据)而建立的分类模型。这类模型的训练往往需要大量数据。
两者有何区别?规则引擎可以看作是一种特殊的最简单的机器学习模型:决策树模型。决策树模型具有极好的可解释性,因而,即使数据量不足,也可以通过专家知识来补全规则集。而广义上的反欺诈机器学习模型往往指的是采用更复杂的算法建立的模型(如随即森林、深度学习等)。这些模型的训练需要大量的历史数据并且其结果通常很难解读。
不论是规则引擎还是机器学习模型,都是从历史案例中发现金融欺诈时重复出现的个体行为模式。这个方法在很多领域被证明为有效(例如,用于审核个人还款能力意愿的信用评分模型),然而在解决金融欺诈问题时表现一般,原因有两个:
其一,金融欺诈的模式随时间不断演化和发展,而不仅仅是重复出现在历史案例中的个体行为模式;
其二,随着反欺诈技术的进步,金融欺诈越来越难以由个体完成,而是需要通过团伙有组织的进行。
关系图谱反欺诈
关系图谱提供了全新的反欺诈分析角度。
关系图谱是描述个体及个体之间关系的图。下图给出了一个移动支付场景的关系图谱示例,个体类型可以包括IP地址、设备、支付账户、账户联系人等,个体之间也可以存在不同的关系,比如IP登录行为、设备登录行为、联系人登记行为等。
关系图谱把不同的个体按照其关系连接在一起,从而提供了从“关系”的角度分析问题的能力。这更有利于从正常行为中识别出到异常的团伙欺诈行为。
关系图谱在反欺诈中的应用
接下来,我们来讨论关系图谱在反欺诈中的应用场景,主要分为监督模型和无监督模型两种情况。所谓的监督模型,指的是在已知“好”和“坏”标签的前提下,尝试从历史数据中,挖掘出欺诈团伙的典型特征和行为模式,从而能够有效的识别出金融欺诈团伙。监督模型虽然在预测准确性上有不错的表现,但是,实际情况中,“好”和“坏”的标签往往很难得到。因此,在没有标签信息时,无监督模型分析也变得尤为重要。当然,本文提到的分析方法只是关系图谱在反欺诈场景中的冰山一角,更多的算法模型需要结合实际业务需求进行设计和开发。
典型运用一:异常检测
异常检测是在无监督模型学习中比较有代表性的方法,即在数据中找出具有异常性质的点或团体。在检测欺诈团体的情况下,异常检测被认为是比较有效果的。
以贷款申请为例,许多团伙会选择共享一些申请信息,如提供同一个皮包公司的地址作为公司信息,或者联系人电话重合程度高。因此,在关系网络中,大多数的正常的个体应该是独立的节点,或者与另一个节点组成规模为二的团体(在这种情况下,多数可能为家人或亲友关系)。若出现三个点以上甚至十几个点关系密切时,则这些团体可被归为异常。
异常检测并不能够明确的给出一个团体是否欺诈,但是可以通过这种方法排查出可疑的团伙,从而进行调查。该算法并不是基于历史数据挖掘隐藏的欺诈模式,因而常常能够有效地识别出新出现的未曾记录的欺诈行为。
典型运用二:团体分群
团体分群即是对给定网络中的团体依据以上特征进行区分,从而挖掘有潜在欺诈风险的团体的方法。举一个简单的例子,以团体中的男性占比和年龄差者两个特征来对网络中的团体进行分群。作为以家人关系而形成的团体,一般由三人形成,多为两男一女或两女一男,男性占比33%或67%,并且年龄差一般为20-30岁。具有这种性质的团体一般为家庭团体,因而风险性较小。但对于人数较多,男性占比高,而且年龄差较小的团体,则有可能是欺诈团伙,需要进一步调查。
以上,我们对设备指纹、用户行为信息、规则引擎、机器学习、关系图谱等反欺诈技术做了一个简单的介绍。在反欺诈实践中,这些提取出来的特征,结合多层动态模型,能有效地识别出高风险薅羊毛行为,帮助企业打击“羊毛党”。
联系客服:17602399866(同微)网站:http://jxexplorer.com/home.html