“从用户眼中看世界”-Data Collection数据收集&在线电商的入门导览
目录:
前言-简说数字营销核心【流量】
什么是线上电商业务的数据收集?
数据收集对于在线电商&用户的影响?
数据收集对于电商卖家有哪些好处?
数据收集案例分享1-保险业
数据收集案例分析2-Running Warehouse定价策略
目前数据收集我们会遇到哪些问题?
数据收集需要什么样的代理基础框架?
数据收集成功的3个关键因素
3个判断访客是真人还是机器的方式?
解决网站审查屏蔽的3个解决方法
相关链接索引:
Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1
“流量为王”这四个字,对于电商来说,我想没有人不认可的。
但是流量分为泛流量和精准流量,我们实际需要的是精准流量,精准流量质量高转化好,但获客成本高;
如何高效大量获客转化且能成本可控?这就需要我们能够有逻辑性、计划性地制定营销计划,那么这里又涉及到我之前文章所说的数字营销的概念,不知道什么是数字营销的,先看这篇文章:《跨境独立站-数字营销入门导览&思维拓展》
数字营销的两个核心:用户和数据,只有把这两个核心读懂,才能真正掌握数字营销;
数据对于我们精准获客&营销决策来说是至关重要的!
那么接下来,我就从数据相关的问题开始入手,循序渐进地带领各位了解:
什么是线上电商业务的数据收集?
首先我们明确一个概念:什么叫做数据收集data collection?
简单来说,就是通过程序收集目标网站中对我们有价值的信息,例如电商网站的话就是价格、产品、销量、描述等等,这个收集信息的过程就叫做数据收集。
根据我之前的示意图,如果我们使用真实IP进行访问并发出大量的请求,那么多次以往很容易被目标网站判定为机器人或者异常,并且做出一些防御性手段。所以这个时候,我们就需要借助代理IP来完成这项工作。
(通过不断切换IP进行访问,规避网站针对性封锁限制。这里就有几个关键点:基础环境构架,大量的高质量IP,统一管理执行的IP管理工具等,具体详细内容接着往下看:)
数据收集对于代理IP的数量质量要求是比较高的,我们需要提前构建或者选择适合的工具与代理IP来配合使用,所以这也是为什么我推荐Brightdata的代理IP并且使用官方以代理ip为基础开发出来的数据收集器,来帮助我们的在线电商工作。
首先我们先来了解一个问题,数据收集在日常生活中的运用以及对我们(用户&商家)有什么影响:
我们以用户的角度来看:
互联网时代,理论上来说每个用户接收到的信息都是一样的;
但是随着技术的发展,网站会通过多项数据因素识别收集用户,例如IP、地理位置、使用设备、cookie等去标记区分用户,从而让每一个用户都会获得比较个性化的体验。
简单的一个例子就是国内常见的大数据杀熟,不同的手机用户机票报价不一样,购物售价不一样,这些就是很明显的用户数据“定制化”的体现。
简单的一个例子就是国内常见的大数据杀熟,不同的手机用户机票报价不一样,购物售价不一样,这些就是很明显的用户数据“定制化”的体现。
再以电商商家的角度来说:
在日常经营中,我们不仅需要监测自己网站的数据,同时也需要对竞争对手的网站进行监测,如果是能够实时监控,那么我们就能在第一时间针对对方的变化来做出策略性优化。
那在这个过程中,我们最容易碰到的问题,就是我们在设法获取竞对网站的数据时,因为一些技术,导致我们不能看到竞争对手最真实的信息,那么我们收集一堆虚假信息的话,对我们来说产生了不小的阻碍以及成本流失。
对于注重版权的品牌方来说:
针对知识产权、版权等问题,他们经常需要去监控审查;
然而下游零售商或者是一些仿牌侵权的商家为了销量或者价格方面等等的规避,会在他们的网站中设置机器人通过IP检测误导或者封锁品牌方的数据抓取爬虫进入“安全页”或者访问失败,而不是真正进入真实客户能够看到的页面。
所以如果我们没有真实有效的获取数据,那么就很难根据这些数据进行实时优化。(下图是用户看到的信息和品牌方看到的信息不一致)
由此可见,是否能获取真实且有效的信息对于我们来说,无论是用户还是商家都至关重要。
对于商家来说,目前数据收集主要有以下重要作用:
更好的了解客户(用户画像、行为习惯)
设定最优价格
紧跟市场潮流
保护品牌隐私版权
仓储优化
竞争对手数据分析
新品市场调研
等等
这只是一个大概的举例,可能还是有很多朋友不是太懂,到底数据收集的真实意义在何处,那么我这里举两个例子你就明白了。
在2000年Jason Tan担任澳大利亚最大保险公司之一的定价分析师,他们聘请了数十名“背包客”为他们手动收集数据,他们手动从竞争对手的网站上获取成千上万的保险代码,之后精算师会对数据进行进一步分析,去探究竞争对手公司是如何为每个参考评级因素进行收费;
(这里说的评级移因素指的是用户的年龄、性别、财产所有等,这些基本的因素通常会构成客户为保险支付的最终保费),所以Jason Tan利用这些数据通过模拟竞争对手向用户收取多少费用以及内部的其他相关数据进行整合后会输入到公司的定价优化平台,确保能在客户更新保单之前能够生成最优的价格。
在这个过程中不难看出,整个决策的主要参考依据之一,就是大量实时且真实的竞争对手数据信息。
当然,目前已经不需要请背包客来手动抓取数据了,Jason Tan借助了Brightdata的Data Collector以及Data Unblocker这两个自动化工具,能够快速实时高效地抓取到数据。
正如他说的:Do not put you money on the table.
什么意思呢,就是在有限的预算范围内,将成本最大利益化,或者说通过一些方法,尽可能的减小不必要的开支,例如能够自动化的就减少人工开支等等。
在上文中,Jason Ton招聘大量的背包客手动收集数据,通过精算师处理大量的数据,然而人工统计出决策难免会有一定的滞后或者出错;
随着技术的发展,目前们已经能够实现自动化执行这些复杂费工的任务了,不过这个不是我今天说的重点,那想要了解自动化执行数据收集以及自动化任务的相关内容,下一篇就是。
一个经销品牌跑鞋的全球送货的网站Running warehouse,他的竞争对手就是线下品牌实体以及线上品牌店。
作为消费者来说,他们在购买前通常会访问很多的网站,特别是能在不同平台找到同款的时候,举个例子,一双adidas的跑鞋,在U这个网站上售价是$139.95;
那么我们可以看下其地方的,例如adidas官网,售价是$140
我们再来看下澳大利亚最大的零售网站Rebel的售价是多少?可以看到是$259.99
最后我们来看看亚马逊上的价格表现,在亚马逊上是$215.7+$26.25的配送费,很明显亚马逊的价格是经过优化的,亚马逊连上运费的报价,介于中等位置,这样能够是他们借助平台的信任优势获得更多的订单,同时,这个26.25美元的运费则是吸引用户注册Amazon Prime的最佳接口,因为只要成为Amazon Prime会员能够体验全年急速物流以及免运费。
而且正常的报价来说,人为设置价格并不会以7这样奇怪的数字结尾,这几乎可以肯定是价格检测优化工具的作用。
综上所述,running warehouse是几个平台中最便宜的,在价格方面他也是最具有优势的。
所以我们日常卖家在定价时,就需要收集数据,来参考判断。
在定价策略阶段,如何能够在同样竞争力下,争取到一个最高的价格获得尽可能高的利润,这些东西如果单纯靠人为计算策划,很难控制的精准,连上我之前说过数据收集问题,如此大的数据集、大的工程量和成本之下,我们肯定需要借助自动化的工具来协助我们实现需求;同时,也需要保障我们整个项目的稳定运行。
基于这种需求,我们首先需要考虑的就是具备一个好的数据收集的基础架构。
那么我们目前遇到了什么问题,又是什么什么构成了数据收集的基础架构?我们来看看:
随着技术的进步,屏蔽技术越来越复杂;
当我们访问网站的时候,网站会根据IP、地理以及速度限制
(爬虫速率)以IP为基础的区分主要是网站通过检查IP类型来了解到底是正常用户还是机器人在访问网站;
数据收集的流程和我们正常访问网站的流程是一样的,我们利用高质量的代理IP,让自己这次请求完全伪装成一个真实的用户在访问,唯一区别在于数据收集具有规模性、目的性、规则性。所以像brightdata能够提供的代理IP,就是做数据收集比较好的选择,而我之前教大家的日常的养号环境的搭建,其实也是基于这个原理的。
所以我们需要一个高质量的代理基础框架来支持我们做这件事情。
(Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1)
我们要达成目的解决问题,就需要有一套完善的代理基础架构;
代理基础架构由以下3个方面构成:IP类型、规模配置、全球性覆盖
Brightdata的IP主要分为4个类型,足够丰富,数量巨大,
【数据中心、动态住宅、静态住宅、移动IP】
1.1 数据中心:
一共有750万个ip并且遍布全球95个国家,最大的优势是只要你正确使用它,那么数据中心的ip是足够便宜的,唯一的缺点就是ips池数量较少。
1.2 动态住宅ip:
目前总共拥有超过7200w个,基于Brightdata点对点的技术,它几乎覆盖了全球大部分的地方,有一个常识就是,任何大规模的代理操作都需要非常广泛的代理全面覆盖,所以Brightdata的住宅ip是不错的选择。基本每个月有700万ip的增长。
1.3 静态住宅IP:
算是住宅ip中真正静态的IP,他们相当于Brightdata通过合法的手段从各个国家供应商中通过各种方式合作放入Brightdata中闲置托管的,其最大的好处就是足够的稳定,且真实,但是他的缺点就是数量较为稀少。
1.4 移动IP:
就是海外真实用户使用的手机设备上的IP,足够真实,但是仅限于用户闲置状态时使用,所以每一个IP的存活时间都不一定。
“我们想要实现这些方面的需求,就需要专业技术和资源作为支撑,但是一般的电商团队或者说刚起步的独立站卖家,是不具备专门聘请一个专业技术团队的条件的;Brightdata(https://bit.ly/3DM8bH1)作为 全球最大的代理服务提供商,基于他庞大IP环境下的数据类产品,值得我们试一试。”
通常,我们的数据抓取量级不是以个算的,那么如果处于多个并发大量执行的数据收集任务中,就非常考量我们提供服务的平台的承接管理能力。
Brightdata能够快速提供任意数量的代理,并且以不限额不限速的方式支持我们建立任意数量的同时并发的连接;
所以如果你需要做一个非常大的行动,那么就需要有这样的足够数量和管理系统的代理供应商才能够支撑你的行为。
我们如果需要全球性的电商数据收集,或者说针对某一个地区进行收集,那么势必需要有这个地方的真实高质量IP;
Brightdata中的IPs根据地理位置呃不同,都分别存放在不同位置的数据库中,那么当我们使用不同地区的IP去访问目标网站时,网站就会检测这个行为的IP是从哪个国家地区来的.
举个例子,我们现在需要从使用美国的一个服务器来收集数据,
那么当我的这个ip被检测出来是一个数据中心ip,那么目标网站可能就不会以正常用户来对待,如果我们只是单一的ip,那么很有可能很快就被阻止,然后这个数据中心ip以及在美国的服务器就会被划分,那么接下来我们获取的所有信息都会是以美国用户的视角得来的,当然也有可能是网站针对这个IP设定的其他信息,那么如果我们需要其他的国家地区的能够获取的信息,那么就需要我们有其他国家的ip和服务器,这就需要我们有足够数量和规模的IP。
以上这三个点构成了数据收集的基础构架,基础构架之后,我们就需要了解,如何评判一个数据收集器收集是否成功?那么有以下3个关键因素:
首先我们要明白数据收集成功的3个关键因素:
稳定高质量且多样化的IP基础环境;
自动功能强大的代理管理器;
主动&被动的指纹生态管理系统;
那么如何评判这3个方面是否符合要求?我依次来讲解:
因素1:需要稳定高质量且多样化的IP基础环境
对于稳定高质量且多样化的IP基础环境来说,4个核心因素决定数据收集的成功与否:
【速度、规模、成功率、精确度】
1.1 优质IP评判标准-速度:
指的是什么?速度指的是访问者发出请求返回的这个过程的时间,在各个网站之间是有差距的,这种差距主要来自于网站的基础设施建设,有几个方面来考量:
是否收集的数据是实时的,如果基础架构做的不好,那么或许响应会有一些延迟;
是否能够最大化利用现有资源的价值-花更少的时间更高的效率去进行收集数据的动作;
举个例子,当目标用户进入多个网站在筛选价格产品的时候,结果某一网站请求返回的时间就超过了5分钟以上,等待时间过长容易跳出,那么其实这个网站就已经失去了竞争力;
1.2优质IP评判标准- 规模:
针对规模有如下3个情况:
对请求访问的流量有一定的监控和管理,支持使用监控网站峰值:例如销售旺季,以防流量过大,请求过多导致网站不能够正常访问,这在正常的数据收集中是不被允许的;
始终保持数据收集的质量:在大量高频次同时并发情趣运行数据收集的过程中,能够始终数据质量;
没有最高限制:对于数据收集没有过多的限制,理论上说只要能承受,规模是无上限的;
1.3 优质IP评判标准- 成功率:
成功率主要根据以下3个方面来进行考量:
实时成功获取准确的数据、随需随取;
轻量构建和调试,我们作为电商卖家,肯定不愿意吧很多的精力放在数据基础架构的维护和调试,我们需要余出更多的时间来做其他更加有价值的工作,那么brightdata的工程师们就将构建和长期维护作为他们的主要工作,我们只需要根据需求,简单的操作,就能获得高质量的数据。
合理的价格:数据收集主要以流量和成功率来计算,那么成功率越高所需要支付的费用就会越低,如果抓的数据成功率只有50%,那么其实你所需要支付的成本是双倍的。
1.4 优质IP评判标准- 准确性:
我认为准确性是4个核心中最重要的一个点,只有信息准确,那么前三点才你那个成立,否则你的整个数据分析、决策、定位、实施都是错误无用的
光是获取到信息或者抓到数据其实是不够的,你需要确保抓取到的信息是准确的、真实的。举个例子,正如我之前所说的经销商或者仿牌亦或者一些电商公司,他们在不断的更改信息、价格、策略,那么如果我们抓取到的是错误的信息,很有可能就会影响我们接下来的策略决定。
因素2:自动功能强大的代理管理器
如果我们需要支持大量的数据收集的工作,并且同时并发或者需要在其中设置不同的规则以及检测规避一些问题,那么就需要一个自动化智能统一管理执行的管理系统,那么Brightdata的代理管理器就具备这些能力,除了能够统一管理所有的代理IP,还能够实现其他所有功能例如能够解决下面的问题:
识别禁令(Identify Bans)
能够检测出多种类型的禁令,排除故障并且修复潜在问题。例如捕获、重定向、封锁、隐藏、重复错误、超时等等,那么如果代理管理器遇到这些问题,就可以使用不同的代理IP进行重试请求。
管理用户代理(UA)
对于良性爬虫是至关重要的,用户代理能让目标网络识别出访问IP的使用设备、操作系统等,以响应不同的界面,例如PC端和手机端,就是不一样的。
管理控制代理
有一些爬取项目需要在同一个代理下保持会话,那么我们就需要使用代理管理器配置代理以同意这个情况。
增加延迟
随机的延迟以及良性节流能够有效掩盖正在数据抓取的行动。
地理位置定位
有些时候我们需要设定某些特定地理位置的代理IP去访问网站
多种类型的线路
通过使用不同类型的代理IP发送请求,自定义规则以获得最具性价比的数据结果。
减小带宽
使用代理管理器像正则表达式或者自定义规则以减少带宽流量的产出。
有关于这些问题的详细介绍,我会在后天的数据收集&代理管理器配置及案例实操中,详细讲解为什么这些相关问题那么重要。。
Brightdata代理管理器目前win系统只需要简单的安装,而mac或者linux系统也只需要简单的配置就能使用,详细的mac配置教程同样我放在今天发布的第二篇的文章当中进行实操讲解。
目前的指纹技术能够检测到访问者的真实使用情况,而我们在收集数据的过程中,如果比探查出来我们的真实身份其实是大大不利的,那么Brightdata的Data collector就能很好地解决这个问题,让目标网站并不能检测出我们究竟是谁,大多时候,会以真实用户去对待我们的IP。
具体的操作比较复杂,我就不深入去探讨,因为我自己本身对于代码和程序也是小白状态,我们只需要明白原理即可。
另外,Brightdata的工程师也提出了一些建议:
数字指纹的常规原则
1.我们首先要去了解目标网站请求到返回中各项信息,以统一请求的各个方面来达到模仿“目标”请求
2.不要随机更改属性
3.不要随意的更改内容,不要增加额外的东西,只是正常的去查看,因为如果你增加一些日常正常流程中一般不会出现的行为,那么请求很容易被检测到后被拒绝。
综合以上3点,我们大概率就能部署一个成功率较高且操作比较简单的数据收集系统。
当然,并不是说有了这些我们就能一本万利,随着技术在不断迭代,网站屏蔽技术升级同时愈发复杂。但是目前主要还是按照以下3种方式,来对访问者进行区分划分后做出一系列的应对措施。这个我在上文也已经讲过,这里在拉出来点一下:
IP地址检查
Geo地理位置
速率限制(爬虫速率)
IP地址检查
站首先会检查这个访问请求的IP类型是什么样的,那就能确定到底是从什么养的环境来的,是机房IP,还是带有cookie的还是说是住宅类型的还是说是真实的用户访问,那么移动端的用户又会呈现出不同的响应效果,所以如果我们要获取正确的信息,就要用正确的环境进入网站。
GEO地理位置
这个其实是基于地理位置的一个数据库,这个ip是从哪里来的,哪个国家的IP,那么根据这些网站所呈现的东西也会不同,例如语言、货币、价格、物流货运政策等等,那么有很多信息会因为地理位置改变而改变。
所以举个例子,如果我想查询最便宜的航班机票,那么就可以从不同的地理位置去查询以筛选最便宜的票价;另外有一些网站可能对某一些地区国家的用户不开放,同样如果你用这些地方的IP进入访问,那么大概率是会被阻止的。
再比如我们在做一些广告测试的项目,某些国家我是不想投放的,或者说某些音乐某些视频在某些国家涉及到版权问题我需要单独屏蔽出来,那么我们就需要用到代理IP去检测,以确保我的广告以正确的语言在正确的地理位置展示。
速率限制(爬虫速率)
速度限制在开发初期主要目标是为了防止网站多种类型的攻击,目前网站如果检测到某一IP在短时间内大量爬虫,一样会采取封锁的措施,那么这个时候我们使用代理管理系统以及IP基础构架,在同一时间内通过智能轮转的方式,进行访问请求,这样会很大程度上防止我们的请求被封锁,因为如果一个IP被封锁后,其余多个也被封锁且被网站识别出来自同一个范围的IP,那么在某一段时间内这一整段的IP都会被封锁,可以说连带其他在同一段的IP都有被封锁的可能性,会给我们的数据收集操作以及其他方面造成比较巨大的干扰。
首先针对这种情况,我们的解决方法就是:
准备充足的IP池(建议设置比预估值多一点的数量。)
尽可能经常都切换和轮换你的IP;
保持测试和优化
举个例子,假如在测试阶段,测试得出这个网站的屏蔽时长大概是3分钟左右,那么我们可以设置规则,在2min30s的时候采取轮换新IP的措施;或者有一些非常严格的网站,那么我们就需要每一次请求就切换一次IP,所以我们尽可能多的做一些测试,抓住一些规律后,可以设置一些规则去有效规避或者说尽可能减少IP被封锁的概率;
当然,在使用Brightdata的时候,他们已经把大部分的IP进行调整,改组,所以即使有部分IP被封锁,那么接下来的IP被关联封锁的概率几乎为零。
同时,Brightdata也有其他几个工具配合数据收集器来进行使用,当你开始操作后,遇到封锁情况,那么可以使用Brightdata的Data unblock这个工具,他的主要用处就是解锁各种原因的封锁情况,我们使用unblock之后99%能解。
Brightdata推出了一个”100%可用时间“的政策,意思就是,当你在实施爬虫的时候,由于该IP对应供应商出现一些特殊的问题例如断电、调试等等,为了不影响爬虫结果,那么Brightdata会直接置换响应数量正常运行的IP补充进IP池,以保证这次爬虫的正常运行;(有关于IP池轮转是什么时候会进行轮转,我们可以自行设置规则)。
所以综上所述,通过案例分析我们可以明白数据收集分析对在线电商的重要性和必要性,同时,本文也比较详细和明确的讲解解释了有关于数据收齐器的基础要求、条件等,其实对于一个无代码基础的卖家来说,这种借助现有工具来直接进行操作的,是最有利的。能够大大减少我们的成本开支。