網站分析

求闻百科,共笔求闻

网站分析 (Web Analytics) ,是对网站訪客行为进行研究的行为。

目前市面上有许多不同的行销商,皆提供网站分析软件以及服务

网站分析技术

目前有两种主要收集网站分析资料的技术手段。第一种方法,即所謂'日志档分析──意即读入伺服器纪录其所有交易的日志档进行处理。第二种方法,加网頁标籤──利用插入JavaScript于每一頁来告知第三方的伺服器某頁被网頁浏览器所读取。

网站伺服器日志档分析

市面上各家网頁伺服器自发展初随时都会纪录其所有的交易于一个日志档裡头。这种特性不久就被网管意识到可以透过软件读取它,以提供网頁流行度的相关资料;从而造成网站日志分析软件的兴起。

90年代早期,网站统计资料仅是简单的客户端对网站伺服器请求 (或者訪问) 的记数值。一开始这是挺合理的方法,因为每个网站通常只有单一个HTML档案。然而,随着图形进入HTML标準,以及网站扩增至多重HTML档案,这种记数变得沒什么帮助。最早真正的商用日志分析器于1994年由IPRO发行。

90年代中期,两种计量单位被引入以更準确的估计人类于网站伺服器上的活动总数。它们是网頁点閱数(Page Views) 以及訪问量(Visits,或者工作阶段(Session))。一次的网頁点閱数定义为客户端对伺服器提出某单一网頁读取请求,恰好为对某一图形请求的相反;而一次的訪问量则定义为来自于某一唯一已识别的客户端对伺服器一连串请求直到閒置一段时间──通常为30分钟──为止。网頁点閱数与訪问量仍旧在报告上十分常见,不过现今它们被当作是过于简单的量度。

90年代末期,随着网络蜘蛛与机器人问世,伴随着大型企业以及网际网络服务提供商使用代理伺服器动态指定IP位址,鑑别某网站单一訪客变得更困难。对此,日志分析器以指定Cookie作为追蹤訪问量的对策,并忽略已知的蜘蛛机器人的读取请求。

网頁快取的广泛使用也造成日志分析上的问题。如果某人再度造訪某頁,第二次的读取请求通常由网頁浏览器快取达成,因此网站伺服器端不会接受到此请求。这意味著该訪问者浏览过该站的“足迹”丟失。快取与否可于设定网站伺服器时克服,不过这可能导致降低该网站的效能。

加网頁标籤

由于对日志档案分析于快取存在下準确性的关注,以及渴望能实现把网站分析当作是种外包的服务,导致第二种资料收集方法:加网頁标籤,或称网虫(Web bug) 的出现。

90年代中期,网頁计数器已经普及──这些计数器以包含在网頁中的图像出现,显示多少次该图像被读取过。而图像内容就是显示大约该頁被拜訪次数的数目。90年代晚期,这种做法延伸至包括一个微小不可见图像,而非可见的。并且,透过 JavaScript,图像请求的某些关于网頁和訪客的讯息被传递到第三方伺服器方。这些资料随后被网站分析公司处理并产生詳細的统计资料。

网站分析服务也代管指定cookie到使用者的过程。这种方式可以鑑别各个唯一訪客初次以及随后的拜訪。

随着Ajax为主解決方案普及,一种利用不可见图像的替代方案实现了从读取頁面“回电”伺服器的机制。在这个情況下,当某网頁被网頁浏览器读取,该頁某部分Ajax 代碼将致电回伺服器并递送有关用户端的资讯,随后被送到网站分析公司做彙整。这在某些方面还是有漏洞,因为某些浏览器限定哪种XmlHttpRequest物件可与伺服器联系。

网站日志分析与加网頁标籤的比较

网站日志分析与加网頁标籤两者都已经很成熟可供有意公司进行网站分析。在许多情況下,同一家网站分析公司甚至同时提供这两种方法。那问题便回到公司该选用哪种方法。两种方法各有优缺:

网站日志分析优点

网站日志分析较加网頁标籤为优的主要有下列几点:

  • 网頁伺服器一般已经产生日志档案,故原始资料已经存在。而透过加网頁标籤方式蒐集资料网站得做些改变。
  • 网頁伺服器依靠每次网頁需求与回应的处理发生。加网頁标籤依靠訪客网頁浏览器帮助。而佔某些比例的浏览器可能达不到 (浏览器禁用 JavaScript 便是一例)。
  • 蒐集来的资料位于公司自己的伺服器,而且它是标準格式,而不是某种私有格式。这使得该公司日后要换它种分析程式,或者与其他程式整合,以分析过去历史资料变得容易。加网頁标籤方案可能遭服务商封锁
  • 日志档亦包括来自搜寻引擎蜘蛛的訪问资讯。虽然无法被归为客户行为的一部分,这些资料对搜寻引擎最佳化来说很重要。
  • 日志档亦包括请求失败的资讯;加网頁标籤只有纪录该网頁成功被读取时的事件。

加网頁标籤优点

加网頁标籤较网站日志分析为优的主要有下列几点:

  • 每当网頁载入时 JavaScript 会自动执行。因此对快取顾慮较少。
  • 加入額外资讯到 JavsScript 比较容易。这些稍后可以被远端伺服器蒐集。举例来说,訪客的螢幕大小,或者购买的商品单价。而网站日志分析,网站伺服器无法正常的蒐集到的资讯只可透过改变网址来蒐集到。
  • 加网頁标籤可回报对网站伺服器不发生请求的事件,例如与Flash影片片段间的互动。
  • 加网頁标籤服务管理了指定cookie給訪客的过程;至于日志分析,伺服器得特别设定才能达成。
  • 加网頁标籤能帮助沒有自己网站伺服器的某些中小公司。

经济因素

网站日志分析大部分总是在公司内部进行;加网頁标籤也可以,但它以第三方提供的服务方式更为常见。介于这两种模式的经济方面差异亦常为公司考量采用因素。

  • 网站日志分析传统包括一次性软件购买。然而,许多软件商也采用最大年度网頁浏览数为主的、处理額外资讯額外付费的计价方式。
  • 加网頁标籤大部分采月费模式,虽然某些厂商提供安裝加网頁标籤不另收网頁浏览数费用的方案 (例如 Google Analytics)。

至于哪种方案比较便宜常常取決于公司内对此道技术专精程度、选择哪家厂商、欲对网站活动了解程度、欲对资讯型态了解深度、以及个别网站本身对统计资料的种种需求而定。

两者混用

许多公司目前出品的软件蒐集资料同时透过日志档与加网頁标籤。透过混用方式,它们的看準该方法会产生比二者其一更準确的统计资料。第一个混用解決方案是由 Rufus Evison 于 1998 年提出,并随后随着成品上市他成立公司专门处裡日渐準确的混用法[1]

其他方法

其他资料收集方法多多少少有人试,不过达不到广泛的利用。这些包括整合网站分析程式进网络伺服器,以及透过嗅探介于网頁伺服器与外在世界间的网络流蒐集资料。封包嗅探用于许多最大型的电子商务站点,因为它不需改变网站或者伺服器,并且日常营运无法与之妥协。它亦提供较好的即时或者日志档格式资料,并且容易餵资料給资料仓储与将资料加入客户关系管理系统与企业资料裡。

加网頁标籤也有另一种方法。除了从使用者方取得资讯,当她或他开启网頁时,亦可能让脚本于伺服器端工作:伺服器端先接收使用者资讯后才递送网頁资料。

关鍵词定义

在网站分析领域裡,并沒有放诸四海皆同的定义,故业界正努力同意一些相当有用且在某些时候可靠的定义。已对此领域有贡獻的主要团体有 Jicwebs (网络标準工业委员会,Industry Committee for Web Standards) / ABCe (发行量稽核组织电子部,Auditing Bureau of Circulations electronic, 英国与欧洲)、WAA (网站分析协会,美国),至比较小范围的 IAB (互动广告局,Interactive Advertising Bureau)。这并不妨碍下面列表的成为有用的指引,只是解释稍稍会有点模糊而已。WAA 与 ABCe 两者都提供更多可靠的列表,以供查考。

  • 点击(Hit) — 一次对来自网頁伺服器上档案的请求。只有在网站日志分析才有。网站有多少点击量通常用来声称该站流行度,不过该数目极度的使人误解并且戏剧性的过度高估其流行度。单一网頁通常包括多重 (通常一打) 个别的档案。每个档案随网頁的下载亦被记入点击,故点击量实际是个过度武断的数字,它反映了个别网頁的复杂度,而非实际上的流行度。訪客总数或者网頁点閱数提供更实际与正确的流行度估计。
  • 网頁点閱数(Page View) — 对某档案,其档案型态于日志分析中定义为网頁,的一次请求。亦定义为加网頁标籤法中脚本被执行一次。在日志分析中,随着所有一网頁需求资源 (图像、.js 、与 .css 档案) 的读入,一次网頁点閱率可能产生多次的点击。
  • 訪问量 (Visits) / 节区(Session) — 来自同样唯一已识别用户的一系列的请求并附失效时间。一次訪问預期会包括多重的点击 (于日志分析) 与网頁点閱数。
  • 首次訪问 / 首次节区 (First Visit / First Session) — 一次来自从未曾造訪过訪客的訪问。
  • 訪客 / 唯一訪客 (Visitor / Unique Visitor) — 于預定时间区段 (例如:天、周、或月) 唯一已鑑别的对网頁伺服器产生要求 (日志分析) 或者閱览网頁 (加网頁标籤) 的客户端。唯一訪客于时间区段只有计算一次。訪客可以多次拜訪。唯一訪客目前是仅有强制的变量系统在发行量稽核局电子部 (ABCe) 审核利用[2]
  • 重复訪客 (Repeat Visitor) — 某訪客至少有一次先前造訪纪录。介于现行与最近造訪期间被称做訪客嶄新度 (visitor recency),它以天计算。
  • 新訪客 (New Visitor) — 某訪客沒有任何先前造訪纪录。这定义产生相当多的误解 (参见以下常见迷思一节),并且有时为首次訪问分析所取代。
  • 印象 (Impression) — 一次印象是为每次某广告载入使用者画面上。任何时候你看到网站广告橫幅,那就算一次印象。
  • 单体 (Singletons) — 仅仅某单一网頁被检閱的訪问数。虽然对变量系统或者其本身部是那么有用,单体数是各种不同形式“点击欺騙”的指标,同时它亦常用以计算跳出率;还有在许多情況下用来鑑别自动机 (就是“机器人”)。
  • 跳出率 (Bounce Rate) / %离开率 (%Exit) — 指的是訪客于某頁进入相同网頁离开,期间未拜訪任何其他頁,佔多少造訪的百分比。

网站分析常见迷思

旅馆问题

旅馆问题一般是网站分析使用者遭遇到的第一个问题。这个术语最早由 Rufus Evison 于电子变量系统高峰会 (Emetric Summit) 其中一次解释问题中提出。现在已经十分普及用于简单地描述网站分析问题及其解決方案。

该问题是一个月中裡每日的唯一訪客群累加成该月相同唯一訪客群总数。这个情況出现在沒经验的使用者对其使用的分析软件结果产生疑问。实际上它不过是其中公制定义裡简单的特性。

对此疑问视觉化的方法是,想像一个旅馆,该旅馆有两个房间 (房间甲与房间乙):

第一天 第二天 第三天 总计
房间甲 张三 张三 李四 2 位唯一使用者
房间乙 王五 李四 王五 2 位唯一使用者
总计 2 2 2 ?

如表格所示,旅馆在三天内每天有两个唯一使用者。据此加成总合所有天数得到六。

在此时段裡每个房间有两个唯一使用者。据此加成总合所有房间得到四。

实际上在该段时间裡旅馆只有三位訪客。问题出在某人如果待两晚照每日算人头一次的话将被计算两次,然而如果按照整段时间计算的话只被计算一次。任何网站分析软件将于规定的时段正确的加总这些,因此导致当使用者试著比较总数时,问题就来了。

新訪客 + 重复訪客并不等于全部訪客

另一个网站分析常见的迷思是新訪客与重复訪客加总应该是訪客总数。再一次说,在小规模如果訪客们都个别閱览情況下事情就变得清楚明瞭,不过这仍旧造成对分析软件不工作的大量抱怨,因为使用者并不了解变量系统。

这裡的罪犯是新訪客。当你从时间前进的角度考慮一个网站,实际上并沒有新訪客这种东西。如果某訪客于某日第一次拜訪,随后于同一天回到该网站,这些人实际上于该日同时是新訪客和重复訪客。所以如果我们都把他们看作是个个体,那该归新訪客重复訪客的哪一类?答案是两者都是。故变量系统定义在此有瑕疵。

一个新訪客并不是一个个体;它只是网站计量的一个事实而已。为了这个理由,最容易的方法是概念化这问题同一方面为首次訪问 (或者首次区间)。这解決了定义衝突与了解混淆。不会有人把首次訪问数量加到重复訪客数量以得到訪客总数。这变量系统将会有相同数目的新訪客,不过还是不要加进这个辞会更清楚。

回到我们之前的问题,有许多我们选择个体的首次訪问,亦有来自相同个体的重复訪问。首次訪问量与重复訪问量将会相加成该日的总共訪问量。

网站分析方法

Cookie的问题

在历史上,加网頁标籤分析解決方案供应商已经使用了第三方的 Cookie,就是 Cookie 是由供应商网域送出而非点閱网站本身的网域。第三方的 cookie 可以处理越过公司内部多重无关网域的訪客,因为 cookie 总是由供应商伺服器处理。

然而,第三方 cookie 在原理上允许穿过不同公司网站追蹤个别使用者,这让分析供应商能从某些客户合法授权保留资料的网站活动萃取个人资讯,以帮助该用户认为他是匿名浏览的其他网站做活动分析。虽然网站分析公司否认干这档事,其他公司像做网站广告条幅公司已经这样做了。对cookie隱私的关注因此导致显著的少数派使用者屏闭或者删除第三方的cookie。在2005年,许多报告指出约 28% 的互联网使用者屏闭第三方 cookie ;并且 22% 删除 cookie 每月至少一次 [3]

大部分加网頁标籤解決方案供应商现在转移至提供至少使用第一方cookie (cookie由被訪问网站子网域指定) 的选择方案。

另一个问题是 cookie 删除。当网站分析依靠 cookie 来鑑别唯一訪客,统计资料便依靠持续存在的 cookie 作为容纳唯一使用者辨识碼的载体。当使用者删除 cookie 时,他们通常同时删除第一方与第三方的 cookie。如果这件事在与网站互动的时期发生,使用者将在他们下次互动点被视为首次訪客。沒有持续存在与唯一的訪客识别碼,转换率、点击流分析、以及其他随时间依靠唯一訪客活动的变量系统,不可能正确。

Cookie 常用是因为 IP 位址对使用者而言并不一定是唯一的,并且它可能与很大的一群机器或者代理伺服器分享。其他识别唯一使用者的方法技术上具有挑战性,并且可追蹤的观众有限,或者可视为不可靠的。Cookie 会被选上是因为,排除使用某些科技如间谍软件之外,它有着门檻最低的共通来源。

于活动追蹤方面,唯一登陆頁与引薦頁间的比较

于大部分网站分析包裡透过外部网站引薦的广告关系产生活动数量的追蹤报告显著的比利用登陆頁面来得不準确。

引薦頁是不可靠的资讯来源其原因如下:

  • 它们可能是或可能不是由网頁浏览器所提供。
  • 它们可能是或可能不是由网頁伺服器所纪录。
  • 它们可能被网頁浏览器有意的擾乱过,以达成使用者希望匿名浏览的目标。
  • 它们可能被重定向扭曲或者隱藏,不管有意或者无意。

参见

参考资料