七大点击率预估方法总结（附代码）_技术 _ 頭條網

说明：C 表示点击数，I 表示展示数，p 表示CTR

1. 普通方法

p = C / I

直接使用帖子的点击数除以曝光数，存在的问题很明显：

1. 可能有的帖子曝光数很少，甚至为 0，以至于得不到准确的 CTR。至于为什么会有0，这和日志统计有关系，因为曝光和点击日志是分开记录的，而日志ETL又是以自然单位时间来进行的，所以对于某个自然时间窗口，帖子的点击事件捕获到了，但是它的曝光事件出现在前面的时间窗口。

至于为什么会很少，那是因为在自然竞争下，帖子的曝光分布绝大多数不是平均的，甚至也不是正态分布的，而是头部很高、尾巴很长的长尾分布。

2. 直接使用帖子的点击数和曝光数，没有考虑曝光事件和点击事件里面的噪音，或者说系统误差，甚至是作弊行为。

2. 贝叶斯平滑

p = C + α / (I + α + β )

贝叶斯平滑，实际上是给了每个帖子一个先验的点击率，这个先验的点击率就是 α / ( α + β )，意思就是在正式做实验之前，我们认为已经做了 α + β 次试验，成功的次数为 α 。

至于先验概率参数怎么获取，雅虎的专家们曾经发表过一篇论文[1]提供了一些思路。

因为二项分布的先验分布是Beta分布, 这里可以看成是根据若干个Beta分布的样本估计Beta分布的参数。

参数估计代码：

3. 时间衰减

感谢雅虎专家们，同样是上面那篇论文中提到的时间平滑（我叫它时间衰减）。意思其实是随着时间推移，发生在过去的点击事件要做衰减，原文的说法是加权平均，过去的点击权重小。我实现的时候还考虑了时间范围。注意衰减我只对点击进行衰减。

4. 位置纠偏

位置纠偏或者叫位置衰减，其与时间衰减的原理类似，即发生在不同时间、空间上的点击事件对我们要预测的用户行为影响程度是不同的，这一点和subsampling有很大关系。北冥乘海生@刘鹏老师在《计算广告》课程中有讲到，使用归一化点击率来预测广告的点击率能够消除展示位置带来的影响。是的，这里的归一化就是要让帖子的每一次点击事件的影响转化为帖子这次点击事件相对同样位置点击事件的相对影响，朴素一点讲，

你牛不牛逼要和你同一起跑线的人比，你做的事情牛不牛逼要和相同环境条件下的事情比。

5. UCB方法

ucb方法，ctr=普通ctr加1.96*普通CTR标准差，标准差的计算可以探讨，暂考虑使用这一种；

主要原理是根据实时反馈预估帖子的曝光收益，假设我们还可以用点击率来描述的话。那么实时点击率计算公式如上，实质上是均值加上标准差，类似于 2δ 置信区间()，只不过这里取得是置信区间上界。为什么这样可以？或者说最优？为什么是2倍不是3倍？我暂时也不清楚。

6. Tompson采样

1. ctr=pymc.rbeta(1 + a, 1 + b)；

2. 帖子的点击事件服从伯努利分布，点击率先验服从Beta分布

3. 加1是防止a或者b为 0 ，好像为 0 会出问题

贝叶斯平滑是把所有帖子放一起估计一个先验分布，Tompson采样是根据观测到的点击次数 a

，未点击次数 b 来生成一个服从Beta( a, b ) 的 r 。

这样操作为什么可以？是不是最优？

7. 数据清洗

其实这算不得一个方法，但是其重要性比一个方法可能还要大，所以单列出来说。

总结：

1. 在算法实践中发现，可比性是一个贯穿始终的重要概念，不可比的东西无法形式化地放在同一空间进行计算。

2. 从过滤策略中发现，能够显著减小整体不确定性的东西比较重要。

相關文章:

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪