注:内容整理自师徒网:刘鹏 计算广告学
广告中的计算问题
Find the best match between a given user u, in a given context c, and s suitable ad a.
从优化角度来看
- 特征提取:受众定向. 把u和c打上标签的过程
- 微观优化:CTR预测. 投是按照ecpm来投
- 宏观优化:竞价市场机制
- 受限优化:在线分配
- 强化学习:探索与利用。试的过程是探索,优化的过程是利用
- 个性化重定向:推荐技术
从系统角度来看:
- 候选查选:实时索引。新的广告能很快上线,超预算的广告能很快的下线
- 特征存储:No-sql技术
- 离线学习:Hadoop
- 在线学习:流计算。如上一个搜索词是什么
- 交易市场:实时竞价
在线广告计算的主要挑战
大规模
- 百万量级的页面,十亿量级的用户,需要被分析处理
- 高并发在线投放系统(几乎是最高的)
- latency的严格要求。如Ad exchange要求竞价在100ms内返回
动态性
- 用户的关注和购物兴趣非常快速的变化。
丰富的查询信息
- 需要把用户和上下文中多样的信号一起用于检索广告候选
探索与发现
- 用户反馈数据局限于在以往投放中出现的(a,u,c)组合,需要主动探索未观察到的领域,以提高模型正确性
在线广告系统的ROI
eCPM=CTR*CPC*1000
搜索、广告与推荐的比较
比较项 | 搜索 | 搜索广告 | 显示广告 | 推荐 |
---|---|---|---|---|
首要准则 | 相关性 | 投资回报率 | 投资回报率 | 用户兴趣 |
其他需求 | 各垂直领域独立定义 | 质量、安全性 | 质量、安全性 | 多样性,新鲜度 |
索引规模 | 十亿级 | 百万级–千万级 | 百万级 | 百万级-亿级 |
个性化 | 较少的个性化需求 | 较少的个性化需求 | 亿级用户规模上的个性化 | 亿级用户规模上的个性化 |
检索信号 | 较为集中 | 较为集中 | 较为丰富 | 较为丰富 |
DownStream优化 | 不适用 | 不适用 | 不适用 | 适用 |
在线广告系统结构
在线部分:
- 高并发投送系统。十毫秒级别的实时决策,百亿次/天的广告投放系统
离线部分:
- 受众定向平台。灵活的海量数据挖掘平台。前沿机器学习算法的分布式架构
- 数据高速公路:内部及外部TB级数据实时收集处理。快速给线上系统反馈,另以方便给BI人员分析。
- 流式计算平台:日志的准实时挖掘和反馈,反作弊和计价
在线广告系统模块
- Ad serving 来自用户和来自ad exchange的ad call
- Ad retrieval
- Ad ranking
- Stream computing
- Data highway
- Session log generation 根据用户的search、browse的信息做targeting,基础性日志. 应用:Data warehouse/BI, audience targeting, CTR/eCPM预测模型
- Data warehouse
- Customized audience segmentation
- Page attributes system
- Audience targeting
- Ad management system
作者:ywheel
本文出处:http://blog.ywheel.com/post/2013/08/23/computational-advertising-01/
文章版权归本人所有,欢迎转载,但必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。