《京东技术解密》不得不说之"用户画像"

前言：较少关注javaeye搞得试读活动，因为自身知识有限，或不了解，或没兴趣。关注“京东技术”还是缘起4个月前失败的面试。

试读第17章节“少数派报告，大数据洞察未来”是真正吸引我的，因为过去6年BI的工作经历，对数据仓库，数据分析多少了解一些。现如今叫“大数据”，听起来高大上，我还是愿意叫”经营分析系统”，简称“经分”，叫起来更亲切一些。

经分系统非常复杂，详细说起来估计10本“京东技术”也写不完。其中“用户画像”一节我逐字看一遍。书中做为“创新应用”来介绍用户画像，其实这个并不新鲜，很多企业都在做，但画像的丰满度和分析应用效果各不相同。

“用户画像”：是一幅全方位，多纬度的用户“肖像画”，是用户的特征库，用技术语言来说：就是给用户打标签，标签越丰富，越清晰越好。

比如：年龄，性别，职业，收入，喜欢颜色，家庭成员数等 ;
比如：近3个月的平均每单的订单额，订单次数，在线时长等。
比如：价格敏感度，是否经常投诉，对物流速度的等待耐心等等。
我们当然期望了解用户的方方面面，难免会让用户有“暴露隐私”的感觉。但所有这些特征数据都来自“正常途径” ，即“正常的合理的接触点”，比如用户的线上操作，用户的投诉咨询，送货员对用户的感观评价（谈吐，衣着等），或者跨企业合作，交换用户特征（如QQ的好友数等）。

上面说到的“接触点”，是所有能直接，间接接触到用户，并且容易收集到用户信息的环节。

Java代码  收藏代码
呵呵，细思极恐吧，可能你昨天刚买个充气娃娃，今天就被女神约出去吃饭啦，这不是巧合哦。  

一个简单的画像库就会有几百个特征标签，并且这些特征有固定的，有定期变化的，还有随时变化的。这些标签会增加（来自更多的接触点数据，更多的划分维度），会减少（去除一些无用标签，或者过期标签）。书中没有讲京东的用户特征数据是如何存储的。但显然画像数据不适合用传统的行数据库来存储，列数据库或者K-V数据库更适合。

首先画像数据以查询为主，数据更新只需要级小粒度的事务性，不需要大粒度事务。
再者强调极高的并发查询性能。
对聚合统计性能要求较高。
支持多途径（多数据源）的数据更新。

存储是为了查询，但目前的多维分析工具基本都是固定维度分析，并不适合对原始画像（维度多变）进行分析，需要把原始画像转化成固定维度画像，然后再装入Cube，灵活性和及时性都不好。京东的Cube是什么样子，也不知道书中会不会讲，这个是比较期待的。后面讲到精准营销，既然讲“精准”，这个当然依赖于准确的用户定位。核心仍然是“用户画像”数据库。我觉得画像数据是企业的核心资产，会随着企业经营而越来越有价值，甚至直接当成企业的一种商品出售。

《京东技术解密》不得不说之"用户画像"

发布日期：14 February 2014

标签