搜档网
当前位置:搜档网 › 今日头条算法

今日头条算法

今日头条算法
今日头条算法

无论2016年科技圈热门的噱头有多少,对数据基础设施方面的耕耘仍然是决定实力的关键。阿里之类电商数据帝国自不待言,今日头条、一点资讯等在资讯数据领域的开拓更加值得注目。比起电商的物流数据,资讯算法驱动与用户数据分析是更加“触及灵魂”的事情。

1月15日,在头条主办的“珠海未来媒体峰会”上,技术出身的CEO张一鸣走到台前,向台下一众媒体人发表演讲:《我眼中的未来媒体》。他纵横媒体发展史、国内外现状,从古腾堡到贝索斯,从App Store到Instant Articles,看似雄辩地证明媒体人把内容输送到算法推荐平台是大势所趋。

一点资讯紧跟其后。1月20日,在其与凤凰博报联合举办“凤凰一点通”年度影响力自媒体盛典上,一点资讯宣布打通两家平台,资源共享。一点资讯副总裁吴晨光面对台下上百位自媒体人,也在极力渲染一点资讯的读者画像等算法技术。鹬蚌相争刚刚白热化,已有一只黄雀在身后——腾讯的同类产品“天天快报”已经低调运营了一段日子,不知道在憋什么大招。

人们应该记得,2014年多家传统媒体因版权问题对今日头条发起声势浩大的诉讼。2015年11

月也有媒体发起对一点资讯的版权诉讼,但反响很小。再到如今,媒体人坐在台下为张一鸣鼓掌捧场。也许真是时势变化,技术的发展已经让内容生产者从惊恐到不得不适应。

头条不是百度,推荐引擎有别于搜索引擎。其实头条所自豪的算法推荐也不是这几年才出现,谷歌、百度都是前辈,为什么是头条让算法成了颇具神秘感的明星?

头条出名以来,一直有人吐槽推荐算法不准确、制造信息茧房,一些评论者宣称装了就卸载。我也有同感。不过就像帝吧远征之人力洪流带来的震撼,今日头条巨大的流量也促使我重新审视算法洪流。别忘了头条招聘启事上写着:“ 对用机器学习算法解决现实问题有强烈的渴望和坚定的信仰。”

尚显粗糙的算法,正在成长的生命

我先抛出对算法的总体观点,有三个层面:

首先,算法是一种类似金融资本的东西,是方法。就像财务投资者不必追求理解公司具体产品本身,只在乎能否增值。算法不管内容实质是什么,只管能否数字化、分类集合、反馈优化,是处理海量信息的方法。与资本一样,它能提升效率,也与个体有矛盾。

第二,张一鸣在演讲中说Facebook把技术支持变成了一项接近水、电、煤气这样公共服务的事情。再进一步,当算法深入生活的方方面面,积累的智能本身将成为基础设施。KK(凯文·凯利)在新书《必然》里说到,未来的人工智能网络(主要包含算法)将会成为“如同电力一样无处不在、暗藏不现的低水平持续存在”。比如办公室的桌椅和电脑都会识别你,记录你喜欢的姿势,在你一走进办公室就调整好姿态,打开你常用的软件、网站等等。

但对于资讯内容传播来说,这还不够。内容不是桌椅,桌椅只要伺候我们,内容却是装载了他人灵魂的存在,要和我们互动、砥砺。这就是第三层,算法要想触及灵魂,还得努力。

头条到底是什么?有人已经说了它不是新闻客户端,而是信息分发平台。仅此而已?

张一鸣演讲称:

“将对媒体在今日头条平台上的用户数据进行更详尽的统计分析。除了性别、终端、年龄、地域分布等用户属性基本分析外,还将提供用户的兴趣和情感倾向分析。通过这一功能媒体可以知晓受众喜欢哪些分类的文章、用户最喜欢文章里的哪些关键词、关注你的人还喜欢哪些内容等等。”

这话本意是针对微信,微信公众平台目前恰好只能提供受众的“性别、终端、年龄、地域分布”分析。兴趣和情感,这是算法更高的追求。

头条的销售人员在推销自家产品时,可以告诉一家汽车制造商:用户的阅读行为数据能够展现出哪个地方的人最喜欢你们的哪一款车,我们将把你们的广告推送给合适的读者。今日头条的同类产品“一点资讯”也在做同样的事情。创始人郑朝晖曾对内容总监吴晨光强调:“比阅读重要的是阅读者的行为。”

所以头条们在做什么?今日头条是伪装成新闻客户端的用户行为数据收集器和分析器!(这感

觉就像有位美国政治学者说的,现代中国是一个伪装成民族国家的文明帝国。)每一篇新闻都应该被看作一道对用户的测试题,用户的每一次点击、评论都是一种回答,都被系统记录,和关键词、Dom标签、作者、阅读时间、网络环境(wifi还是4g?)等等一起构成多维数据矩阵,刻画出这个

读者的特征。每道“测试题” 都很粗糙,但是就像KK的“蜂巢思维”所言,海量资讯一起测试出的用户特征就比较准确。而且用户因为是在无意识中完成测试的,答案比较真实。这就是头条们的技术和商业模式核心所在。

读者难免会质疑,你倒是收集好数据了,可是给了我们什么?读者也不需要流量,要的是信息的准确和善解人意。

我们不妨把算法看作一个正在成长的生命。

普通读者这些年对算法推荐的直观感受并不佳:浏览了某个淘宝页面之后再去其他网站,页面也会浮现同类产品的广告,如果浏览的是情趣用品呢……在头条看新闻也很容易遇到这种情况——相似资讯不断涌来。(可参见虎嗅上这个批评:《我为什么看衰内容的个性化推荐?》)

粗解今日头条的算法

经常被头条员工拿出来说的简单算法是AB测试和双盲检验。

算法架构师曹欢欢和增长团队的张楠都公开讲解过,如何用AB测试来判定一个产品修改的效果。比如一个按钮是用红色好还是用蓝色号,那么就各向1%的用户发布两种颜色产品,哪个下载得好就

推哪个。如果用在新闻上,就是同一条新闻由编辑给两种标题,测试哪个标题点击好。

双盲检验,是先让算法判断一个新闻的分类和推荐对象,然后让两个编辑分别检验,如果结果一样,就通过,不一样就请第三人判断并汇报程序员,重新调整算法。在我看,这背后是一个类似神经算法的“刺激-反应”模式——根据算法反应对错调整某个参数(权重),也是一种人工智能里常见的“半监督式学习”。这大概也是张一鸣口中人机结合、发挥人的智慧的证据之一。

不过在这个例子中,编辑的角色比较被动,像工厂流水线上的螺丝。

我注意到今日头条在拉勾网打出一个百万美元年薪的广告,招募算法架构师,要求擅长:贝叶斯学派相关算法,超大规模离散LR,深度神经网络,各种tree-based的算法等。其他算法工程师岗位要求大同小异。

这些在技术人士眼中并不特别,很多IT公司必备,多和概率统计学有关。比如贝叶斯算法,常用的邮件客户端上就有出现。

Foxmail截图

我想尽我所能简单介绍一下这位百万年薪工程师具备的算法知识,不从数学专业角度(专业角度我也不懂,否则我就去应聘了~),而是从用户角度思考“算法想要什么”。

以招聘启事中的tree-based算法为例。为了处理信息,算法的初始诉求往往是对海量信息做分类聚合。人类眼中的词汇在它眼里都是参数(维度),一千个不同词汇组成的一篇文章就是一千个维度组成的一个向量。然后机器在代数世界里衡量不同向量的相似度——简单向量距离分类法、贝叶斯算法、 KNN(K最近邻居)算法、线性回归、逻辑回归……

维度太多,于是算法进化了,不再把每个词当作维度,而是把html代码里的节点标记(DOM)作为维度,这样就大大减少了维度个数。人类看见的标题、文字、图片,被代码放在不同的DOM节点里,比如head,比如body,比如TR、TD(表示表格的代码),构成树状结构。算法以这些节点为维度,用各种算法对比不同的文档异同——k means(硬聚类)算法,minimax(极小化极大算法)……再进一步,引入图论范畴的模式树,就有了更高级的tree-based算法。

下图是个常见的html dom展示,不需要看懂,只要了解机器眼中的文章是什么样子。

(机器眼中,各种标记最重要,然后通过各种公式来处理。图片来自爱范儿,公式来自酷勤网)

算法五花八门,我说的也不准,主要看气质——算法这个孩子不知道新闻说了什么,只知道哪些新闻是同类,哪些是热点(点的人多当然就是热点,机器可以通过一种“组合”算法来判断,可以参见南京大学新闻传播学院助理研究员、奥美数据科学实验室主任王成军的文章《“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程》)。文章标签、关键词等也起到作用。

算法的行为很有趣,好像在努力用各种办法躲避对内容灵魂本身的认知,只通过外表的形式特征去猜内容的相关度。

读者身上没有关键词,没有标签,算法如何把握?数学家们有办法,贝叶斯算法就是一种。

经典的贝叶斯问题在小学奥数里就有(美剧《生活大爆炸》里也出现过):假如分别有A、B两个口袋,口袋A里有7个红球和3个白球,口袋B里有1个红球和9个白球,现从这两个口袋里任意抽出了一个球,且是红球,问这个红球是来自口袋A的概率是多少?

让我们换一个更具新闻性的表达方式:假如已知韩国每5年发射一次卫星且每次爆炸失败率是60%,朝鲜每2年发射一次卫星且每次爆炸失败率是40%。现在从朝鲜半岛传来一声卫星发射失败爆炸的巨响,请问这枚火箭来自朝鲜的概率是多少?

根据贝叶斯公式【P(B|E) = P(B) × P(E|B) / P(E))】就可以推导出这个概率来,也就是逆向计算概率。

(图片来自“机器之心”网站)

恰好头条自己提供了一个范例:

2015年10月,在中国传媒大学新媒体研究院和今日头条联合举办的“洞见数据的力量——电视媒体高峰论坛”上,一位叫做安娜的女士说:

头条有个独特的算法能推算用户的年龄,即使你没在头条订阅。系统根据已确定年龄人群的动作、特点和兴趣做了一个模型,由协同原则判断读者是否符合这个模型,这时机器先预判是否为该年龄段的用户,同时机器再根据你的阅读动作最终确定年龄段。

这个独特的算法可能就是贝叶斯算法(当然也许不止一种算法,比如也可能存在专门用于挖掘不同数据集合间关联性的Apriori算法等)。我猜想算法架构师会预先根据心理学、社会学统计数据以及以往读者点击数据,构建一个用概率来描述的人格特征模型,比如男性模型的特征之一是在阅读新闻时点击军事新闻的概率是40%,而女性模型是4%。一旦一个读者点击了军事新闻,算法就开始逆推TA的性别,加上TA点击其他新闻的行为数据,综合计算,就能比较准确地判断TA的性别。综合IP地址(地理信息)、点击时间、评论参与、点赞行为这些明确的信息,就能区分出不同读者的取向、兴趣。

原理不难理解,但做起来考验智慧和耐心。

但是,算法并不像它自己吹嘘得那么神,它有很大的困境

困境1:它并不能区别风格,也无法产生风格

算法团队本身是较难产生风格的。头条、一点资讯和天天快报究竟有多少区别呢?

风格既人,风格即灵魂。鸡蛋个个不同但那不是风格,只是原始特征。风格是一种需要积极建构的气质,是生气灌注的行动。

传统媒体都是有风格的,没风格的不是死了,就是僵尸媒体。

下面这个微博截图体现了风格:

美国的纽约时报和赫芬顿邮报同一个“美国梦”,也具有显著不同的气质。有自己相信并追求的价值观,追求新闻事实时候有非如此不可的冲动,写作时有难平之意化为不休的诉歌,这才是风格。

风格是原创,是观点交锋,是议程设置,是话语创新。算法还没学会这些,因为设计算法的技术人可能还不太懂这些。

这还不只是差异化竞争问题,更重要的是产品的内在矛盾。头条们不止是平台,因为伪装不是白装的,新闻客户端的表象与算法机器的矛盾是无法摆脱的“原罪”。形式不是内容之外可有可无的事物,形式就是内容。头条们注定不可像没有首页推荐的微信公号平台一样,真的只做完全中立,没有一点情感和立场的平台。人们都认为你是资讯客户端,你就要做资讯媒体的事情,哪怕和算法的性格有矛盾。但矛盾不是缺陷,矛盾是推动自身进化的动力所在。

他们想有风格。

起步较晚的“一点资讯”在努力表现自己的风格,比如宣称自己是做兴趣搜索,有别于头条的算法推荐。吴晨光宣称一点资讯是“百度+头条”:

“正如一点资讯董事长刘爽所说,如果头条是造纸术和印刷术,那么一点资讯就是火药和指南针。这两个APP都以‘千人千面’为核心竞争力,因为确实像造纸术一样改变了传播。但一点比头条更近一步:所谓火药,是通过搜索唤醒了沉睡在APP里的信息,你可以通过搜索、订阅,两步完成你对任何你感兴趣内容的定制。至于指南针,我这样理解:因为一点后台有非常精准的用户画像,所以可以把最符合你兴趣的内容分发给你。用我们内部的一句话说:大事件作出共鸣,个性化要像蛔虫。”

可以看出来,作为后起者,一点资讯一方面不得不通过头条来定义自己,同时又必须有所区别,特别强调搜索。不过从用户直观感受来讲,这种区别是很难看出来的。头条一样有搜索功能,也会记录读者的搜索行为。可能,郑朝晖有雅虎的经历,在搜索上会有独到经验。

至于“指南针”,只是一个更生动的比喻。所描述的“用户画像”,可以猜想也是和贝叶斯算法之类大同小异的方法。

看拉勾网上“一点资讯”的招聘,唯一的算法师招聘广告要求:

“文本分类和语义理解,社交网络分析,网页搜索,推荐系统等领域的特定算法,理解自然语言处理、机器学习、网页搜索,推荐系统,用户数据分析和建模的基本概念和常用方法。”

应该说,所谓“特定算法”大家都类似。具体的公式和策略五花八门,但那只是鸡蛋的不同,最多在比拼谁的算法最state of the art。能区别风格的还是操作者的思想理念、媒体情怀和舆论场的洞察判断力。同样的算法,具体开发时候也要看悟性、灵性。谷歌与百度在用户看来,最直观的区别也还是理念和情怀的不同。

相比之下,吴晨光强调一点资讯在提高自媒体门槛的做法,这种筛选是由媒体人团队做到的,我认为更重要。

“最近两个月,一点资讯封掉了大概7000多个号。古玩、健康、财经等,都是重灾区。我们的竞争对手,在放宽入驻条件,但我们相反——高标准,并且实行严格的分级制度。从一级到六级,级别越高标志着你的内容越优质,这样你得到的展示量就越大。”

这是在用人的智力为算法提供可贵的参数。

头条大举招募媒体人入驻平台,并加大对自媒体平台的投入,这是有意识地抢占底盘,获得内容版权,也是无意识地要让自己更生动。

可是算法尚不能理解这种风格化的努力。

困境2:引导读者走进信息的茧房,沉沦于本我

我试着用社会心理学的语言来描述算法独尊主义带来的信息茧房问题。

算法和读者一起,沉沦于本我的漩涡。本我的欲望让你去点击了一条惊悚的社会新闻,但本我不是人性,对本我的自省和超越才是人性。反复涌来的社会新闻会让读者生厌。这个一直被人质疑的问题似乎没有得到透彻的说明和改善。

求证过员工自己对这个问题的看法,他们会告诉你不喜欢这样的信息就用手指划掉,系统就会减少此类信息推送。我在虎嗅上也看到类似的回答,如下图:

算法只计算异同关系,只机械地问你要还是不要,而没有计算诸如相对关系、主从关系等等复

杂的关系。就像一个不太会恋爱的直男,听到对方说no的时候,并不善解对方真正的意思。

我同意虎嗅上这个读者的说法:

算法能否采用更好的策略,除了数学思维本身,还在于算法对人性的理解。非线性思维才能贴

近人性——哪怕是庸常之辈,也会渴望有一只手能托起自己的头颅。假如用户多点击了几次惊悚社会新闻,算法可以继续推送同类资讯,但是一定要显出一种“我猜你其实也是个有高尚趣味的人”的姿态——可以于惊悚新闻信息流里突然插入一条洗眼资讯,可以是正能量,可以是对立面,可以是新闻分析。既然瀑布流里面可以插入广告,为什么不能插入和用户点击趣味相反的文章?

我不了解具体算法设计问题,也许需要更复杂的集合算法。每条资讯有自己对应的镜像,就像本我对应的超我,就像西斯武士对应的绝地武士。不甘做机器保姆的小编可以参与打造这样的集合,提升机器灵魂的同时提升自己,共同进化。彼此是对方的启蒙者,而不是做一个被动的仆人。也许

会有偏差,会有博弈,但魅力就在这里。在《失控》看来,人机之间要有一定的对抗才能共同进化。也许算法在等待读者自己走出沉沦,但对抗就要求算法更弹性一点,更抢先一点,主动试探读者是否想要逆风而行。

用资讯测试读者,是把读者看作已完成的人格。而人性是永远在路上的未完成之物。人性和人

类的创造物,需要彼此激发,螺旋上升。分类聚合算法只是把自己看作一个置身事外的观察者,正如科学试验里的观察者,以为自己不在事件之中。但这是不可能的,算法已然在参与人性的构建,只是采取了消极的方式——人以群分,每个人沉沦在自己的趣味里。后果是读者的极化,老死不相往来,像黑客帝国里的人茧。人茧衰弱的同时,系统的活性也在衰减。

极端分化的人群与极端分化的信息一样,缺少活性。而搜索引擎则没有那么主动地去极化人群。人在搜索时候主动性更强,我倒希望一点资讯是在利用搜索引擎收集读者的主动性方面有所建树,以此刺激算法。

我们可以用贝叶斯算法本身的问题来解释这个危险:

研究者John Horgan在《科学美国人》上发表了一篇文章《被追捧和被歪曲的贝叶斯理论,究竟有什么大不了?》(由“机器之心”网站提供中文翻译),讲述了贝叶斯算法自身的一个矛盾(具体论证过程此处免去,可参见上面的文章链接):

“贝叶斯理论没什么神奇的。归根结底,它就是在说,你的信念只和它的证据一样有效。如果你有好的证据,贝叶斯理论就能得到好结果。如果你的证据不足为信,贝叶斯理论也就没什么用。进入的是垃圾,出来的也是垃圾。”

对贝叶斯算法来说,初始确定的概率很重要,比如前面提到“40%的成年男性喜欢阅读军事新闻”,这个概率判断就是初始确定的概率,能通过社会统计获得比较接近现实的数字,一般也比较符合常识。但是对于很多事情,比如“上帝存在”,初始概率就难说了,有人会定为百分百,有人会定为零,于是最终结果不过反映了给出初始条件者自己的主观愿望。即便“40%的成年男性喜欢阅读军事新闻”,表达的也是现有的社会状况。最终的资讯推荐结果则反过来强化了这个初始概率——爱看军事的就更多地看到军事新闻。认为性别是后天建构的女性主义者恐怕就会讨厌这种刻板状况。

所以,目前的算法是不太懂得体贴各种人类需求的。未来它应该让不同的趣味,不同的人群相逢。

今日头条应该收购豆瓣而不是入股各种媒体

张一鸣演讲批评微信朋友圈信息推荐效率低,在某种程度上是对的。在朋友圈获得优质信息的效率取决于你的朋友质量,有精彩朋友才有精彩资讯,如果都是晒海滩的当然没意思。头条不受社交关系限制,对于缺乏丰富社交层次的人来说,获得信息效率高。可是缺少社交属性和社交关系的积累也是头条的软肋所在。

腾讯目前正在低调运行“天天快报”,与微信平台以及腾讯媒体开放平台分开,未来未必不会整合。那样就可以结合社交推荐和算法推荐,尤其可以利用朋友圈里各种专业人士、学者点赞推荐或阅读撰写资讯的行为(只要他们愿意公开)。帝国的反击迟早要来,头条们的算法武士应该尽早打造具有熵增能力的资讯关系,并发展一种把“兴趣”人格化的算法社交方式。

算法需要人,这话不止是说需要社交关系,而是策划者的想象力。我见过有人围绕豆瓣上的影片打分,手工收集打分者读书数据,非常有趣。比如给电影《胜利大阅兵》五星的人喜欢看什么书,给一星的人又看什么书。在这个基础上,如果加以聪明的算法,就可以激发出新型社交模式,不过这里不展开。

蓝媒汇报告称头条购买了不少媒体的股份,比如世界说、新榜、华尔街见闻等等。从算法的逻辑讲,我以为这不是最优的收购方向。在我看,与那些拥有社交数据的媒体比如微博合作才是对的。头条们应该收购豆瓣。不是说要做社交,而是要拥有社交数据并利用算法激活之。豆瓣之类集聚的人之想象力,为什么不能和机器算法互相滋养?

这些技术起家的公司已聘请资深媒体人加盟,头条请了林楚方,一点资讯请了吴晨光,都是媒体圈很有名气的主编级人物。不过媒体人目前的作用主要是公关,撬动自己掌握的丰富媒体资源,或者利用自己的表达能力替不善言辞的技术人表述产品。

我觉得,如果媒体灵魂和算法的结合暂时困难的话,何方先做智库?眼下官方对智库建设青睐有加,头条们的数据再加一点媒体眼光,就可提供很多技术落后智库无法提供的报告。

改进了协同过滤推荐算法的推荐系统的制作流程

图片简介:

本技术介绍了一种改进了协同过滤推荐算法的推荐系统,属于推荐系统技术相关领域。该推荐系统包括输入模块、推荐算法和输出模块三个部分,输入模块用于输入用户个人基本信息、用户对项目的评分和用户历史信息等;推荐算法根据输入信息分析用户兴趣爱好,寻找最相似用户和项目,给出预测的评分结果;输出模块依据用户输入请求,输出相应的推荐项目。其中改进部分是对推荐算法中冷启动问题进行优化。针对新用户、新项目和新系统不同的冷启动问题,提出了优化解决方法。 技术要求 1.一种改进了协同过滤推荐算法的推荐系统,其特征在于,包括输入模块、推荐算法和输出模块;输入模块用于输入用户个人基本信息、用户对项目的评分、用户历史信息和当 前的点击操作;推荐算法根据输入信息分析用户兴趣爱好,寻找最相似用户和项目,给 出预测的评分结果;输出模块依据用户输入请求,输出相应的推荐项目到客户端。 2.如权利要求1所述的一种改进了协同过滤推荐算法的推荐系统,其特征在于,所述推荐算法为协同过滤推荐算法,所述协同过滤推荐算法冷启动实现方式为:一、提供非个性 化的推荐,非个性化推荐的最简单例子就是热门排行榜,可以给用户推荐热门排行榜, 然后等到用户的反馈足够多,数据收集到一定的时候,再转换为个性化推荐;二、利用 用户的注册信息,提供的年龄、性别、职业等数据做粗粒度的个性化;三、利用用户的 社交网络账号登录,导入用户在社交网站上的好友信息,然后给用户推荐其好友喜欢的 物品;四、利用物品的内容信息计算物品相关表,利用专家进行标注。 3.如权利要求2所述的一种改进了协同过滤推荐算法的推荐系统,其特征在于,在所述推荐算法中,用户点击商品链接后,推荐系统会记录用户的点击行为,然后系统计算用户 间相似度,找出与当前用户最相似的前N个用户,接着在这前N个用户中找出当前用户没有点击的商品,将点击率最高的几个商品加入推荐列表,最后将推荐列表发往客户端向 用户展示推荐的商品。

今日头条分析报告

目录 业务模式:聚焦内容分发,借助广告、电商实现流量变现 (1) 产品定位:以算法提升内容分发的准确度和用户粘性 (1) 商业模式:基于精准用户画像,借助广告、电商实现流量变现 (3) 产品矩阵:从图文到短视频,从国内到海外 (6) 产品布局:从图文到短视频 (6) 图文:今日头条稳居个性化内容分发龙头 (6) 视频:三大产品形成合力,用户规模行业第一 (9) 市场扩展:产品复制+投资并购推动海外布局获得初步成功 (16) 机遇&挑战:面对更多竞争和监管压力,公司快速迭代和成长 (18) 市场竞争:科技巨头加速入场,公司面临持续压力 (19) 业务完善:持续强化内容端布局,弱化潜在业务风险 (20) 产品扩展:不断强化自身产品社交属性 (22) 风险因素 (23)

插图目录 图1:互联网用户信息获取模式变迁 (2) 图2:今日头条算法推荐技术 (2) 图3:今日头条产品矩阵 (3) 图4:2014-2019年信息流广告市场规模及预测 (3) 图5:信息流广告市场主要参与者 (4) 图6:今日头条广告投放案例 (4) 图7:2018年2月主要信息流应用月活跃人数 (4) 图8:2017年9月主要信息流应用人均使用时长 (4) 图9:今日头条广告运作模式 (5) 图10:2017年移动广告网络综合实力TOP 10 (5) 图11:主要信息流平台广告单次点击成本 (5) 图12:2015-2017原生视频广告收入及占比 (6) 图13:2015-2017网络视频广告收入及增速 (6) 图14:移动资讯信息分发三大模式 (7) 图15:今日头条APP月活跃用户数及环比增长 (8) 图16:2017年11月、2018年2月综合资讯APP月活跃用户数排名 (8) 图17:今日头条与腾讯新闻月活跃用户数对比 (8) 图18:2017年7月资讯应用人均单日使用时长 (9) 图19:2014-2017今日头条人均单日使用时长 (9) 图20:2017年7月主要综合资讯APP人均单日打开次数 (9) 图21:今日头条旗下短视频产品布局 (10) 图22:2018年1-2月主要短视频平台月活跃用户数 (10) 图23:2017年7月主要PUGC平台月活跃用户数 (11) 图24:2017年7月主要PUGC平台人均单日使用时长 (11) 图25:2017年Q2-Q3主要移动短视频平台渗透率 (11) 图26:2017年70后最爱APP TOP10(按TGI) (11) 图27:2017年80后最爱APP TOP10(按TGI) (11) 图28:2017年5000万MAU以上APP增速TOP 10 (12) 图29:火山小视频与快手月重合用户数、重合用户人均单日使用次数及使用时长对比 (12) 图30:2018年1月短视频APP用户年龄分布 (12) 图31:2018年1月短视频APP用户消费能力 (12) 图32:2017年90后最爱APP TOP10(按TGI) (13) 图33:2017年00后最爱APP TOP10(按TGI) (13) 图34:全球图片移动数据流量(TB/月) (13) 图35:全球视频移动数据流量(TB/月) (13) 图36:国外主要社交软件年龄分布 (14) 图37:国外主要社交软件平均用户互动率 (14) 图38:Instagram滤镜效果示意图 (14) 图39:抖音视频特效编辑界面 (15)

基于协同过滤算法的电影推荐系统设计

高级数据挖掘期末大作业

基于协同过滤算法的电影推荐系统 本电影推荐系统中运用的推荐算法是基于协同过滤算法(Collaborative Filtering Recommendation)。协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。 电影推荐系统中引用了Apache Mahout提供的一个协同过滤算法的推荐引擎Taste,它实现了最基本的基于用户和基于内容的推荐算法,并提供了扩展接口,使用户方便的定义和实现自己的推荐算法。 电影推荐系统是基于用户的推荐系统,即当用户对某些电影评分之后,系统根据用户对电影评分的分值,判断用户的兴趣,先运用UserSimilarity计算用户间的相似度.UserNeighborhood根据用户相似度找到与该用户口味相似的邻居,最后由Recommender提供推荐个该用户可能感兴趣的电影详细信息。将用户评过分的电影信息和推荐给该用户的电影信息显示在网页结果页中,推荐完成。 一、Taste 介绍 Taste是Apache Mahout 提供的一个个性化推荐引擎的高效实现,该引擎基于java实现,可扩展性强,同时在mahout中对一些推荐算法进行了MapReduce 编程模式转化,从而可以利用hadoop的分布式架构,提高推荐算法的性能。 在Mahout0.5版本中的Taste,实现了多种推荐算法,其中有最基本的基于用户的和基于内容的推荐算法,也有比较高效的SlopeOne算法,以及处于研究阶段的基于SVD和线性插值的算法,同时Taste还提供了扩展接口,用于定制化开发基于内容或基于模型的个性化推荐算法。 Taste 不仅仅适用于Java 应用程序,还可以作为内部服务器的一个组件以HTTP 和Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。 下图展示了构成Taste的核心组件:

今日头条分析报告

今日头条分析报告 姓名:郭宇航 学号:1410050042 专业:网络与新媒体 指导老师:汪海

目录 一:今日头条简介 (3) 1.简介 (3) 2.创始人介绍 (3) 3.头条特色 (3) 二:内容介绍 (3) 1.新闻头条 (4) 2. 话题专区 (4) 3. 视频社区 (4) 三:运营模式和盈利模式 (5) 1. 运营模式 (5) 2. 盈利模式 (5) 四:目标群体及市场分析 (5) 1. 目标群体 (5) 2.市场分析 (6) 五;与同类比较 (6) 1. 市场占有率 (6) 2.与网易新闻和Zaker的比较 (7) 六:使用心得和市场前景 (9) 1. 使用心得 (9) 2. 市场前景 (9) 七:总结 (9)

今日头条分析报告 一:今日头条简介 1.简介 今日头条是一款基于数据挖掘的推荐引擎产品,它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一。它由国内互联网创业者张一鸣于2012年3月创建,8月发布第一个版本。 2.创始人介绍 张一鸣毕业于南开大学软件工程学院;2006年加入旅游信息搜索公司“酷讯”,曾任“酷讯”技术委员会主席;2009年创立房产信息搜索公司“九九房”;2012年创立“字节跳动”公司并担任CEO。张一鸣与今日头条团队希望产品能在移动互联网时代,像造纸术和印刷术一样,改变信息的传播。 3.头条特色 今日头条是基于个性化推荐引擎技术,根据每个用户的兴趣、位置等多个维度进行个性化推荐,推荐内容不仅包括狭义上的新闻,还包括音乐、电影、游戏、购物等资讯。 二:内容介绍 总共分为以下几个板块:新闻头条、话题专区、视频社区。

推荐系统的常用算法原理和实现

推荐系统的出现 推荐系统的任务就是解决,当用户无法准确描述自己的需求时,搜索引擎的筛选效果不佳的问题。联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对他感兴趣的人群中,从而实现信息提供商与用户的双赢。 推荐算法介绍 基于人口统计学的推荐 这是最为简单的一种推荐算法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户。 系统首先会根据用户的属性建模,比如用户的年龄,性别,兴趣等信息。根据这些特征计算用户间的相似度。比如系统通过计算发现用户A和C比较相似。就会把A喜欢的物品推荐给C。 优缺点: ?不需要历史数据,没有冷启动问题 ?不依赖于物品的属性,因此其他领域的问题都可无缝接入。 ?算法比较粗糙,效果很难令人满意,只适合简单的推荐 基于内容的推荐 与上面的方法相类似,只不过这次的中心转到了物品本身。使用物品本身的相似度而不是用户的相似度。

系统首先对物品(图中举电影的例子)的属性进行建模,图中用类型作为属性。 在实际应用中,只根据类型显然过于粗糙,还需要考虑演员,导演等更多信息。 通过相似度计算,发现电影A和C相似度较高,因为他们都属于爱情类。系统还会发现用户A喜欢电影A,由此得出结论,用户A很可能对电影C也感兴趣。 于是将电影C推荐给A。 优缺点: ?对用户兴趣可以很好的建模,并通过对物品属性维度的增加,获得更好的推荐精度 ?物品的属性有限,很难有效的得到更多数据 ?物品相似度的衡量标准只考虑到了物品本身,有一定的片面性 ?需要用户的物品的历史数据,有冷启动的问题 协同过滤 协同过滤是推荐算法中最经典最常用的,分为基于用户的协同过滤和基于物品的协同过滤。那么他们和基于人口学统计的推荐和基于内容的推荐有什么区别和联系呢? 基于用户的协同过滤——基于人口统计学的推荐 基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的相似度,并基于“邻居”用户群计算推荐,但它们所不同的是如何计算用户的相似度,基于人口统计学的机制只考虑用户本身的特征,而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的口味和偏好。 基于物品的协同过滤——基于内容的推荐

今日头条推广详解

今日头条广告 今日头条信息流广告是什么? 今日头条信息流类似于传统新闻APP或网站的新闻列表页面,不同点在于依托今日头条的人工智能算法,不同用户的头条首页呈现的资讯因人而异、因时而异、因地而异,且资讯量巨大,每次刷新首页都会呈现不同的信息内容。 信息流广告的广告位在哪里? 广告会展现在今日头条以及头条系的其他APP中。 开屏广告:应用开启时加载,展示固定时间(静态3秒、动态4秒、视频5秒),展示完毕后自动关闭并进入应用主页面的一种广告形式,按CPM计费。 信息流广告:就是在今日头条的资讯信息流中依托人工智能实现个性化的广告推荐形式。 详情页广告:展示在文章详情页的一种广告形式,在版权文章下方,相关阅读上方。 基本名词解释 刷次:用户在今日头条信息流界面,手指每次下滑刷新,叫做一个刷次 CPT:Cost Per Time,即按时长计费广告。按时长计费是包时段包位置投放广告的一种形式。GD:Guarentee Delivery,保证递送的广告,即保量广告,按展示量定价; CPM:Cost Per Mille,千次展示成本,即按展示付费; CPC:CostPerClick,每个点击成本,即按点击付费,如关键词广告; oCPC:optimization CostPerClick,目标转化成本,仍按点击付费; 今日头条产品优势 【机器算法】 行业领先的个性化机器推荐算法,机器通过分析人的特征与内容的特征将两者进行匹配,实现个性化精准推荐,我们将帮您把商业信息精准推荐给真正有需要的人,以减少广告浪费。 【数据厚度】 到目前为止,今日头条旗下产品总日活用户超过3亿,单用户日均使用时长超过76分钟,单用户日均启动约9次,我们将每一个用户样本数据进行精细化管理,提供用户行为定向、基本属性定向、关键词定向等多种定向方式,帮助您找到最合适目标受众。 【千人千面】 每天30万条信息千人千面一次分发,深度分析用户兴趣偏好,建立清晰人群画像打造丰富场景,对每一位用户进行个性化资讯推荐,满足用户多样化需求,为您打造品效合一的一站式服务。

今日头条推广详解

今日头条信息流广告是什么? 今日头条信息流类似于传统新闻APP或网站的新闻列表页面,不同点在于依托今日头条的人工智能算法,不同用户的头条首页呈现的资讯因人而异、因时而异、因地而异,且资讯量巨大,每次刷新首页都会呈现不同的信息内容。 信息流广告的广告位在哪里? 广告会展现在今日头条以及头条系的其他APP中。 开屏广告:应用开启时加载,展示固定时间(静态3秒、动态4秒、视频5秒),展示完毕后自动关闭并进入应用主页面的一种广告形式,按CPM计费。 信息流广告:就是在今日头条的资讯信息流中依托人工智能实现个性化的广告推荐形式。 详情页广告:展示在文章详情页的一种广告形式,在版权文章下方,相关阅读上方。 基本名词解释 刷次:用户在今日头条信息流界面,手指每次下滑刷新,叫做一个刷次 CPT:Cost Per Time,即按时长计费广告。按时长计费是包时段包位置投放广告的一种形式。GD:Guarentee Delivery,保证递送的广告,即保量广告,按展示量定价; CPM:Cost Per Mille,千次展示成本,即按展示付费; CPC: CostPerClick,每个点击成本,即按点击付费,如关键词广告; oCPC: optimization CostPerClick,目标转化成本,仍按点击付费; 今日头条产品优势 【机器算法】 行业领先的个性化机器推荐算法,机器通过分析人的特征与内容的特征将两者进行匹配,实现个性化精准推荐,我们将帮您把商业信息精准推荐给真正有需要的人,以减少广告浪费。 【数据厚度】 到目前为止,今日头条旗下产品总日活用户超过3亿,单用户日均使用时长超过76分钟,单用户日均启动约9次,我们将每一个用户样本数据进行精细化管理,提供用户行为定向、基本属性定向、关键词定向等多种定向方式,帮助您找到最合适目标受众。 【千人千面】

今日头条的算法生产新闻研究

龙源期刊网 https://www.sodocs.net/doc/6c5244831.html, 今日头条的算法生产新闻研究 作者:郝慧敏 来源:《传媒论坛》2018年第08期 摘要:新闻的生产机制与媒介技术的进步发展息息相关,到如今,大数据、云计算、人 工智能等技术蓬勃发展,同时智能终端技术的不断成熟,媒介技术的发展也逐渐覆盖到了新闻传媒业领域,新闻的生产流程也有了新的改变。新闻传媒业正经历着媒介技术引起的巨大革新,算法新闻作为这种新兴媒介技术与新闻业结合的产物,也在逐渐被新闻传播从业人员所了解、所熟知、所应用,在传统媒体与新媒体领域都有着不同程度的应用与实践。 关键词:算法新闻;新闻生产机制;今日头条 中图分类号:G206 文献标识码:A 文章编号:2096-5079(2018)08-0-02 算法新闻就是运用算法来实现新闻的生产过程,即自动化地进行数据采集与分析、撰写和编辑新闻稿件。算法新闻对传统新闻生产机制的革新成为国内外传媒界人士关注的焦点,这一新技术的出现得到了很多肯定,也有一些机器写作将取代人工写作的声音出现。本文立足于理性辩证地研究算法新闻,在关注其技术优势的同时,客观看待其缺陷性与消极影响。理性地审视算法新闻的发展与前景,能够对算法新闻的良性秩序建设起到推动作用。 一、算法新闻 算法是指使用计算机并根据某种数学模型来解决各种实际问题的方案,而算法新闻就是运用算法来实现新闻的生产过程,自动化地进行数据采集与分析、撰写和编辑新闻稿件。算法新闻从新闻信息的采集到生产到传播再到用户最终接受新闻信息,都有着与传统新闻生产机制不同的新突破。 二、今日头条的算法新闻应用 今日头条也是我国较早开始实践算法新闻的媒体之一。今日头条的头条模式为将网页与各媒体所发内容经过内容审核过滤后放入内容池,并通过推送、搜索等方式进行内容分发,最终展现给用户以供用户进行内容消费。值得一提的是,用户还可以对呈现在眼前的每条新闻进行反馈,用户选择不感兴趣的话,将反馈到内容分发环节,将会减少为你推送这类内容的概率。 今日头条的算法新闻依赖于其2016年诞生的写稿机器人——Xiaomingbot。今日头条作为平台型媒体,它以大数据与人工智能为技术基础来实现内容生产与分发,算法成为其内容生产者与用户之间连接的纽带与桥梁。机器写作产品“Xiaomingbot”是今日头条在新闻生产方面的 排头兵,今日头条写稿机器人“xiaomingbot”在实际操作中成果斐然,据今日头条技术总监李磊介绍:里约奥运会期间,“Xiaomingbot”生成的稿件与记者写出来的新闻稿件在用户阅读量浏 览量上不相伯仲,可读性差距并不大。

腾讯、阿里、今日头条等互联网企业算法工程师的面试套路

腾讯、阿里、今日头条等互联网企业算法工程师的面试套路 伴随着人工智能浪潮的兴起,算法工程师在互联网企业中的地位越来越高,市面上的薪资平均水平相比于前端、后端等职业也有了显著的价格差。很多人也许对算法工程师,尤其是机器学习算法工程师十分感兴趣,考虑着入坑或者转行。那么问题来了,腾讯、阿里、百度、今日头条、美团、滴滴、网易游戏这些一二线的互联网公司中的算法工程师岗位的面试套路你都知道吗?今天小编就给大家总结下小编 眼中这些公司的面试套路。 ---------------------------------------------------人工分割线 -------------------------------------------首先,企业为什么愿意出动辄几十万的年薪招聘算法工程师?1 算法工程师是智力密 集的岗位,不同的人水平差异很大,产出的差异也很大2 算法工程师供不应求,市场上供求比例大约在1:103 好的算法工程师流动性不大,高薪是吸引他们流动的必要前提那么像百度、阿里、腾讯、今日头条、美团、滴滴、网易、微软、谷歌这些一二线的互联网公司又是怎么通过面试来评估算 法工程师的工作能力、算法水平的呢?小编认为主要分为以下3点1 基本功是否扎实,算法和数据结构是否熟练掌握,是否足够聪明2 解决实际问题的能力是否足够强,能在有限资源、有限时间内利用各种模型、算法和工程知识解决好问

题3 对领域内的算法有深度的了解,对相关算法能举一反三,能够根据实际场景选择和创新算法算法工程师面试的内容 都是围绕着这三个方向来设置问题和环节的,所以有针对性的准备会让你在算法工程师的面试中更有优势。那么具体的来说,这些方向是如何体现在问题上的呢?? -----------------------------------人工分割线 --------------------------------------------------1 基本功,包括基础 的算法和数据结构,是否扎实是算法工程师的前提我们经常可以看到一些老资格的程序员,因为做不出二叉树、链表的一些基础题而在面试环节被刷掉,然后在各种网站上吐槽。最著名的一个案例就是homebrew的开发者max howell在 面试的时候写不出二叉树反转被google拒了。问题在哪? 面试的一个重要环节就是考察你作为一个算法工程师的算 法和数据结构是否扎实,算法包括快排、二分查找等;而数据结构就包含链表、二叉树、队列栈等。这同时考察了你 的基础、代码能力和聪明程度。这一环节是绕不过去的, 所以无论你资格多老,只要是算法工程师的岗位,这些知识你还是老老实实的准备吧。2 你对项目的了解程度,包括但不限于数据上下游、问题定位能力、算法的适用场景、项目的瓶颈和解决方案等等套用一句名言:以绝大多数算法工程师的工程能力之低,根本轮不到拼算法能力。事实是,绝大多数算法工程师只看到了自己title上的算法两字,而忽略了

今日头条算法

无论2016年科技圈热门的噱头有多少,对数据基础设施方面的耕耘仍然是决定实力的关键。阿里之类电商数据帝国自不待言,今日头条、一点资讯等在资讯数据领域的开拓更加值得注目。比起电商的物流数据,资讯算法驱动与用户数据分析是更加“触及灵魂”的事情。 1月15日,在头条主办的“珠海未来媒体峰会”上,技术出身的CEO张一鸣走到台前,向台下一众媒体人发表演讲:《我眼中的未来媒体》。他纵横媒体发展史、国内外现状,从古腾堡到贝索斯,从App Store到Instant Articles,看似雄辩地证明媒体人把内容输送到算法推荐平台是大势所趋。 一点资讯紧跟其后。1月20日,在其与凤凰博报联合举办“凤凰一点通”年度影响力自媒体盛典上,一点资讯宣布打通两家平台,资源共享。一点资讯副总裁吴晨光面对台下上百位自媒体人,也在极力渲染一点资讯的读者画像等算法技术。鹬蚌相争刚刚白热化,已有一只黄雀在身后——腾讯的同类产品“天天快报”已经低调运营了一段日子,不知道在憋什么大招。 人们应该记得,2014年多家传统媒体因版权问题对今日头条发起声势浩大的诉讼。2015年11 月也有媒体发起对一点资讯的版权诉讼,但反响很小。再到如今,媒体人坐在台下为张一鸣鼓掌捧场。也许真是时势变化,技术的发展已经让内容生产者从惊恐到不得不适应。 头条不是百度,推荐引擎有别于搜索引擎。其实头条所自豪的算法推荐也不是这几年才出现,谷歌、百度都是前辈,为什么是头条让算法成了颇具神秘感的明星? 头条出名以来,一直有人吐槽推荐算法不准确、制造信息茧房,一些评论者宣称装了就卸载。我也有同感。不过就像帝吧远征之人力洪流带来的震撼,今日头条巨大的流量也促使我重新审视算法洪流。别忘了头条招聘启事上写着:“ 对用机器学习算法解决现实问题有强烈的渴望和坚定的信仰。” 尚显粗糙的算法,正在成长的生命 我先抛出对算法的总体观点,有三个层面: 首先,算法是一种类似金融资本的东西,是方法。就像财务投资者不必追求理解公司具体产品本身,只在乎能否增值。算法不管内容实质是什么,只管能否数字化、分类集合、反馈优化,是处理海量信息的方法。与资本一样,它能提升效率,也与个体有矛盾。 第二,张一鸣在演讲中说Facebook把技术支持变成了一项接近水、电、煤气这样公共服务的事情。再进一步,当算法深入生活的方方面面,积累的智能本身将成为基础设施。KK(凯文·凯利)在新书《必然》里说到,未来的人工智能网络(主要包含算法)将会成为“如同电力一样无处不在、暗藏不现的低水平持续存在”。比如办公室的桌椅和电脑都会识别你,记录你喜欢的姿势,在你一走进办公室就调整好姿态,打开你常用的软件、网站等等。 但对于资讯内容传播来说,这还不够。内容不是桌椅,桌椅只要伺候我们,内容却是装载了他人灵魂的存在,要和我们互动、砥砺。这就是第三层,算法要想触及灵魂,还得努力。 头条到底是什么?有人已经说了它不是新闻客户端,而是信息分发平台。仅此而已? 张一鸣演讲称: “将对媒体在今日头条平台上的用户数据进行更详尽的统计分析。除了性别、终端、年龄、地域分布等用户属性基本分析外,还将提供用户的兴趣和情感倾向分析。通过这一功能媒体可以知晓受众喜欢哪些分类的文章、用户最喜欢文章里的哪些关键词、关注你的人还喜欢哪些内容等等。”

基于协同过滤算法的电影推荐系统

基于协同过滤算法的电影推荐系统

————————————————————————————————作者:————————————————————————————————日期:

高级数据挖掘期末大作业

基于协同过滤算法的电影推荐系统 本电影推荐系统中运用的推荐算法是基于协同过滤算法(Collaborative Filtering Recommendation)。协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。 电影推荐系统中引用了Apache Mahout提供的一个协同过滤算法的推荐引擎Taste,它实现了最基本的基于用户和基于内容的推荐算法,并提供了扩展接口,使用户方便的定义和实现自己的推荐算法。 电影推荐系统是基于用户的推荐系统,即当用户对某些电影评分之后,系统根据用户对电影评分的分值,判断用户的兴趣,先运用UserSimilarity计算用户间的相似度.UserNeighborhood根据用户相似度找到与该用户口味相似的邻居,最后由Recommender提供推荐个该用户可能感兴趣的电影详细信息。将用户评过分的电影信息和推荐给该用户的电影信息显示在网页结果页中,推荐完成。 一、Taste 介绍 Taste是Apache Mahout 提供的一个个性化推荐引擎的高效实现,该引擎基于java实现,可扩展性强,同时在mahout中对一些推荐算法进行了MapReduce 编程模式转化,从而可以利用hadoop的分布式架构,提高推荐算法的性能。 在Mahout0.5版本中的Taste,实现了多种推荐算法,其中有最基本的基于用户的和基于内容的推荐算法,也有比较高效的SlopeOne算法,以及处于研究阶段的基于SVD和线性插值的算法,同时Taste还提供了扩展接口,用于定制化开发基于内容或基于模型的个性化推荐算法。 Taste 不仅仅适用于Java 应用程序,还可以作为内部服务器的一个组件以HTTP 和Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。 下图展示了构成Taste的核心组件:

今日头条调研报告

今日头条调研报告 一:今日头条简介 1.简介 今日头条是一款基于数据挖掘的推荐引擎产品,它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一。它由国内互联网创业者张一鸣于2012年3月创建,8月发布第一个版本。 2.创始人介绍 张一鸣毕业于南开大学软件工程学院;2006年加入旅游信息搜索公司“酷讯”,曾任“酷讯”技术委员会主席;2009年创立房产信息搜索公司“九九房”;2012年创立“字节跳动”公司并担任CEO。张一鸣与今日头条团队希望产品能在移动互联网时代,像造纸术和印刷术一样,改变信息的传播。 3.头条特色 今日头条是基于个性化推荐引擎技术,根据每个用户的兴趣、位置等多个维度进行个性化推荐,推荐内容不仅包括狭义上的新闻,还包括音乐、电影、游戏、购物等资讯。 二:运营模式和盈利模式 1.运营模式

今日头条的利用大数据和优秀算法,结合之下可以为每个用户建立精准的DNA 库,而基于此可实现的是广告的精准投放,用户之前浏览过相关信息或者商品,推送相关周边的商品信息,从最初只在各大安卓、ios平台推送下载,到近期CEO 张一鸣在媒体前频频曝光,今日头条的运营还是很不错的,尤其是其本身的差异化优势,再加上CEO的个人魅力,推广效果事半功倍。 2.盈利模式 (1)和视频网站的合作(优酷、搜狐视频等) 用今日头条看到某新闻,想更多的知道画面,(比如今天我看到国家最高科技奖的新闻,想看看是否有相关的视频报道之类的)就可以跳转到视频播放界面(是选择哪个媒体就看用户个人喜好);同样的,比如我在看某科技视频报道,想知道更多关于这个领域的最新新闻动态,在视频网站上链接到今日头条这里来。这种互相倒入流量的合作,会是双赢,也会给用户带来多元化的新闻体验。 (2)与社交应用的合作 目前看到的只有一键分享的功能,只有被分享的新闻引起其他用户的兴趣才会点击。转化率应该不高,看到目前有“段子”栏目,考虑能否引导微信用户发送身边事件新闻到朋友圈并发送该新闻到今日新闻,然后评选出每日最佳原创微新闻的榜单,这对用户来说应该是个不错的激励。而且能增加其发消息的活跃度。 三:目标群体及市场分析 1.目标群体 据2015年新闻客户端统计显示,手机阅读76.55%的用户为男性,19岁到35岁的用户占70%,可见中青年男士是手机客户端市场的主流力量。而从职业属

基于协同过滤算法的推荐系统设计

基于协同过滤算法的推荐系统设计 一、绪论: 长尾理论。 二、协同过滤算法的定义: (一)预定义: 要实现协同过滤算法,需要做以下的预定义: 1、邻域: 给定集合X,映射U:X→P(P(X))(其中P(P(X))是X的幂集的幂集),U 将X中的点x映射到X的子集族U(x)),称U(x)是X的邻域系以及U(x)中的元 素(即X的子集)为点x的邻域,当且仅当U满足以下的邻域公理: U1:若集合A∈U(x),则x∈A。 U2:若集合A,B∈U(x),则A∩B∈U(x)。 U3:若集合A∈U(x),且A ?B ?X,则B∈U(x)。 U4:若集合A∈U(x),则存在集合B∈U(x),使B ?A,且?y∈B,B∈U(y)。 2、皮尔逊相关系数: 皮尔逊相关系数是一种度量两个变量相似程度的一种方法,若变量X和变量Y线性相关,则其皮尔逊系数的z值域为[-1,1]。系数值为1表示完全正相关; 系数值为-1表示完全负相关。 3、曼哈顿距离: 4、欧几里得距离: 5、余弦相似度: 6、 Jaccard相似度: (二)基于用户的协同过滤算法: 在实际应用中,如果一个用户C需要得到个性化的推荐,那么根据这个用户过去喜欢过的物品,计算出与这个顾客有着相似偏好的用户,继而把这些相似的用户所喜欢的、且C没有喜好过的物品推荐给用户C,这就是基于用户的协同过滤算法的主要思路。 该方法主要包括两个步骤: 1、寻找和查询用户具有相似偏好的用户群体。 2、找到这些用户所喜欢的物品集合,选取其中用户最为感兴趣的子集推荐给 查询用户。 在步骤1中,我们使用相似度来度量两个用户之间的相似度。相似度的计算方法可以调用预定义中的皮尔逊相似度、余弦相似度、曼哈顿距离、欧几里得距离和jaccard相似度。记用户A和用户B之间的相似度为sim 在得到用户的相似度之后,我们需要给查询用户返回根据其兴趣度的T opK结果,我们用如下公式衡量用户的兴趣度: 公式 其中S(u,K)代表相似用户集中的前K个用户,N(i)代表喜欢物品i的用户集合。 R代表用户u对物品i的感兴趣程度。 下图代表基于用户协同过滤算法的主要流程: (三)基于物品的协同过滤算法: 在基于用户的协同过滤算法的基础上,又发展出了基于物品的协同过滤算法。 这主要是因为在一般的网站应用中,用户的数量往往远远大于物品的数量,这就造 成了计算用户之间的相似度成为一件非常耗时的工作:以余弦相似度为例。设一个

推荐系统常用的推荐算法_光环大数据培训

https://www.sodocs.net/doc/6c5244831.html, 推荐系统常用的推荐算法_光环大数据培训 一、推荐系统概述和常用评价指标 1.1 推荐系统的特点 在知乎搜了一下推荐系统,果真结果比较少,显得小众一些,然后大家对推荐系统普遍的观点是: (1)重要性UI>数据>算法,就是推荐系统中一味追求先进的算法算是个误区,通常论文研究类的推荐方法有的带有很多的假设限制,有的考虑工程实现问题较少,推荐系统需要大量的数据整理和转化,同时更需要考虑公司业务特性以及与现有系统的集成,方能形成推荐系统和业务之间的良性循环; (2)推荐系统离线测试很好,上线后要么没有严格的测试结果而只能凭感觉,要么实际效果差强人意,我想主要缘于离线测试比较理想,而在线AB冠军测试无论对于前端还是后台要求都很高,没有雄厚的研发实力难以实现; (3)推荐系统受到的外部干扰因素特别多(季节、流行因素等),整个系统需要不断的迭代更新,没有一劳永逸的事情。 1.2 推荐系统的评价指标 由于推荐系统比较复杂,所以涉及到的评价指标也很多。当然,用户满意度最为的有效,因为这本来就是推荐系统的最终目标,但是奈何资源有限成本太高,推荐系统还依赖于其它客观评价指标。

https://www.sodocs.net/doc/6c5244831.html, (1)推荐准确度:这个参数可以离线计算所得,而且较为的客观,所以是各大研究论文算法最重要的参考指标。 总体来说,推荐系统有两大任务:“预测”和“推荐”,所以推荐系统准确度的评分包括: 评分预测:学习用户的评价模型,用于预测用户对于未接触事物的评分,其实可以看作是一个回归模型,一般用均方根误差或者绝对误差来衡量; TopN推荐:给用户一个个性化的推荐列表,其一般通过准确度、召回率等指标评估。其中N也是一个可变参数,可以根据不同的N描绘出对应算法的ROC曲线来进一步评价推荐效果; (2)覆盖率:体现了挖掘算法对发掘长尾商品的能力。最简单的定义是,对所有用户推荐出的产品做并集,然后看这个出现的并集产品与总产品数中所占的比例,这种方式比较的粗线条,因为推荐系统中马太效应频繁,所以好的推荐算法应当是所有商品被推荐的几率差不多,都可以找到各自合适的用户,所以实际中会考虑信息熵、基尼系数等指标。 (3)多样性:其原理可以表述为不在一棵树上吊死。因整个推荐系统涉及到的因素太多,如果只推荐用户一个类别的相似物品,失败风险比较的大,而且也难以实现整个推荐效益的最大化。 (4)新颖性:原理就是那些用户没有接触过、没有操作过的商品,或者是流行度比较低的商品,对用户来说是比较新鲜的物品,往往会有意外的效果。个人觉得这个指标有点扯~~

基于协同过滤算法的电影推荐系统

高级数据挖掘期末大作业基于协同过滤算法的电影推荐系统

本电影推荐系统中运用的推荐算法是基于协同过滤算法(Collaborative Filtering Recommendation)。协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。 电影推荐系统中引用了Apache Mahout提供的一个协同过滤算法的推荐引擎Taste,它实现了最基本的基于用户和基于内容的推荐算法,并提供了扩展接口,使用户方便的定义和实现自己的推荐算法。 电影推荐系统是基于用户的推荐系统,即当用户对某些电影评分之后,系统根据用户对电影评分的分值,判断用户的兴趣,先运用UserSimilarity计算用户间的相似度.UserNeighborhood根据用户相似度找到与该用户口味相似的邻居,最后由Recommender提供推荐个该用户可能感兴趣的电影详细信息。将用户评过分的电影信息和推荐给该用户的电影信息显示在网页结果页中,推荐完成。 一、Taste 介绍 Taste是Apache Mahout 提供的一个个性化推荐引擎的高效实现,该引擎基于java实现,可扩展性强,同时在mahout中对一些推荐算法进行了MapReduce 编程模式转化,从而可以利用hadoop的分布式架构,提高推荐算法的性能。 在版本中的Taste,实现了多种推荐算法,其中有最基本的基于用户的和基于内容的推荐算法,也有比较高效的SlopeOne算法,以及处于研究阶段的基于SVD和线性插值的算法,同时Taste还提供了扩展接口,用于定制化开发基于内容或基于模型的个性化推荐算法。 Taste 不仅仅适用于Java 应用程序,还可以作为内部服务器的一个组件以HTTP 和Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。 下图展示了构成Taste的核心组件:

3个角度,带你了解今日头条的内容生产策略

3个角度,带你了解今日头条的内容生产策 略 fansir做运营已经有一段时间了,最近接触到内容运营方面的工作,对今日头条、知乎和豆瓣等内容生产平台做了详细的分析,想与大家以今日头条为例,讨论下其内容生产的策略。 不管如何,还是先来介绍下此款产品吧!今日头条,它是一款基于数据挖掘的推荐引擎产品,为用户提供精准化、个性化的移动资讯平台,实现内容与用户的精准连接。今日头条的定位是“你关心的,才是头条”。归根结底地说,今日头条是个链接内容生产者和内容消费者的平台。所以,下面我想从内容的定位、内容的生产者和内容的消费者三方面来分析其生产策略。 一、内容的定位

说起内容的定位,又可以从产品的切入点、产品的差异化和解决用户需求三个方面来说。 1、产品切入点 今日头条充分利用技术优势,基于数据挖掘,分析用户行为,为每个用户建立个人阅读DNA 库,结合优秀的算法,来为每个用户推荐他所感兴趣的新闻资讯内容,解决当今社会资讯过载的问题。 2、差异化 与其他咨询类平台不同的是,今日头条利用各种算法,给用户所推荐的资讯内容都是个性化的、用户自己想看的内容。 3、解决用户需求 资讯过剩的时代,今日头条帮用户节省了时间、满足了用户阅读自己感兴趣资讯的需求。 连接内容生产者 连接生产者也就是解决“内容怎么有”和“内容持续有”的两个问题。继续往下看。 1、内容从哪儿来(内容怎么有) (1)利用机器爬虫,抓取内容 最开始,头条的内容来自于其他门户新闻的汇总。不管什么引擎,它的首要工作都是要通过爬虫,积累足够多的数据样本。头条对门户加推荐引擎的模式,用户点击新闻标题

后,会跳转到新闻门户的原网页。但是出于用户体验的考虑,也为了方便移动设备用户的阅读,今日头条会对被访问的其他网站网页进行技术的再处理,去除原网页上的广告,只显示内容。不过这涉及到版权问题,今日头条为此投入了上亿的资金。 (2)自己经营自媒体平台 在这个阶段头条真金白银(千人万元、百群万元等计划)的砸钱砸出了国内最大的自媒体作者平台。建立头条号之后,媒体可以在平台上自己上传内容,这就相当于授权头条进行内容分发。从此之后,不再是头条主动找媒体,媒体也可以更便捷地主动来找头条。到了现在,头条号的总量更是超过了30 万,企业头条号超过 3.3万,73%的内容都是由头条号贡献的。 (3)短视频 今日头条自个宣布已经成为国内最大的短视频分发平台,并建立“金秒奖”及更多的资金来支持短视频的创作。 (4)问答和微头条 问答就跟知乎一样,微头条就跟微博和朋友圈一样。 激励生产者(如何持续有) 早在2015 年的头条开发者大会上,头条便宣布一个千人万元的补贴计划,它将确保至少有1000 个头条号创作者,单月至少获得 1 万元的保底收入,还开设了内容创投

常用推荐系统算法总结及性能比较

一,常用推荐系统算法总结 1、Itemcf(基于商品的协同过滤) 这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一。对于商城网站(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在内),影视类推荐,图书类推荐,音乐类推荐系统来说,item的增长速度远不如user的增长速度,而且item 之间的相似性远不如user之间的相似性那么敏感,所以可以在离线系统中将item的相似度矩阵计算好,以供线上可以近乎即时地进行推荐。因为这种方法靠的是item之间的相关性进行推荐,所以推荐的item一般都和喜欢的item内容或者特性高度相似,很难推荐出用户潜在喜欢的item,多样性也比较差。 2、Usercf(基于用户的协同过滤) 这个是cf中的另外一种,它的主要特色是可以发现和用户具有同样taste的人,有句俗话叫做观其友知其人,大概也是这个道理吧。找到用户的相似用户,通过相似用户喜欢的item 推荐给该用户。因为用户的相似用户群还是比较敏感的,所以要频繁地计算出用户的相似用户矩阵,这样的话运算量会非常大。而且这个算法往往推荐出来的item很多都是大家都喜欢的比较hot的item,有的时候它提供的结果并不是个性化,反而成了大众化的推荐了。用这种算法的web应用一般都是item更新频繁,比如提供资讯类服务的应用(以“指阅”为代表的),或者笑话类推荐(以“冷笑话精选”为代表的)。当然这种算法的一个中间产物-----用户相似度矩阵是一个很有用的东西,社交类的网站可以利用这个中间产物来为用户提供相同品位的好友推荐。 3、Content_based(基于内容的推荐) 基于内容的推荐,很大程度上是在进行文本挖掘。web应用提供的内容或者爬取的内容在推给用户之前可以做一些挖掘,比如资讯类的应用,将抓取到的资讯,通过文本分析那一套算法提取出每篇资讯的关键词,以及统计频次和逆向文档频率来聚类或者笨一点地话计算出资讯的相似度矩阵,即共同的key words越多,两篇资讯的相似度越高。当你的用户很少很少,你的显式反馈数据非常非常少的时候,你可以根据用户的浏览或者搜索等等各种行为,来给用户进行推荐。再猥琐一点的话,你可以在用户刚刚注册好你的应用的时候,给他一些提问,比如让他输入一些感兴趣的话题啊,或者对以前看过的电影打分什么的。(当然这些电影都是你从各个簇中随机选取的,要足够多样性)这个算法它好就好在,不需要拿到用户--项目的评分矩阵,只需要知道用户喜欢什么,就可以很快速地推荐给用户十分相关的item。这个算法需要每天都要根据你抓取的资讯,不断地计算item之间的相似性。这个算法有个好处在于可以从容应对上面的两个算法其实都很难应对的问题,就是如果你想推出一个新的item,因为没有一个人有对这个new item的评分,所以上述的两个算法不可能推荐新的东西给你,但你可以用基于内容的算法将新的item计算出它属于哪个类,然后时不时地推出你的新item,这点对于商城尤其重要。

推荐系统学习笔记

推荐系统实践学习笔记 1 好的推荐系统 1.1 什么是推荐系统 推荐系统和搜索引擎都是为了帮助用户从大量信息中找到自己感兴趣的信息。区别是搜索引擎由用户主动提供关键词来查找信息,推荐系统则不需要,而通过分析用户的历史行为给用户的兴趣建模,主动给用户推荐他们可能感兴趣的信息。 从物品的角度出发,推荐系统可以更好地发掘物品的长尾。长尾商品往往代表了一小部分用户的个性化需求,发掘这类信息正是推荐系统的长项。 1.2 个性化推荐系统的应用 推荐系统广泛存在于各类网站中,作为一个应用为用户提供个性化推荐。它需要依赖用户的行为数据,因此一般都由后台日志系统、推荐算法系统和前台展示页面3部分构成。 应用推荐系统的领域包括: 电子商务 - 亚马逊:基于物品、好友的个性化推荐,相关推荐,20~30% 电影视频 - Netflix:基于物品的推荐,60%;YouTube、Hulu 音乐 - Pandora:专家标记;Last.fm:用户行为 社交网络 - Facebook、Twitter 阅读 - Google Reader 基于位置的服务 - Foursquare 个性化邮件 - Tapestry 广告 - Facebook 1.3 推荐系统评测 主要有3种评测推荐效果的实验方法:

离线实验:划分训练集和测试集,在训练集训练用户兴趣模型,在测试集预测 优点:快速方便 缺点:无法用真实的商业指标来衡量 用户调查:用抽样的方法找部分用户试验效果 优点:指标比较真实 缺点:规模受限,统计意义不够 在线实验:AB测试 优点:指标真实 缺点:测试时间长,设计复杂 实际中,这三种方法在推荐算法上线前都要完成。 评测指标较多,一些重要的如下: 用户满意度:调查问卷,线上的用户行为统计、其他的指标转化得到 预测准确度:可通过离线实验计算 评分预测,通过均方根误差和平均绝对误差计算,前者更为苛刻。设r ui为用户u对物品i的实际评分,r?ui为预测评分 RMSE=∑ u,i∈T(r ui?r?ui)2|T|???????????????? MAE=∑u,i∈T|r ui?r?ui||T| TopN推荐,通过准确率或召回率衡量。设R(u)为根据训练建立的模型在测试集上的推荐,T(u)为测试集上用户的选择 Precision=∑u∈U|R(u)∩T(u)|∑u∈U|R(u)| Recall=∑u∈U|R(u)∩T(u)|∑u∈U|T(u)| 覆盖率:表示对物品长尾的发掘能力(推荐系统希望消除马太效应) Coverage=|∪u∈U R(u)||I| 上面的公式无法区分不同的分布,可以用熵或基尼系数来更准确地表述覆盖率 H=?∑i=1n p(i)log p(i)

相关主题