互联网机构如何利用数据优化内容——数据为内
编者按:本月主题旨在探讨数据与媒体中的内容关系,本文系《媒介杂志》4月号封面文章,全文深入浅出地剖析了数据与内容之间的关系,分为“数据与内容生产”、“数据与内容优化”以及“数据与内容市场”三部分。因原文较长,考虑到微信阅读体验,故分篇推送,本篇系“数据与内容优化”。当前媒体面临怎样的时代技术升级、场景变迁、产品迭代、社交迁徙......在这样的环境下,昨天还只是寓居于想象的未来蜃景,今天能够迅速具象为可感现实。但无论媒体产业如何发展、技术如何迭代,我们发现,“内容”始终是这条产业链中重要的一环。内容产业似乎从传统时代走来,却也被这个新的时代赋予了新的能量。所以,当前的内容运营者面对的似乎是一个既光怪陆离又一脉相承的时代,它似乎轻车熟路又遍地希望,却也时常让人充满无力感与困惑。那内容行业该如何解决这份痛点目前,内容的概念包括得更加宽泛,除了常规意义上的新闻、剧集、图片等,社交内容、广告、搜索页面、交互信息都是我们界定的整体内容行业所能涵盖的范畴。而内容运营的智能化、数据化、程序化等发展的基础也在于对数据的长期积累、挖掘和运用。那么,数据技术是否会成为未来内容行业中的执牛耳者数据究竟能为内容带来什么我们需要从行业的实践中找到方向。从有到优标签与算法优化内容分发与管理监察如果说,数据工具在内容生产环节是提供素材渠道与模版,那么在生产的基础上,在分发、管理等优化环节,数据就更加能大施拳脚。在从有到优的环节,生产专业性上的壁垒被打破,互联网平台涉入其中,通过其数据算法等的积累,为内容产业延伸出越来越丰富的优化管理平台。分发精准化:数据标签算法实现内容与人的匹配新闻推荐、社交推荐、广告投放、文娱内容推荐、智能互动等方面,生产出来的内容如何更快速、精准地抵达读者,又如何争取读者更多的注意力资源,是各大机构正在努力用技术革新回答的问题。其中以全球最大的社交平台之一Facebook为例,Facebook借助算法收集用户、企业等信息,调整用户首页展示内容,影响了用户的在线行为习惯,甚至改变欧美新闻分发和社交媒体盈利的模式。Facebook也有自己的排序规则——FacebookEdgeRank。Facebook收集每位用户发布的内容(包括分享的内容),关注好友的状态更新,加入的群组,点赞、评论、分享等行为信息。根据权重(早期标准有:互动/亲密度/时间等)对监测数据进行评级,展示信息流排名评级高的内容推送用户,也即用户最感兴趣的内容。后来,Facebook在原来EdgeRank的基础上,更加细致地定义了不同层级的亲密度。用深度神经网络理解图片内容和文字内容,从而可以知道相片中的物体是不是用户感兴趣的。随着产品迭代,也加入了更多产品特征,诸如阅读时间长短、视频内容、链接内容;取关、隐藏等。FacebookEdgeRank2017年上半年,《纽约时报》对其网站和App进行个性化改造,被用户称为“模仿Facebook”。在后续的几个月里,它陆续进行了一些个性化实验,比如根据用户的阅读习惯、访问时间、地理定位来决定推送内容,最终希望达到的是,在传统报纸编辑选荐与网络个性化模式之间达到平衡。在国内,今日头条的推荐算法是其产品的灵魂。头条用机器给文章打标签,追踪用户的阅读行为和习惯,再用算法完成两者之间的匹配,根据用户关注的内容分类进行推荐。数据积累到一定程度,最终想达到的效果就是系统越来越了解用户的品味,推荐的内容用户都喜欢看。头条的标签基本有两种方式,一种是机器判定,一种是人工添加,目前机器判定的比例更高。以电影为例,一部电影可以细分出影片类型、年代、演员、导演等等多种元素。用户标注了某一部电影,算法就会为他推荐同一导演的作品。这样的推荐模式大多被适用于识别结构化数据——算法并不知道文章、影片中到底说了什么,只能根据结构化数据标注判断。这个结构化数据,也就是关键词。社会和娱乐这两大标签是受众最为广泛的标签。头条会对关键词进行收集和整合,如果发现这些关键词热度比较高,就会生成一定的频道。比如体育底下其实还是包含很多的子频道。这也算对用户定制的一种反馈,更便于网民能够直接查看相关的文章。不过关键词的不精准也带来了一些问题。随着资讯类平台中的内容越来越丰富,短消息、图文、问答都有。关键词标注只能对内容进行浮于表面的理解,而内容中暗含的情绪往往会冒犯到用户。在流量的诱惑下,很多创作者会更倾向于生产具有刺激性情绪的内容,这就增加了用户被冒犯的几率。基于算法推荐机制的个性化分发尝试一如既往,算法所代表的精准满足信息需求、扩展细分市场的概念起初非常理想,所以很多媒体纷纷做出相应尝试。但热趋势中,算法正在面临读者“过滤气泡”、“信息茧房”等质疑,难以达到预期效果。近期,哈佛尼曼实验室的一篇报告详细地探讨了这一技术机制,承认个性化算法的力量,但也不能只将个性化留给算法,“你仍然需要一个人类编辑”。管理与监察数据化:促进机构走向规模与成熟当内容发展到一定规模之后,内容本身就成长为有一定规模的数据库。如何实现内容的数据化管理以及如何识别因数据的中立性而带来的虚假和错误也是媒体机构承担社会责任,完善用户体验的重要环节。被Google并购后,YouTube对内容版权问题越来越被重视。为了提供一套可行的版权及内容管理方式,Google于2011年上线了ContentID。ContentID为版权所有者提供免费的内容数据管理方式,并提供封锁、追踪和获利三种方式,让版权所有者自行决定所拥有的版权内容以何种形式出现在YouTube上。YouTubeContentID功能包含了影片ID(VideoID)和音频ID(AudioID)两种数据标签化管理功能,分别具有比对视频、音频是否侵权的功能。YouTubeContendID以热图(Heatmap)的数据处理方式比对影片,因此即使不是完全符合的影片,如内容包含加框、影音歪斜、左右镜象、水印、质量不佳的影片,一样可进行比对是否侵权。Heatmap用颜色变化来反映二维矩阵或表格中的数据信息,它可以直观地将数据值的大小以定义的颜色深浅表示出来。常根据需要将数据进行样品间丰度相似性的聚类,将聚类后数据表示在Heatmap图上,可将高丰度和低丰度的样品分块聚集,通过颜色梯度及相似程度来反映多个样品的相似性和差异性。YouTube热图(Heatmap)另外,YouTube也会筛选监察自身的内容,如果使用者有重复侵权的情况,帐号还可能被终止。藉由ContentID的禁播功能设定,可以让包含侵权内容的影片可在特定的区域中观看,如此可以符合版权拥有者的区域利益,也不致让所有的使用者都看不到影片的内容。将内容也视为一种数据,并利用工具为内容制定考量的标签和标准,让内容实现数据化管理,几乎成为所有形成规模的媒体机构的必修课。其中还包括Facebook的反垃圾系统Sigma和Immune、今日头条的内容拦截算法等都是媒体内容管理与监察开始趋于完善的重要标志。
收藏
0
有帮助
0
没帮助
0