本篇文章3628字,读完约9分钟
"旅行前,先去马蜂窝."2018年世界杯期间,一则广告席卷了互联网。在北京马蜂窝网络技术有限公司(以下简称马蜂窝)收获了一波又一波的流量之后的三个月,这个凭借用户创造内容(ugc)逐渐成长起来的在线旅游平台,由数据有限公司(深圳市数据有限公司)团队推出。
10月21日晚,来自媒体的“窃窃私语”中刊登了“马蜂巢估计价值175亿元,实际上是一个由丧尸和水军组成的鬼城?”如承诺的那样,发布了第二篇关于马蜂窝淹没丧尸和水军的报道文章。随着舆论的发酵,马蜂窝22日上午发表了一份公开声明,称马蜂窝将采取法律措施保护自己的权益,针对这篇文章中的歪曲言论和经查证属实的有组织攻击。10月22日晚,马蜂巢起诉深圳市数据有限公司、丁侵犯名誉。
值得注意的是,马蜂窝的“数据欺诈”有了新的进展。10月22日下午6时49分左右,马蜂窝里爆出“数据造假”消息的人,发表了作者“紫泉”的朋友圈,后者贴出了诉讼服务通知,并附上了一篇“今夜第三战”的文章。
2014年4月,马蜂窝首席执行官陈刚曾在微博上公开炮轰,并通过虚假评论进行造假,称的刷屏行为动摇了行业诚信的基础。现在,马蜂窝被“捅”了。怎么说来着?
马困在“抄袭门”的蜂巢
10月21日,自媒体《低语比比》发表文章称,价值175亿英镑的“马蜂窝”实际上是一个由僵尸和水军组成的鬼城?根据数据团队提供的数据报告,作者紫泉在文章中说,在《马蜂窝》2100万篇“真实评论”中,有1800万篇是通过机器人从竞争对手的平台上抄袭来的(300024,诊断类股)。
文章一发表,公众就收到了马蜂窝关于“损害商业信誉”的投诉。在第二天的推文中,玉泉表示,不仅如此,“文章发出8小时后提到的账户被从搜索栏中屏蔽,评论内容也被从个人主页上删除。”
10月22日,数据小组通过电子邮件向《国家商报》记者发送了一份25页的关于马蜂窝的数据报告,显示马蜂窝涉嫌存在处理评论、游记掺水、抄袭问答等现象。
根据胡睿数据团队的报告,经过对《马蜂窝》的ugc和用户数据的初步探索以及与竞争产品的比较,发现包括官方账号在内的许多马蜂窝用户抄袭了公众评论网数百名用户的评论和携程、鳄龙、阿戈达、yelp等知名网站的大量用户内容,甚至在官方获奖活动中获得一等奖。
10月22日下午,国家商报记者通过公开号码“耳语比比”联系到自媒体作者子全,子全向记者透露,文章的材料来自数据对《马蜂窝》用户评论等数据的分析报告。谈及撰写和发表《马蜂窝》一文的原因,《玉泉》向记者透露,当初,通过公开的数据联系了他。"首先确定兴趣,然后签署保密协议,然后看报告."《子全》说。同一天,马蜂窝的相关负责人告诉国家商报记者,“法律程序目前正在进行。”对此,《紫泉》称,截至当时,只有马蜂窝的投诉,关于这两篇文章的公开报道被看到,没有公司联系他。
10月22日晚,马蜂窝因涉嫌举报马蜂窝数据造假,向北京市朝阳区人民法院提起诉讼,称胡睿数据侵犯名誉权,现已立案。
马蜂窝否认85%的审查欺诈
根据上述报告,经过数据分析,胡睿数据团队发现Mahive上有7,454个抄袭账户,共有572万个餐厅评论和1,221万个酒店评论是从竞争网站上抄袭的,占官方网站声称的评论总数的85%。
剔除“抄袭账户”后,胡睿数据团队从所有剩余账户中选取了15,000个最活跃的账户,发现用户回答问题和评论的行为时间高度一致,发布时间与其他同类评论网站有很大不同,大多数在工作时间(周一至周五10: 00至12: 00和14: 00至17: 00)更活跃。
胡睿的数据团队还发现,一批在旅游指南中植入广告的商家,通过“编号”和“洗稿”等抄袭、拼接的方式,批量制作包含广告内容的游记、问答和回复,然后用大量的小号和马甲手工放在上面,从而实现了在平台上低成本为亿万用户做广告的目的。
胡睿的数据团队“捅”了马蜂窝,一时间舆论哗然。22日上午7点45分,马蜂窝在微博上发表声明称,游记和策略占78.91%,热门话题占7.92%,问答占10.26%。这些数据背后是用户的真实感受和记忆,也是马蜂窝内容的真正价值。
马蜂窝进一步表示,评论内容仅占马蜂窝总数据量的2.91%,涉嫌虚假评论的账号数量占用户总数的比例很小。马蜂窝对这些账户进行了清理,认为“媒体文章中描述的马蜂窝用户数量与事实和第三方机构的数据严重不符”。与此同时,马蜂窝一直在严厉打击游记和问答中的非法广告,平均每周处理2.6万个非法广告,查封1.5万个非法账户。
22日,《国家商报》记者向胡睿数据团队询问了有关数据挖掘报告工具的科学和准确分析的问题,但截至发稿时,尚未收到任何回复。
数据爬虫在行业中很常见?
2018年10月21日,马蜂窝旅游网查看了旅游笔记、策略、热点(旅游故事)问答、评论等数据。,并调查了可疑的虚假信息。
马蜂窝在其公开声明中表示,餐饮评论并不是马蜂窝的核心内容,一些评论来自于对游记和问答的提炼。自媒体以来,马蜂窝用户内容制作的活跃周期与餐饮等本土生活服务应用相比,被马蜂窝员工解读为有组织的抄袭,具有明显的误导倾向。
事实上,对于这个原因有不同的看法。
“马蜂窝承认,一些评论来自内容抽取,这使得ugc行业或多或少暴露出原始内容的不足和不同港口资源的共享。”据业内人士分析,马蜂巢涉嫌抄袭的内容中有一定的“反爬行”迹象。例如,“翻译提供商”一词出现在评论中,这只是表明这是一个相对常见的行业操作。
电子商务研究中心生活服务电子商务分析师陈认为,一些平台捕捉其他平台的数据是为了制造大流量的假象,这不仅是为了用户、企业,也是为了投资者。因为不涉及数据库阈值,所以不存在技术上的困难,这可以由任何爬虫工程师完成或成批处理,通常是“机器爬行+手动编辑”。
“互联网公司使用爬虫技术从其他平台获取数据的行为应该说更为普遍。”陈对说道。
此外,从事旅游平台管理的技术人员小王(音译)告诉《国家商报》记者,在讨论行业中的常见问题时,我们首先应该知道本报告中显示的数据采集和分析是否存在系统性偏差或默认指标。他表示,捕捉相关平台的数据进行行业对比分析可能会令人信服。此外,平台的系统性欺诈应与用户提交多份稿件的问题区分开来。"前者是故意的欺骗,而后者监督不严."
爬行、剽窃和欺诈在互联网行业并不少见。陈表示,这甚至已经成为许多平台尝试和测试的一大“捷径”,但对于蜂窝公司来说,更有可能的是,在马蜂窝平台落户的商家会做一些吸引人气和流量的事情。
原因是业界认为,正是因为用户的原始内容变得越来越商业化,所以通过流量获得原始内容的成本变得越来越高。「在使用者决定他们的旅游目的地和购买旅游产品的情况下,企业单靠广告收入是远远不够的。实现和盈利成为生存问题,反过来这些客户也不可避免地成为企业。竞争的核心资源。”
平台形象陷入危机
电子商务研究中心特约研究员、北京支林律师事务所律师赵占领指出,用户评论版权纠纷的核心问题是法律“空·怀特”的存在。如果任何一个平台未经许可抓取用户在其他平台上发布的信息,就有不正当竞争的嫌疑。
陈进一步指出,如果这一事件属实,消费者对平台的信任度将会大大降低,造成用户流失,品牌形象和未来运营也会受到一定程度的影响。
马蜂窝,诞生于2006年,由旅游社区起家。2011年10月和2013年4月,它收到了两轮融资。2015年1月,它从高燕资本和其他投资获得了8500万美元的C系列融资,同年,在免费旅行战略发布后,它探索了从内容到数据再到交易的商业模式,并在2017年完成了1.33亿美元的D系列融资。
当时,马蜂窝首席执行官陈刚在D轮融资的内部信中表示,每月有1亿活跃用户,其中85%来自移动应用。“三年后,马蜂窝将成为中国最大的旅游流平台”。马蜂窝公开表示,该网站用户每月发表的旅游文章超过13.5万篇,预计2017年个人旅游产品销售额将超过90亿元。
目前,无论马蜂窝平台背后有多少真实数据,其核心价值必然会受到投资者的关注和考虑。但是,从估值影响的角度来看,认为,这些数据只是投资者的一些参考指标,并不是其核心内容,但最终取决于马蜂窝的转换率和盈利能力。从这个角度来看,目前还很难确定这一事件是否会对投资者的信任度和马蜂窝的核心估值产生很大影响。
马蜂窝在声明中表示,2016年之前,马蜂窝鼓励用户发表评论,评论数据增长迅速。然而,随着移动互联网的全方位发展和用户的不断增长,以游记和策略为代表的长内容产品和以热点(旅游故事)和问答为代表的短内容产品成为运营重点,共同构成了马蜂窝的核心竞争力。
根据《消费者权益保护法》和新出台的《电子商务法》等相关法律,陈表示,如果上述自媒体曝光的信息属实,马蜂窝的做法可能已经涉嫌违法;如果只是平台上的业务,作为平台,马蜂窝享有“避风港原则”规定的某些豁免权利。平台是否应该承担责任,取决于平台在业务管理、平台治理和信息审查方面是否履行了其应尽的义务。
编辑陈俊杰
标题:乎睿数据捅了马蜂窝:你们1800万条评论造假 马蜂窝告了乎睿数据:已清理涉嫌
地址:http://www.njflxhb.com.cn//nxxw/11562.html