当前位置:主页 > 查看内容

疫情之下,一套支持私有化部署的新闻采集系统需要具备什么?

发布时间:2021-08-20 00:00| 位朋友查看

简介:从2020年年初以来,疫情已经变成了生活中常见的名词,疫情常态化之下,人们对于网络的依赖性越来越大,互联网产业飞速发展。 在这样一个信息爆炸和信息碎片化时代,各个领域的信息量和信息规模都以惊人的速度增长,用户的注意力被各种纷繁复杂的信息侵扰,如……

从2020年年初以来,疫情已经变成了生活中常见的名词,疫情常态化之下,人们对于网络的依赖性越来越大,互联网产业飞速发展。

在这样一个信息爆炸和信息碎片化时代,各个领域的信息量和信息规模都以惊人的速度增长,用户的注意力被各种纷繁复杂的信息侵扰,如果想要收集某一类信息,需要经历“网络搜索——逐条收集——汇总整合”等流程,需要耗费大量的时间和精力。

比如我们经常会收到客户的需求,需要采集几十家国内外主流新闻媒体平台的数据,包括国内新闻网站(如人民网、新华网、中新社、中国日报等)、国内主流社交媒体平台(如微博、头条、小红书、豆瓣、知乎等)、国外的新闻网站、国外主流社交媒体平台等,动辄涉及到成千上万的账号以及上亿条数据,包括文字,图片,电子刊多种展现形式,如果能够利用数据收集系统,快速从互联网上获取所需要的的数据,无疑能够节省大量的时间和人力成本,提升专题研究深度与信息情报完整度。

私有化部署的新闻采集系统是什么?

很多企业和平台都会搭建内部的新闻采集系统,利用工具每天及时从互联网上采集最新新闻资讯、政务公告、用户反馈等数据,数据表现形式包括但不限于文本、图片等,通过API接口将采集到的数据与企业数据中台系统、融媒体系统、业务系统等对接,从而更好地发展自身的平台和业务。

为什么要建立私有化部署的新闻采集系统?

传媒行业和研究机构为例:
1.传媒行业:需求:每天需要高质量高效地获取的最新新闻资讯,整合各个渠道的信息,从而用于新闻报道和挖掘,特别是连续研究、跟踪和深度报道,最后结合数据分析和社会舆论,形成深度的重大专题新闻和系列报道。
难点:②新闻信息更新快,能否掌握一手信息,能否第一时间报道是关键因素。②新闻舆论数据量大,有可能单一新闻都有千万级的阅读、十万级的评论,如何获取整合这类信息,了解舆论动向,也是目前先进传媒单位的重点布局领域。②信息来源众多,传播链条复杂,形式多样,人工挖掘能力有限。

image.png

基于以上难点,一套高实时性、高完整度、高兼容性、并且支持内外部署的新闻采集系统就至关重要了。符合以上三个特性,才能有效帮助传统新闻采编人员节省大量时间,实现自动化的数据收集能力,无需人工干预,从而让采编发人员有更多精力从事专业领域的事情。

2.研究机构:

需求:对于某些领域的专题研究,比如某个政策或某个事件的专题分析,需要有广度的信息整合与深度的研究,才能把事件串起来,结合时间、地理因素等研究事件中对象之间的关联关系、事件的传播路径与社会影响等。

难点:1.新闻与社交等高质量信息源获取难度大2.数据维度广,形式多样,包括政策相关、企业相关、人物相关、舆论相关等多重维度。3.机构数据有一定的隐私性,对系统安全性的要求高。

由此看来,一套支持内网部署、机构人员无需技术基础即可操作的采集系统就显得至关重要了,通过简单的配置即可完成海量的异构的数据获取,帮助业务人员轻松掌握各类型数据,满足专题研究各种场景需求。

私有化部署的新闻采集系统应该具备什么?

1.支持内网部署一般需求私有化部署采集系统的客户都有自身数据的保密性需求,因此数据的安全性和隐私性是重中之重。比如媒体公众号平台的评论数据只能在内网获取,一套直接从内部搭建、部署到企业服务器上的新闻采集系统,数据安全性更高,可与企业业务系统高度融合。

2.支持各种网站数据源采集(灵活配置)包括新闻网站、社交网站、机构政策网站、政府公告等多种数据来源。

3.采集数据完整性要求高数据采集过程有可能因为网络原因而产生不稳定因素从而导致数据质量漏采,或重复数据多等问题,所以除了采集系统外,还需要有完整的采集过程数据质量监控系统,用于对数据进行补采或对业务人员进行提醒等操作。

4.支持实时采集新闻资讯时效性强,需要各个目标网站的数据一更新就立即将其采集下来,这就需要通过信息源的数量灵活调度节点资源来分配采集频率。7*24小时稳定运作的云端分布式采集,能够实现短时间采集海量数据的目的,轻松实现日采百万级甚至千万级的数据;弥补企业/政府大数据采集与处理能力的技术短板。

5.支持API与内部系统对接不管是企业的中台系统、融媒体系统、业务工作流系统,还是建立在知识图谱之上的智能预警的预测系统,通过灵活的API与原生系统实现数据对接,能够快速实现数据导入等功能。

6.支持数据清洗互联网采集数据均是非结构化数据,多为文本数据,如果能在采集端即做好数据清洗,将会大大减轻后端业务逻辑系统的负担。

7.支持高负载的数据吞吐这类型客户采集量大,我们有某客户,每天要监控采集2W多个网站数据,新闻资讯数据时效性强,通常是即采即用的,除了将数据采集下来,还需要将数据吞吐出去,因此整个数据的流转需要做得高效,这就要求提供高负载高吞吐的API接口,以实现采集结果秒级同步到企业的数据库或内部系统中。

8.支持多帐号操作企业内部多用户可以同时使用并操作系统,并根据操作权限不同实现分级管理,层级清晰,职责明确。
八爪鱼深耕新闻采集领域多年,致力于为客户提供全方位、不间断的服务,帮助过数百位客户搭建了私有化部署的新闻采集系统,在新闻采集领域拥有丰富的经验。


本文转自网络,原文链接:https://developer.aliyun.com/article/787435
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!
上一篇:PolarDB for PostgreSQL 入门 | 图谱精选课程 下一篇:没有了

推荐图文


随机推荐