数据采集技术包括哪几方面 优缺点分别是什么
数据采集技术包括哪几方面
1. 通过各软件厂商的开放数据接口,可以实现不同软件数据的互联互通。这是目前最常用的数据连接方法。
2. 优点:接口对接方式的数据可靠性和价值高,一般不存在数据重复;数据可以通过接口实时传输,满足实时数据应用的要求。
3.缺点:①接口开发成本高;②需要协调多家软件厂商,工作量大,容易出现故障;③可扩展性不高。例如,因为新的业务需要各个软件系统开发新的业务模块,所以软件系统与大数据平台之间的数据接口也需要相应的修改和改变,甚至需要推翻之前所有的数据接口代码,这需要大量的工作,需要很长的时间。
4. 软件机器人是目前前沿的软件数据对接技术,它不仅可以采集客户端软件数据,还可以采集网站中的软件数据。
5. 常见的是博威小邦软件机器人。产品的设计原则是“所见即所得”,即软件界面上的数据是在没有软件厂商的配合下采集的,输出结果是一个结构化的数据库或excel表。
6. 如果只需要界面上的业务数据,或者软件厂商不配合/关闭,或者数据库分析困难,最好使用软件机器人进行数据采集,特别是详细页面的数据采集功能更有特色。
7. 该软件的技术特点如下:①无需与软件原厂合作;②兼容性强,能采集和收集Windows平台的各种软件系统数据;③输出结构化数据;④使用方便,实现周期短,简单高效;⑤配置简单,无需编程,每个人都可以DIY软件机器人;价格比人工和接口要低得多。
8. 缺点:对软件数据采集的实时性有一定限制。
9. 网络爬虫是模拟客户端网络请求并接收请求响应的程序或脚本。它根据一定的规则自动从万维网上获取信息。
10. 爬虫采集数据的缺点:①输出数据多为非结构化数据;②只能采集网站数据,容易受到网站防爬机制的影响;③用户范围窄,需要专业编程知识才能玩。
11. 开放数据库是收集和集成数据最直接的方式。
12. 优点:开放数据库方法可以直接从目标数据库中获取所需数据,精度高,实时性有保证。这是最直接、最方便的方法。
13. 缺点:开放数据库模式还需要软件厂商之间协调开放数据库,这取决于彼此的意愿。出于安全考虑,一般不会开放;如果一个平台同时连接多个软件厂商的数据库,并实时获取数据,这对平台的性能也是一个巨大的挑战。