数据流综述
1 引言
数据处理是计算机研究领域的一个重要方向.根据数据的存在形态,我们可以将数据处理划分为两种对偶的方式:静态数据处理和流动数据处理.
静态数据处理以数据为中心,整个数据集存储在一个庞大的,相对稳定的中央存储介质中,并随时准备接受随机到来的用户数据请求(即"查询").在数据集的生命周期,绝大部分数据是稳定不变的,而频繁变化的是用户随时可能提交的查询.静态数据处理方式的典型应用包括:数据库管理系统,信息检索系统,数据仓库系统等.长久以来,静态数据处理得到了广泛深入的研究,现已形成成熟的技术和产业.
流动数据处理方式以查询为中心,数据集仍然是庞大的,但具有高度的流动性.而相对稳定的是用户查询,大量预先定义的用户查询被注册到处理系统中,等待数据的到来.一旦数据到来,将驱动查询的执行.显然,数据密集的生产系统所产生的日志数据,都具有这种海量且流动的特点,这样的系统包括:互联网管理系统,证券交易系统,电信系统,金融交易系统,实时传感器信号分析系统等.这些应用面对的都是在线的,持续的高速数据流,系统处理的对象形态完全不同于传统的静态数据处理,由于存储空间的限制,这些数据往往不可能完全保存到存储器中,同时又必须不间断无延迟地处理这些数据流,以获得实时处理结果.由此产生了一些新的基础性研究问题.
流动数据处理长期以来没有受到足够重视,目前并不存在像数据库管理系统一样的成熟的,通用的数据流处理平台.但随着互联网技术的发展和广泛应用,国际,国内对数据流的研究已逐步得到重视,我们预计具有工业标准的通用数据流处理平台将会在数年内出现.
数据处理是计算机研究领域的一个重要方向.根据数据的存在形态,我们可以将数据处理划分为两种对偶的方式:静态数据处理和流动数据处理.
静态数据处理以数据为中心,整个数据集存储在一个庞大的,相对稳定的中央存储介质中,并随时准备接受随机到来的用户数据请求(即"查询").在数据集的生命周期,绝大部分数据是稳定不变的,而频繁变化的是用户随时可能提交的查询.静态数据处理方式的典型应用包括:数据库管理系统,信息检索系统,数据仓库系统等.长久以来,静态数据处理得到了广泛深入的研究,现已形成成熟的技术和产业.
流动数据处理方式以查询为中心,数据集仍然是庞大的,但具有高度的流动性.而相对稳定的是用户查询,大量预先定义的用户查询被注册到处理系统中,等待数据的到来.一旦数据到来,将驱动查询的执行.显然,数据密集的生产系统所产生的日志数据,都具有这种海量且流动的特点,这样的系统包括:互联网管理系统,证券交易系统,电信系统,金融交易系统,实时传感器信号分析系统等.这些应用面对的都是在线的,持续的高速数据流,系统处理的对象形态完全不同于传统的静态数据处理,由于存储空间的限制,这些数据往往不可能完全保存到存储器中,同时又必须不间断无延迟地处理这些数据流,以获得实时处理结果.由此产生了一些新的基础性研究问题.
流动数据处理长期以来没有受到足够重视,目前并不存在像数据库管理系统一样的成熟的,通用的数据流处理平台.但随着互联网技术的发展和广泛应用,国际,国内对数据流的研究已逐步得到重视,我们预计具有工业标准的通用数据流处理平台将会在数年内出现.

