首页 > 最新动态 > 行业动态

ArcGIS新一代大数据挖掘技术


Esri自2013年发布了GIS tools for Hadoop,正式加入互联网大数据厂商的行列,至今已经3年了。在这3年中风云变幻,业界技术在不断的发生着变更,Esri的大数据战略也在不断的向前推进。 在刚刚结束的2016Esri空间信息技术开发者大会上,在IT热点技术专场的《ArcGIS平台下的大数据挖掘》,与往年相比,发生了明显的变化。往年因为Esri自身的原因,将大数据限定在空间大数据这个领域里面。但是今年很明显的发现,在ArcGIS的平台上,已将传统的空间二字去掉,使得平台支持的领域更加广泛。

实际上,地理信息发展了这么多年,如果说最能与互联网大数据概念挂钩的,只有LBS(基于位置的服务)数据和遥感影像的数据。这两类数据无论是从体量上,还是从生成速度、数据结构、维度以及价值密度上,都能够与互联网大数据的概念贴合。但是传统的空间分析乃至于空间数据挖掘领域,却更多是在地理空间统计样本上进行分析。而且因为空间数据的特点,诸如空间自相关、空间异质性等空间统计学与传统统计学截然不同的概念,使得很多的分析,无法采用互联网大数据中那些分布式计算的方法来实现。

在Esri中国高级咨询师卢萌看来,“这一次开发者大会,从大数据的热炒状态中,回归了地理分析的本源。”

卢萌在其《ArcGIS平台下的大数据挖掘》讲座中谈到,地理分析一直是地理信息系统区别于其他系统最大的不同点。地理信息首先是一个从不一样的视角来看待整个世界。很多人都说,做地理信息的人,每天都像神一样,在离地几百米以上的高空俯视着整个大地。而地理分析让这个视角更进了一步,不但是从高空俯视着大地,而且通过不同的痕迹,可以让我们的视野穿越过去未来,在更广阔的空间和时间线了解发生了什么事情。

其次,地理学研究的领域是所有领域中最为广泛的,上至无穷的太空,下至人类所能探测到的最深的地底,都是地理学的研究范围,很多研究都在改变着我们的生活。这样一个广泛的领域构成了一个巨复杂的系统,比之这个系统的庞大程度,特别是随着人类观察手段的日益提升,互联网所谓的大数据,在它面前,也都是九牛一毛。

在回归地理分析本源的情况下,卢萌还介绍了新一代技术能够给地理分析带来什么。

他认为,首先就是业界最流行的Hadoop的MapReduce框架进化到2.0之后,对地理分析带来的价值。本次开发者大会,首次在GIS领域演示了新一代大数据分析框架Spark的应用。

因为传统的MpaReduce架构对迭代运算的支持很不好,所以很多地理分析都无法运行在其上面,更多的只是在它上面运行诸如过滤、聚合这样的简单的空间分析。而新一代的Spark框架,因为其采用了弹性分布式数据集(RDD)这一特性,能够使得在Spark框架上,进行迭代运算的效率,超过传统MapReduce的百倍以上。这样,很多的分析算法就能够直接跑在Spark上面了,诸如空间分析领域中最重要的前提计算步骤:构建空间权重矩阵。利用Spark的优势,完全可以将庞大的空间权重矩阵加载到RDD中,然后每次运算都可以从预先构建的矩阵中快速获取邻近要素。这样就让很多在以前不可能实现、具有强空间自相关的分析在分布式集群框架上运行了。

据卢萌透露,未来,Esri的分布式并行计算框架,将慢慢的从MapReduce上转移到Spark上来。另外作为空间技术的业界领导者,Esri也致力于推动开源技术的发展。所以他建议有兴趣的朋友可以从GitHub上下载最新的GIS Tools for Hadoop,开始尝试Spark分析框架在空间分析领域给我们带来的变化。

卢萌最后还指出,ArcGIS软件作为平台级产品,无论是对空间信息技术的支撑,还是对非空间信息的内容进行支撑,都在不断的进步。“从淘汰VB,将Python作为官方指定脚本,到能够在平台中直接引入R语言,都表明了这种趋势,未来ArcGIS平台将更加强大,也会有更广泛的应用。”


上一篇个人开发者如何利用工具快速开发出完美APP应用
下一篇Esri开发者大会 ArcGIS Pro看点十足

相关文章

二维码