内容:做地理信息这行七年了,头发掉了一把,坑也踩了一堆。
今天不整那些虚头巴脑的理论。
直接聊点实在的。
很多刚入行或者准备搞空间分析的朋友。
一听到要处理geo数据就头大。
特别是选数据集这一步,选错了后面全白搭。
我见过太多人为了省事,直接下载个开源的shapefile。
结果导入ArcGIS或者QGIS一看,坐标系乱成一锅粥。
投影不对,距离算出来差着十万八千里。
这时候再想改,数据量一大,电脑直接卡死。
所以,_geo数据集选择 真的不能马虎。
咱们得先搞清楚,你到底要干嘛?
是做宏观的全国范围分析,还是微观的城市街道级?
如果是做宏观的,比如各省GDP与地形的相关性。
那分辨率低点的全球数据集其实就够了。
像Natural Earth这种,免费又好用。
但如果你想看某个小区周边的交通噪音分布。
那你必须得找高精度的矢量数据。
这时候别嫌麻烦,去政府开放数据平台或者专业测绘局买。
虽然贵点,但省下的调试时间更值钱。
我记得去年有个客户,非要用免费的OpenStreetMap数据。
想分析城市绿地覆盖率。
结果因为OSM的边界有时候是模糊的,或者分类不准。
算出来的绿地率跟实地调研差了快15%。
客户差点没把我电话打爆。
后来我让他重新去爬取高分辨率的遥感影像,再自己矢量化。
虽然累得半死,但最后结果靠谱多了。
这就是教训。
选数据的时候,一定要看元数据。
别光看文件大小,得看时间戳、来源、精度说明。
很多老数据,十年前的卫星图,现在看根本没用。
城市变化太快了,去年的路今年可能就改了。
还有一个大坑,坐标系。
WGS84和CGCS2000,看着像,用起来差远了。
特别是涉及国土、规划的项目。
必须用国家规定的坐标系。
不然上报数据被打回来,那滋味不好受。
我在选 _geo数据集选择 时,有个习惯。
先小范围测试。
拿个几百条数据试试跑跑模型。
看看有没有拓扑错误,有没有重叠。
如果有,赶紧换源。
别等全部跑完了再发现。
那时候哭都来不及。
另外,格式也很关键。
别老盯着shp看。
GeoJSON、GeoPackage这些新格式,体积小,支持好。
特别是做Web端展示的时候。
shp加载慢得让人想砸键盘。
最后想说,数据质量决定上限。
别贪便宜,别图省事。
多花点时间在数据预处理上。
把 _geo数据集选择 这一步做扎实了。
后面的分析才能顺风顺水。
毕竟,垃圾进,垃圾出。
这是铁律。
希望大家都能避开这些坑,少加点班。
早点下班回家陪陪家人。
这才是正经事。