网易首页 > 网易号 > 正文 申请入驻

多源地名地址数据治理技术的研究与实现

0
分享至

江西地名研究

关注我们,获取更多地名资讯

摘要:地名地址是实现跨部门业务协同和实现数据共享的关键纽带,本文通过分析各部门地名地址数据情况,提出数据库设计优化方案,运用自然语言处理等技术,研究并实现了一种多源地名地址数据治理技术方案,构建 了标准统一、要素丰富、空间精准的地名地址库。

关键词:地名地址;数据治理;ETL;自然语言处理

0 引言

近年来,浙江省以数字化改革为抓手,全方位推动省域治理方式重大转型。地名地址作为识别空间的符号,关系着国防建设、经济发展、公共服务,是支撑数据空间化、实现跨部门业务协同和数据共享的关键纽带。当前地名地址普遍存在多头管理、各自为政的情况,数据重复采集严重,因此开展地名地址数据治理工作,构建标准统一、要素丰富、空间精准的地名地址库迫在眉睫。

对于地名地址数据治理,已有多篇文献进行了研究。赵骞等从测绘、民政、工商需求导向入手分析了多部门地名地址整合与协同服务方法;李琴等围绕民政、测绘、公安三部门数据管理探讨了宁波市地名地址数据建设标准;马春林提出了地名地址数据融合、预处理、数据去重、标准化、实体匹配的技术路径;陈再辉探索了FME在地名数据更新和融合模式中的应用。虽相关学者研究不少,但在数源选择、数据库体设计、治理方法等方面仍有广阔的研究前景。

本文以衢州市地名地址治理为例,分析存量数据情况,融合各数源特点和优势,利用空间ELT平台,采用自然语言处理技术,研究并设计一种便捷、自动的地名地址数据治理方法,积极探索“一地创新,全省复用”的模式。

1 治理目标

基于存量地名地址数据,运用数据清洗、匹配、比对、去重等数据治理技术手段,解决编码不统一、描述不准确、空间化不完整等问题,全面建成标准规范、信息准确、数据鲜活的地名地址数据库,构建空间治理中的多跨协同应用桥梁,更好地服务省域空间治理数字化平台衢州节点建设,为最终建成“空间数字化、数字空间化、协同网络化、治理智能化”的空间治理体系提供坚实支撑。

1.1 总体要求

1)数据唯一性。全面消除不规范地名以及地名歧义等问题,确保数据唯一存在,实现有房必有址、一地一名、一址一号。

2)空间准确性。完成地名地址数据上图入库,依托高精度基础测绘成果,全面提升数据空间精度。

3)要素关联性。完善要素关联关系,建立地名和地址的关联,门、楼、单元、户室的不同地址类型的从属关联以及要素历史关联。

4)应用广泛性。地名地址库体设计融入部门特色需求,增强部门间数据协同能力,增加数据应用广度。

1.2 数据收集和分析

衢州地名地址的命名、采集、使用和管理涉及了多个部门,民政局作为地名地址的主管部门,负责地名地址的命名以及标准地址库建设;政法委聚焦基层治理形成了基层治理全量地址库;自然资源和规划局(以下简称“资规局”)面向公共GIS服务采集了地名地址库。本次共归集地名地址数据约420万条,其中市民政局约100万条,市政法委约300万条,市资规局约20万条。各部门数据情况对比分析见表1。

1.3 库体设计

综合考虑数据的法定性、准确性和鲜活性,衢州市地名地址库以民政局、政法委地址库的库体结构为基础构建,数据库采用ArcGIS Geodatabase格式(.gdb)。

地名数据库,基于民政部《地名分类与类别代码编制规则》(GB/T 18521—2001),根据空间特征分为点状、线状以及面状地名。基础属性有唯一标识码、行政区划代码、省级名称、市级名称、区县级名称、乡镇街道名称、村社区名称、标准地名、地名类型等;扩展属性有经度、纬度、宽度等。

地址数据库,基于《浙江省“基层治理四平台”标准地址库建设技术规定》,在门、楼、户室地址的基础上增设单元地址,包括标准地址和全量地址。基础属性有标识码、地址全称、标准地址、省级区划名、设区市区划名、县级区划名、乡镇(街道)级区划名、类行政区域名、村/社区名、组/自然村名、街路巷弄名、门牌号、院落名、子区名、院内道路名、院内门牌号、楼牌号、建筑物名、单元门号、楼层、户室号等;扩展属性有兴趣点名称、照片、户主、地址用途等字段;关联属性有政法委标识码、民政标识码、所属门址标识码、所属单元标识码等。

2 关键技术应用

2.1 空间ETL平台

FME是一款强大的数据集成平台,为读写、存储、处理和转换各种空间数据提供了一套完整访问空间数据的解决方案,支持336种不同的格式,包含500多个转换器,无须编程即可快速、高质量、多需求地进行各种数据处理工作。本文基于FME Sever平台,制作地名地址数据提取、分节、融合、转换、质检等38个处理工序,并发布数据治理服务,形成自助、实时和自动化处理的数据治理链路。

2.2 Python

Python凭借着批量处理、操作简单、入门快、效率高、可跨平台且植入性高、稳定成熟等众多优点,拥有众多开放的算法库,诸如ArcGIS、FME等主流空间数据平台均已支持Python。本文将Python与FME紧密结合使用,实现地名地址数据的文本替换、属性计算、转换、质检等一系列操作。

2.3 地址识别技术

地址识别是数据治理中融合和匹配的关键环节。中文分词技术,以词作为基本单元,可实现对文本进行词语的自动切分,并形成词语项集。结巴分词(Jieba)作为常用的自然语言处理分词工具,基于HMM模型开发,拥有精确模式、全模式、搜索模式3种,具备词性标注能力,支持自定义词库,可实现一定程度的未登录词识别,基于Python编写,能嵌入FME平台使用。正则表达式,是一种能够匹配一个或多个字符的模式字符串,由一系列普通字符和元字符组成。在地址识别拆分中,地名识别采用结巴分词,而楼牌号、单元号、楼层以及户室号的识别采用正则表达式,进而实现地址描述的精准识别和拆分。

3 设计与实现

3.1地名治理设计与实现

3.1.1总体设计

地名治理以民政局的行政区划、标准地名、政法委地址库、自然资源和规划局的天地图电子地图以及1∶2000库为基础,通过数据预处理、地名词库构建、地名数据融合以及数据质检环节,完成标准地名数据库构建。技术路线如图1所示。

3.1.2地名数据预处理

地名数据预处理运用数据提取、地名类型检查、地名图形分类等操作,最终形成民政地名数据、政法委地名数据以及测绘地名数据。地名数据提取过程中,需根据所提取的字段类型进行词性标记,为构建地名词典提供基础数据。如道路名称标记为street,建筑物名称标记为building_name,院落名标记为yard_name。测绘数据作为数据空间化的核心载体,需提取道路结构线、水系线、水系面、居民地范围面等数据。

3.1.3地名词库构建

地名词库构建将民政地名数据、政法委地名数据以及测绘地名数据进行汇总、去重后,融入区划地名,生成地名词库和标准地名文件。地名词库用于地址的识别拆分,标准地名用于统一地名地址数据中的规范名称。如某小区民政法定名称为“米兰春天小区”,但政法委、测绘地名地址库中存在“华都米兰春天”“米兰春天小区”“米兰春天”等表述,需完成名称标准化后方可进行数据融合。

3.1.4地名数据融合

地址数据融合采用GeometryFilter、FeatureMerger等转换器,将地名数据按照点、线、面3种图形类型,依次与高精度的测绘数据成果进行匹配、融合以及空间落图。点状地名将与测绘的兴趣点和居民地点进行匹配融合;线状地名将依次与测绘的道路结构线(单线)、河流结构线、桥梁、水系线以及道路结构线(双线)进行匹配融合;面状地名将先后与测绘的湖泊池塘水库、小区、地名以及政法委的地名进行匹配融合。对于匹配失败的地名要素,则大致生成空间图形,便于后续修改。地名数据融合后,将根据库体设计完成库体数据整体转换以及相应属性字段(经度、纬度、长度等)的自动赋值计算。

3.1.5地名数据质检

地名的数据质检包括空间参考系检查、库体结构检查、完整性检查、属性检查、空间检查等5个质量元素检查。具体包括大地基准、图层分类定义、属性字段定义、数据完整性、逻辑正确性、属性唯一性、属性正确性、空间拓扑检查及空间定位精度9个质量子元素检查。在FME中组合使用DuplicateRemover、LineOnAreaOverlayer等转换器,完成地名成果的自动化、智能化质检。

3.2地址治理设计与实现

3.2.1总体设计

地址治理以民政局、政法委、资规局三部门的地址库为基础,通过地址识别拆分、地址标准化、地址数据融合以及数据质检,完成地址库的构建。技术路线如图2所示。

3.2.2地址识别拆分

为实现多源地址的融合,需对已归集的地址数据中的描述型地址和复合型地址进行拆分。

1)描述型地址识别拆分。描述性地址,即仅有地址描述,没有地址分节信息的地址,此类情况多数存在于民政地址。以“乐业景观小区A9幢4号”地址为例,在FME中使用PythonCaller转换器,利用结巴分词和正则表达式,可对该地址精准识别为“乐业景观小区(yard_name)/A9幢(building_num)/4号(home)”,其中yard_name、building_num以及home分别对应院落名、楼牌号以及户室号。在治理过程中,会出现识别失败的情况,如“戴家村下周25号”,被识别“戴家村(community)/下(f)/周(nr)/25号(door)”,其中的“下周”未识别为自然村(village),原因为地名词库中不含“下周”,补充词库即可正确识别拆分。在新街道治理中,32244条数据中,未识别405条,识别率达98.75%。

2)复合型地址识别拆分。复合型地址是指一个地址中包含了多个地址信息,如“西安古街260—264号”,包括了“西安古街260号、262号、264号”3个地址。此类地址在民政以及政法委地址库中均有存在。通过FME提供的TestFilter和PythonCaller转换器完成地址的拆分。

3.2.3地址数据标准化

根据地名治理中生成的地名词库,完成对民政、政法委以及资规地址数据的名称标准化替换,为多源地址数据匹配融合消除障碍。

3.2.4地址数据融合

地址匹配融合基于Matcher转换器,暴露匹配字段,完成数据融合。针对不同的地址类型,制定不同的匹配策略,如门址的匹配采用了街路巷弄名+门牌号、自然村+门牌号等,楼址的匹配规则包括院落名+子区+楼牌号、自然村+门牌号等。地址匹配成功后,利用Python进行自动融合、赋码以及去重,并按照关联要求,建立门、楼、单元以及户室地址的关联。

3.2.5地址数据质检

地址的数据质检总体与地名数据质检相类似,包括空间参考系检查、库体结构检查等5个大类、10个小类、13个检查项,部分如下:

1)地址分类检查。根据地址分类结合地址分节信息,判断地址分类是否正确,如院落门址是否填写院落名称。

2)关联关系检查。根据地址类型、分节字段检查关联关系,如牡丹园的楼址不能关联郁金香郡小区的单元地址。

3)地址相交检查。包括自相交和互相交检查,采用参数化配置实现各类地址的空间检查,如门址间距不能低于3m、楼址与门址必不能相交、户室址必须与单元址或楼址相交等。

4)地名关联检查。根据地址及所关联的地名,检查空间是否一致,如道路门址是否在道路线的两侧,小区院落的楼址、单元址、户室址要求落入地名的范围中等。

4 生产与应用

以衢州市柯城区为例,共归集地名数据1286条,民政地址302488条,政法委地址635169条,资规地址61262条。采用本文的技术路线治理后,地名库数据2065条,其中点状地名740条,线状地名649条,面状地名676条,新增地名数据779条;地址库数据713025条,其中门址27193条,楼址119065条,单元地址42841条,户室地址523926条。数据治理整体效果良好,经测算,作业时间缩短30%,地名数据融合率100%,地址拆分准确率优于95%,数据融合率76.3%,数据成果错误率低于5%。

5 结束语

本文以构建标准统一、要素丰富、空间精准的地名地址库为目标,设计了多部门适用的地名地址数据库,基于空间ETL平台,研究并实现了一种多源地名地址数据治理技术,并以衢州市柯城区为例进行了试验生产。治理结果表明,该技术切实可行,能快速、高效、精准、智能地支撑地名地址数据融合工作,节约了大量的人力资源,成果质量精准可信,具备在浙江省推广复用的前景。

来源:《测绘与空间地理信息》2023年第4期

作者:戴煜炜、丁宗玮、郭睿、胡聪南、杨陈程

选稿:黎淑琪

编辑:计梦菲

校对:杨 琪

审订:宋柄燃

责编:黎淑琪

(由于版面有限,文中注释内容请参考原文)

往期精彩推送

微信扫码加入

中国地名研究交流群

QQ扫码加入

江西地名研究交流群

欢迎来稿!欢迎交流!

转载请注明来源:“江西地名研究”微信公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

老黯谈娱
2026-05-26 12:47:27
北京刚淘汰没多久,赵睿开启特训,为后续世预赛做准备!

北京刚淘汰没多久,赵睿开启特训,为后续世预赛做准备!

篮球资讯达人
2026-05-27 23:36:46
美国漫展惊现“新鲜脚汁” 一杯卖15美元

美国漫展惊现“新鲜脚汁” 一杯卖15美元

3DM游戏
2026-05-25 15:33:17
抗战初期,贺老总一度很闹心:120师两个首任旅长,都出了变故!

抗战初期,贺老总一度很闹心:120师两个首任旅长,都出了变故!

兴趣知识
2026-05-28 00:26:11
“不认识他,上来就扇我媳妇的脸,给她打个脑震荡”,河南一小区多位业主称物业经理喝酒后,对业主们又打又骂无差别攻击,警方已立案调查

“不认识他,上来就扇我媳妇的脸,给她打个脑震荡”,河南一小区多位业主称物业经理喝酒后,对业主们又打又骂无差别攻击,警方已立案调查

潇湘晨报
2026-05-27 21:20:16
唯一不与中国建交的邻国,首都离中国仅45公里,曾实行一妻多夫

唯一不与中国建交的邻国,首都离中国仅45公里,曾实行一妻多夫

抽象派大师
2026-05-17 02:10:48
洛夫顿最新伤情来了!亲自发声,卢伟表态,广厦翻盘机会来了?

洛夫顿最新伤情来了!亲自发声,卢伟表态,广厦翻盘机会来了?

萌兰聊个球
2026-05-27 08:09:30
东坝夜市爆火!但吐槽的也真多!

东坝夜市爆火!但吐槽的也真多!

东坝邻友圈
2026-05-27 17:21:48
黄仁勋有“分身”了?辽宁小伙穿皮衣拿显卡,播放量破百万!

黄仁勋有“分身”了?辽宁小伙穿皮衣拿显卡,播放量破百万!

雷科技
2026-05-27 18:54:20
婴儿哭了30万年,终于有人听懂

婴儿哭了30万年,终于有人听懂

碳基打工人
2026-05-18 01:39:40
倒查5年!最严医疗反腐新规动真格了

倒查5年!最严医疗反腐新规动真格了

医脉圈
2026-05-26 20:52:59
有个词叫破窗效应。如果你整天不学习,不运动,生活是不会变好的

有个词叫破窗效应。如果你整天不学习,不运动,生活是不会变好的

富书
2026-05-16 13:00:57
没想到,卷入草台风波的张雪,因台湾馆长一句话赚足海峡两岸口碑

没想到,卷入草台风波的张雪,因台湾馆长一句话赚足海峡两岸口碑

阿伧说事
2026-05-27 19:52:02
国乒赛事延期?前国手透露原因,这次想开了,王曼昱问题值得重视

国乒赛事延期?前国手透露原因,这次想开了,王曼昱问题值得重视

三十年莱斯特城球迷
2026-05-27 23:52:10
湖北大娘割四赔五后续!村干部垫钱,当地人曝更多,欺生已成习惯

湖北大娘割四赔五后续!村干部垫钱,当地人曝更多,欺生已成习惯

小鋭有话说
2026-05-27 14:12:59
教师行业倒查进入最严期,重点查处4类问题!

教师行业倒查进入最严期,重点查处4类问题!

细说职场
2026-05-27 18:29:33
欧洲主要股指收盘集体收涨

欧洲主要股指收盘集体收涨

财联社
2026-05-27 23:36:07
“后悔了”!《给阿嬷的情书》原主演称放弃机会遗憾,恳请再合作

“后悔了”!《给阿嬷的情书》原主演称放弃机会遗憾,恳请再合作

童叔不飙车
2026-05-27 13:09:52
荷兰队世界杯名单身价:赫拉芬贝赫9000万最高,全队8.39亿欧

荷兰队世界杯名单身价:赫拉芬贝赫9000万最高,全队8.39亿欧

懂球帝
2026-05-27 22:44:19
许世友酒后和386旅政委打架,惹怒了陈赓,刘伯承直接将他调走!

许世友酒后和386旅政委打架,惹怒了陈赓,刘伯承直接将他调走!

史之韵
2026-05-28 00:57:35
2026-05-28 03:07:00
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行业资讯。
3445文章数 308关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

本地
时尚
数码
健康
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

这几件单品太火了,今年流行的风格都离不开它

数码要闻

雷鸟GT系列AR眼镜发布 267英寸巨幕+杜比视界 1899起

打外泌体会比干细胞更安全吗

军事要闻

以军称已打死哈马斯新任军事领导人

无障碍浏览 进入关怀版