众所周知,英文是以词为单位,词与词之间用空格隔开,例如【Thank you.】 计算机很容易通过空格来识别 you 是一个单词。而中文是以字为单位,通过字组成的句子来表述意思。例如,【北京市东城区长安街】,计算机很难知道【长安街】是一个不能拆分的词,这就需要我们创建词典库文件(*.dct),词典库规定了中文分词规则,分词是把中文的汉字序列切分成有意义的词,词典库是这些有意义的词的集合。而地址匹配是基于词典库进行的,中文分词的准确与否,直接影响到搜索结果正确性和相关度排序。例如:
- 【北京市东城区长安街】:地址词典里面有“北京市”、“东城区”、“长安街”等词,则【北京市东城区长安街】就会被分成“北京市/东城区/长安街”。只有输入“北京”或“东城区”或“长安街”这几个词中的一个或这个作为关键词进行搜索,“北京市东城区长安街”才能被搜索出来。
- 【和服】:好的地址词典里面“和服”应该作为一个不能再分的词,这样搜索结果是与“和服”这类服装有关的内容,例如“日本和服产业”等;而若地址词典里“和服”被分词为两个字“和”“服”,则搜索结果就会出现“产品和服务”等不正确的结果。类似的词语还有常用地名、人名、单位名称、商品名称等。例如,“北京”、“徐志摩”、“超图”、“可口可乐”等。
SuperMap iDesktopX 提供地址词典库的管理,包括添加、删除、修改地址词典中的词,同时支持文本文件(*.txt)与地址词典文件(*.dct)的相互转换,还可以实现多个地址词典文件合并。
- 支持创建地址词典库,可通过逐个添加词汇或导入文本文件(*.txt)进行创建;
- 支持对已有词典库进行添加或删除等编辑操作;
- 支持导出地址词典库,或导出为文本文件(*.txt)。
操作说明
功能入口
- 交通分析 选项卡-> 地理编码 -> 词典库 ;
在 词典库 对话框中,工具栏可指定编辑词典库及导入导出词典库等,对话框左侧显示当前默认词典库的词条列表,右侧为新增词条编辑输入框。
-
设置词典库(.dct)文件 ,对其进行词条的增删改查,默认读取产品包根目录下:..\support\Geocoding\DefaultDictionary.dct 默认词典库文件。该词典库文件为空,可添加词条资源,创建新的词典库。同时可指定已有词典库文件,对词典库文件进行删除、修改等操作。
- 新增词条 :在右侧文本框区域输入要新增的词条,通过空格或换行相隔,输入完毕后单击“更新词条” 按钮,或使用快捷键:Ctrl+Enter,进行词条新增。
注 :输入词条规则不能以数字、英文开头,重复词条将添加失败。 - 导入txt文件 :读取txt文件快速添加词条:也可通过导入txt文件,txt文件内词条读取到词条输入区域,再重复执行“新增词条”方法,进行词条的新增。
- 增删改查 :在对话框左侧的词条列表区,可对某一词条进行修改(双击修改单元格),也可选中某一行或多行, 执行删除。
- 新增词条 :在右侧文本框区域输入要新增的词条,通过空格或换行相隔,输入完毕后单击“更新词条” 按钮,或使用快捷键:Ctrl+Enter,进行词条新增。
- 导入词典库(.dct)文件 :通过导入已有词典库文件,将其与当前词典库合并,生成一个全新的词典,新词典中包含合并前两个词典中所有词条,如果合并前两词典中有相同词条,会进行合并。
- 导出词典库(.dct)文件 :将当前展示词典库内容导出为dct文件;
- 导出txt文件 :将当前展示词典库内容导出为txt文件。
词典库与属性表互转
支持将词典库文件(*.dct) 与属性表数据集进行相互转换;
词典库转属性表
由于词典库文件是以二进制进行保存的,不足以直观的了解词典库的内容,可通过词典库转属性表功能,在转换后的属性表中修改词典文件更直观。
功能入口
- 交通分析 选项卡-> 地理编码 -> 词典库 -> 词典库->属性表 ;
- 工具箱 -> 地理编码 -> 词典库->属性表 ;
参数描述
- 词典库文件 :选择词典库文件。
- 结果数据 :结果属性表数据集所在数据源,设置结果数据集的名称,默认名称为 result_DictionaryToTabular。
属性表转词典库
功能入口
- 交通分析 选项卡-> 地理编码 -> 词典库 -> 属性表->词典库 ;
- 工具箱 -> 地理编码 -> 属性表->词典库 ;
参数描述
- 源数据 :选择当前工作空间中属性表数据集。
- 词条字段 :属性表中用作分词的字段。
- 词频字段: :用作记录这个词条被使用的次数,词频高的词将优先作为词条被筛选分出。
- 结果数据 :设置指定的地址词典文件存储路径,及词典库文件名称。