词典库

众所周知,英文是以词为单位,词与词之间用空格隔开,例如【Thank you.】 计算机很容易通过空格来识别 you 是一个单词。而中文是以字为单位,通过字组成的句子来表述意思。例如,【北京市东城区长安街】,计算机很难知道【长安街】是一个不能拆分的词,这就需要我们创建词典库文件(*.dct),词典库规定了中文分词规则,分词是把中文的汉字序列切分成有意义的词,词典库是这些有意义的词的集合。而地址匹配是基于词典库进行的,中文分词的准确与否,直接影响到搜索结果正确性和相关度排序。例如:

  • 【北京市东城区长安街】:地址词典里面有“北京市”、“东城区”、“长安街”等词,则【北京市东城区长安街】就会被分成“北京市/东城区/长安街”。只有输入“北京”或“东城区”或“长安街”这几个词中的一个或这个作为关键词进行搜索,“北京市东城区长安街”才能被搜索出来。
  • 【和服】:好的地址词典里面“和服”应该作为一个不能再分的词,这样搜索结果是与“和服”这类服装有关的内容,例如“日本和服产业”等;而若地址词典里“和服”被分词为两个字“和”“服”,则搜索结果就会出现“产品和服务”等不正确的结果。类似的词语还有常用地名、人名、单位名称、商品名称等。例如,“北京”、“徐志摩”、“超图”、“可口可乐”等。

SuperMap iDesktopX 提供地址词典库的管理,包括添加、删除、修改地址词典中的词,同时支持文本文件(*.txt)与地址词典文件(*.dct)的相互转换,还可以实现多个地址词典文件合并。

  • 支持创建地址词典库,可通过逐个添加词汇或导入文本文件(*.txt)进行创建;
  • 支持对已有词典库进行添加或删除等编辑操作;
  • 支持导出地址词典库,或导出为文本文件(*.txt)。

操作说明

功能入口

  • 交通分析 选项卡-> 地理编码 -> 词典库

词典库 对话框中,工具栏可指定编辑词典库及导入导出词典库等,对话框左侧显示当前默认词典库的词条列表,右侧为新增词条编辑输入框。

  • 设置词典库(.dct)文件 ,对其进行词条的增删改查,默认读取产品包根目录下:..\support\Geocoding\DefaultDictionary.dct 默认词典库文件。该词典库文件为空,可添加词条资源,创建新的词典库。同时可指定已有词典库文件,对词典库文件进行删除、修改等操作。

    • 新增词条 :在右侧文本框区域输入要新增的词条,通过空格或换行相隔,输入完毕后单击“更新词条” 按钮,或使用快捷键:Ctrl+Enter,进行词条新增。
      :输入词条规则不能以数字、英文开头,重复词条将添加失败。
    • 导入txt文件 :读取txt文件快速添加词条:也可通过导入txt文件,txt文件内词条读取到词条输入区域,再重复执行“新增词条”方法,进行词条的新增。
    • 增删改查 :在对话框左侧的词条列表区,可对某一词条进行修改(双击修改单元格),也可选中某一行或多行, 执行删除。
  • 导入词典库(.dct)文件 :通过导入已有词典库文件,将其与当前词典库合并,生成一个全新的词典,新词典中包含合并前两个词典中所有词条,如果合并前两词典中有相同词条,会进行合并。
  • 导出词典库(.dct)文件 :将当前展示词典库内容导出为dct文件;
  • 导出txt文件 :将当前展示词典库内容导出为txt文件。

词典库与属性表互转

支持将词典库文件(*.dct) 与属性表数据集进行相互转换;

词典库转属性表

由于词典库文件是以二进制进行保存的,不足以直观的了解词典库的内容,可通过词典库转属性表功能,在转换后的属性表中修改词典文件更直观。

功能入口

  • 交通分析 选项卡-> 地理编码 -> 词典库 -> 词典库->属性表
  • 工具箱 -> 地理编码 -> 词典库->属性表

参数描述

  • 词典库文件 :选择词典库文件。
  • 结果数据 :结果属性表数据集所在数据源,设置结果数据集的名称,默认名称为 result_DictionaryToTabular。

属性表转词典库

功能入口

  • 交通分析 选项卡-> 地理编码 -> 词典库 -> 属性表->词典库
  • 工具箱 -> 地理编码 -> 属性表->词典库

参数描述

  • 源数据 :选择当前工作空间中属性表数据集。
  • 词条字段 :属性表中用作分词的字段。
  • 词频字段: :用作记录这个词条被使用的次数,词频高的词将优先作为词条被筛选分出。
  • 结果数据 :设置指定的地址词典文件存储路径,及词典库文件名称。

相关内容

地理编码概述

生成地址索引

发布地址索引