文本类旅游信息的自动获取与语义标注研究

  文本类旅游信息的自动获取与语义标注研究

彭晖1,何晓艺2,毛雨欣2

1..北京第二外国语学院旅游学院,北京 1000241  2.河北科技大学信息科学与工程学院,石家庄 050000;)

[摘要]数据采集和数据的语义标注往往是数据的语义分析和处理的基础,在大数据挖掘,语义检索等方面至关重要。本文研究了从旅游网站自动获取文本类旅游信息,并对这些信息进行自动的语义标注的方法。本文首先介绍了网络爬虫工具及爬虫获取网站原始数据的方法,其次介绍了中文分词工具ICTCLAS,文本关键字提取算法和文本的语义标注,最后本文从艺龙、携程旅游网站上采集了北京市247个旅游景点以及全国其他地区的4198个旅游景点的相关文本信息,并用文中介绍的方法对它们进行了自动的语义标注。

[关键词]旅游信息,分词,关键字,语义,语义标注

Research on automatic acquisition and semantic annotation of tourism information in form of text

HE Xiao-yiMAO Yu-xinPENG Hui

1.Hebei University Of Science and Technology School of information science and EngineeringShijiazhuang0500002.Beijing International Studies University School of Tourism ManagementBeijing100024

Abstract: Data collection and semantic annotation is often the basic of information processing such as semantic relation analysis of data, big data mining and semantic information search et.al. A method which collects data from tourism web site and annotates these data with semantic tags automatically is promoted in this paper. The crawler which collects data from web site automatically is introduced firstly. Then the Chinese word segmentation tool and a classic key word extraction algorithm TF/IDF are introduced. With the help of a crawler, we collection tourism information about 247 sight spots in Beijing and 4198 sight spots in other area of China from the web sites of elong and ctrip. Then with the help of the ICTCLAS and TF/IDF, we abstract keywords from the information as semantic tags to annotate the sight spots.   

Keywords: tourism information, word segmentation, keyword, semantic, semantic annotation

 

1. 引言

21世纪以来,随着信息技术日新月异,发展以新一代信息技术为支撑的智慧旅游,开发旅游信息智能融合项目是旅游服务现代化的重要基础和标志。经过多年的摸索和积累,国内已有不少具有一定服务能力的旅游网站,可以提供比较全面的旅游信息。旅游信息的不断丰富,为智慧旅游提供了数据基础,如何有效地利用这些数据,如何从已有的数据积累中挖掘用户,旅游产品,旅游服务之间的关系,使旅游服务更加精准有效,已成为智慧旅游研究的重要课题。

智慧旅游研究的重要一部分是旅游信息的语义关系研究,通过建立旅游信息的语义关系模型,计算机系统可以自动分析旅游数据之间潜在的关系,旅游数据之间的相关程度,分散的旅游数据中隐含的核心热点等等,从而展示出数据之间的规律以便供人使用。

近年来,国内外有一些关于旅游信息语义关系研究。文献[1]以西藏旅游官方网站、旅游企业网站和旅游指南网站文本为主要研究内容,采用基于语义网络分析与语义网络聚类相结合的方法,分析和研究中文互联网传播的西藏旅游形象。文献[2]利用本体论知识,结合已有地理和旅游本体,提取传统旅游地理学科知识中的核心概念,再根据大数据时代的旅游地理相关新概念来构建旅游地理本体模型。文献[3]通过将多个领域主题词表联合起来进行语义标注,提出了多领域视角下的知识标注方案,为构建知识库奠定了基础。文献[4]利用贝叶斯算法进行旅游的自动分类,其中包括与旅游相关的概念标签,结果表明贝叶斯算法对旅游分类还是很有效的。文献[5]提出一种基于旅游领域本体知识库的自动图像语义标注的方法。

旅游信息获取和语义标注是旅游信息语义关系的研究基础和重要组成部分,只有获取了足够多的数据,并且对数据进行了语义标注之后,接下来才能进行数据的语义分析。本文在后面的章节主要介绍了旅游信息获取和语义标注的方法,并提供了应用实例。

 

2. 文本信息的获取

网络爬虫是从互联网网页上获取信息常用的,有效的手段。网络爬虫,顾名思义,是从一个或若干的网络地址(URL)出发,自动地获取URL上的信息并不断转移到与之链接的URL上获取信息的程序。

网络爬虫一般包括两类:通用网络爬虫和定向网络爬虫。通用网络爬虫是一种不分主题的,对所有有效网页都收集的通用程序,只要通过爬虫控制策略设置好的要爬取的种子URL,通过搜索引擎便以种子URL为入口,对互联网的所有网页都进行抓取,不断从页面抽取新的URL放入队列,直到满足系统的一定停止条件,才停止工作。

第二类定向网络爬虫也叫主题网络爬虫,它在爬取网页时按照事先给出的主题,有所选择的进行爬取。分析超链接和已经下载的网页内容,预测下一个待抓取的URL以及当前网页的主题相关度,尽可能多的爬行、下载与主题相关的网页,尽可能减少降低与主题无关的页面下载。定向网络爬虫爬取的网页与目标主题相关性比较大,因此当用户检索信息时,准确率要比通用爬虫爬取的数据准确性要高[6]

WebMagic[7]是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的应用程序编程接口,通过编程后即可以实现一个爬虫。本文使用WebMagic实现了一个定向网络爬虫工具,从艺龙等旅游网站上获取网页信息,并将这些信息存到数据库中,这些信息包括北京市247个旅游景点以及全国其他地区的4198个旅游景点的相关文本信息,部分数据见图1

 

图1 爬取的旅游信息

Fig.1 Crawling travel information

WebMagic爬虫的主要功能部件包括:URL管理、页面下载、页面分析及链接抽取和对采集数据的处理四部分,并由网络爬虫将它们彼此组织起来构成核心部分。核心部分实现的功能是:首先,页面下载组件负责从互联网上下载旅游相关的页面;然后页面分析及链接抽取组件负责解析页面,抽取旅游相关信息,以及发现新的链接;其次URL管理组件负责管理待抓取的旅游相关的URL,以及去除一些重复的URL;最后对采集数据的处理组件负责抽取结果的处理。WebMagic的核心部分(WebMagic-core)是一个精简且具有模块化的内容,扩展的部分就需要一些很实用性的功能了。扩展部分实现的功能是:首先,在艺龙等旅游网页中爬取我们需要的旅游信息,我们使用Xpath解析式和正则表达式匹配的方法,来对旅游景点的景点名字(title),景点的网址链接(URL),景点介绍(intro),景点历史背景(history)和景点的特点(feature)进行抽取,将抽取的内容进行去重,最后将抽取内容存入MySQL数据库。

 

3. 文本内容的处理

从网页上获取的旅游信息,往往是大段的文本,要对这些信息进行语义标注,计算机需要理解这些文本的内容,选择适当的标注词进行语义标注。词和词组是理解文本语义的最小单位,由于中文语言的特性,决定了中文语言分析处理的第一个基本环节是分词。ICTCLAS,哈工大语言云,盘古分词,庖丁解牛分词是目前常用的几款常用的中文分词工具。其中中科院计算所开发的ICTCLAS[8]是最早的一款开源的中文分词软件,具有分词速度快(分词速度单机996KB/s),准确率高(98.45%),使用平台广(WINDOWS,LINUX,FREEBSD),占用系统资源少(API 不超过 200KB ,各种词典数据压缩后不到 3M),版本不断更新的特点。

ICTCLAS分词软件包括中文分词;词性标注;命名实体识别;新词识别;用户词典定义等多种功能;同时支持GBK编码、UTF8编码、BIG5编码。因此,本文最终选用ICTCLAS分词工具对获取的旅游信息进行分词处理。

使用ICTCLAS分词工具,我们依次完成以下工作:(1)构建关于旅游的用户词典,提取与旅游相关的地名、景点名、人名等专用名词,并生成自定义用户词典;(2)将自定义用户词典添加到分词工具中,对数据库里的文本信息进行分词;(3)构建停用词典,用分词软件去掉文本中对后续工作分析无意义的代词、副词、介词、连词、语气词、助词、叹词、拟声词、前缀、后缀,保留名词、动词、形容词、数词和量词、时间词和处所词等,并在分词后的词语之间添加空格;(4)将处理好的文本数据以txt形式和excel形式存储,如图2所示。

 

图2部分处理好的数据

Fig.2 Partially processed data

 

4. 关键词提取

旅游文本经过处理后,成为较为规范的文本数据。针对每个景点文本,提取出能代表每个景点特色的关键词。本文我们提取关键词使用的是TF-IDF特征,TF-IDF是搜索关键词权重的科学度量,是一种用于资讯检索与资讯勘探的常用加权技术。TF-IDF主要思想是如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。文献[9]在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词提取。文献[10]TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔科夫模型中,得到语义相似度和基础相似度,最终得到文本总体相似度。

采用TF-IDF提取关键词的具体步骤如下:1、采用公式(1)计算词频:TF是词频,计算每个词在文本中出现的次数,计算方法是某个词在文本中出现的次数除以文本的总词数。2、采用公式(2)计算IDF逆文档频率。3、采用公式(2)计算TF-IDF的值,每个词的该值按降序排列,得到文本的关键词。公式如下所示:

1

2

TF-IDF=TFIDF3

最终,我们得到北京景点的关键词如下图3所示。

 

图3部分旅游景点关键词

Fig.3 Keywords part of tourist attractions

 

5. 语义标注

本文根据处理好的旅游数据,进行分类标注,本部分以北京的景点为例子进行展示。首先对处理好的数据进行分类,主要采用自顶向下的方法来进行分类,主要分为三个大类:公园类,场馆类,遗址遗迹类。每个大类有分为若干个小类,如公园类下面有城市公园、森林公园、采摘园和游乐场四个子类;场馆类下面有博物馆、艺术馆、纪念馆、故居和体育馆五个子类;遗址遗迹类下面有寺庙、皇家园林、长城、胡同、古村落和遗迹六个子类。分类如下图4所示。

图4旅游景点分类图

Fig.4 Classification of tourist attractions

每个子类下面有景点实例,本文利用Protégé5.0来构建本体。文献[11]中对Protégé的描述是“Protégé是斯坦福大学研究人员根据本体构建需要开发的一款本体开发软件,为实现工具软件对其他语言的兼容性和开放性,Protégé软件的开发采用面向对象语言——Java语言进行开发”。Protégé简单方便的操作界面和一些帮助功能为本体的构建提供了高度的便捷,它还支持多个系统间的交互,增强了软件的普遍适用性。本文利用Protégé构建本体如图5所示。

 

图5Protégé本体构建

Fig.5The ontology construction of Protégé

 

6. 结束语

旅游信息获取和语义标注是旅游信息智能处理的前提和基础,在语义标注的基础上,旅游信息的语义加工包括语义关系分析,语义检索,信息管理和推荐,信息评价等一系列智慧管理方法,通过信息的有效管理和利用,可以开展更好的旅游规划和服务。

 

参考文献

[1]王晓辉. 互联网传播的西藏旅游形象研究——基于中文旅游网站文本的语义网络分析[J]. 贵州民族研究,2014,10:165-168.

[2] 洪烨, 康明娟, 李仁杰, . 旅游地理本体模型设计与张家界实例研究[J]. 地理与地理信息科学, 2016, 32(3): 95-99.

[3]李鹏. 多领域视角下的知识标注研究与实现[J]. 情报工程, 2016, 1: 013.

[4] Peng H. Annotating Tourism Resources with Social Tags and Classifying Them with Bayesian Algorithm[J]. International Journal of u-and e-Service, Science and Technology, 2016, 9(5): 419-428.

[5] Zhang P, Du J, Fan D, et al. Automatic Image Semantic Annotation Based on the Tourism Domain Ontological Knowledge Base[C]//CCF Chinese Conference on Computer Vision. Springer Berlin Heidelberg, 2015: 61-69.

[6] 杨靖韬, 陈会果. 对网络爬虫技术的研究[J].科技创业月刊,2010(10):170-171.

[7]http://webmagic.io/

[8] http://ictclas.nlpir.org/

[9]牛萍, 黄德根. TF-IDF 与规则相结合的中文关键词自动抽取研究[J]. 小型微型计算机系统, 2016, 37(4): 711-715.

[10]周丽杰, 于伟海, 郭成. 基于改进的 TF-IDF 方法的文本相似度算法研究[J]. 泰山学院学报, 2015 (3): 18-22.

[11]李庆赛. 旅游领域本体构建研究[D]. 郑州大学, 2015.

微信二维码
扫码添加微信咨询
QQ客服:1663286777
电话:137-1883-9017
收到信息将及时回复