您的位置: 网界网 > 软件 > 正文

使用Amazon CloudSearch 梳理云数据库

2014年12月10日 20:38:15 | 作者:Dan Sullivan | 来源:TechTarget中国 | 查看本文手机版

摘要:只需要很少的工作及重构,Amazon CloudSearch使得开发人员能够方便地查询非结构化数据,从而寻找到有价值的东西。

标签
云数据库
结构化数据
Amazon

云端数据库对于存储和管理结构化数据来说是十分理想的,尤其是它可以巧妙地将数据整合到关系表中。但企业处理的许多数据都是非结构化或半结构化的。另外,还有一些企业的数据由易于查找的自由格式文本组成。关系型数据库处理有关成本、尺寸和数量等产品信息。然而,如果增加了几个段落的详细说明,那么数据库就会无法正常工作。在这种情况下,企业就需要搜索引擎的支持了。

搜索引擎是一种应用程序,它允许用户使用与关系型数据库几乎相同的方式来查询结构化或半结构化数据。企业在AWS云上存储和管理着大量半结构化内容,以便于使用AmazonCloudSearch 来获取数据。

一些搜索引擎用来处理半结构化或非结构化数据,并能读取多种文件类型,如DOCX,PDF和TXT。亚马逊CloudSearch还可以兼容JSON或XML文档。所以,如果你的数据内容是不同的形式,就需要把数据格式预处理为这些格式之一。

CloudSearch在域中组织着半结构化数据;类似于关系型数据库,其数据表中包含若干行数据,域中包含着文档。该文档包括字段名和值。举例来说,如果你有一个用来搜索电子邮件的域,其文档将包括以下字段,如发件人、收件人、抄送、主题和信息。

使用亚马逊CloudSearch的第一步是在你的文档里定义字段。每个字段中,你可以阐明该字段中的数据是否可搜索、用户是否能够在该字段进行排序以及其他处理选项。CloudSearch也提供了提取样本数据的功能,从而避免了手动指定所有字段和处理选项,节省了时间。

一旦确定了域,文档就可以加载到CloudSearch.。然后,它们根据域的配置来进行处理。这可以包括删除常用词、不能在云计算[注]数据库中搜索到的停止字符,否则将会占用不必要的空间。在一个“stemming”进程中,文档中的文本也有可能包含已经被词根替代的单词。这有助于提高匹配、降低存储空间,例如像“rain”、“rained”和“raining”这些词都归结为词根“rain”。

当文档被加载,文字索引建成后,CloudSearch域就已经具备了查询功能。如关系数据库,它也可以做复杂或简单的查询。用户可以搜索一个简单的词组(+本站微信networkworldweixin),像“耳机”或者其他更有针对性的单词,例如,“这个字段描述应该包含‘耳机’,价格字段应该‘少于25元’并且第一个可用日期应该是‘过去的十二月之内’”。

想要执行这种布尔搜索,开发者必须要熟悉CloudSearch的查询语法。开发人员创建一个搜索界面使终端用户可以指定字段和值,同时可以隐藏CloudSearch查询语法的复杂性。

访问和扩展亚马逊CloudSearch

为了管理域、加载文件和查询域,CloudSearch拥有三个接入点,分别为管理控制台、命令行界面或编程语言的API。

和其他AWS服务一样,对于现有实例来说,如果你的文件索引或查询处理负荷过高,那么CloudSearch的规模将会扩大。CloudSearch可与小型、大型、特大型和双倍超大的搜索实例协同工作;其价格范围从0.10美元/每小时到1.10美元/每小时。当CloudSearch进行扩展时,它会启动一个更大的实例。如果CloudSearch已经使用了最大实例,它将把文件分区并使用多台服务器来索引文档或响应查询。

CloudSearch支持特殊属性搜索引擎,包括多种语言、高级搜索选项、自动查询和结果高亮化等功能。为了保护内容,该应用程序还集成了身份访问管理器。它也可以指定一个或多个IP地址,这些IP地址可以允许加载文件到数据库中。

参考资料

1.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

[责任编辑:软件频道 yu_xiang@cnw.com.cn]