使用 Elasticsearch Python SDK 查询 Easysearch

2024-11-20 作者:钓虾网 346

探究Easysearch：强大的大数据搜索与分析引擎

随着数据量的不断增长，高效查询和分析大数据集成为了企业迫切的需求。在这一背景下，Easysearch作为一款国产的搜索和分析引擎，作为Elasticsearch的优质国产替代方案，正逐渐受到广泛关注。它支持原生DSL查询语法和SQL查询，这意味着您的原业务代码无需调整即可无缝迁移至Easysearch。更重要的是，它兼容ES 7.x现有的SDK和索引存储格式，支持冷热架构和索引生命周期管理，为用户提供了一站式的数据处理解决方案。

接下来，我们将带您深入了解如何使用ES 7.x Python SDK与Easysearch进行交互，涵盖安装、连接、数据操作和查询等各个方面。

一、安装Elasticsearch Python客户端

要开始使用Elasticsearch Python客户端，首先需要通过pip进行安装。请在终端或命令提示符中运行以下命令：

```bash

pip install elasticsearch==7.13.1

```

请注意，如果使用默认版本安装可能会安装8.x的依赖，导致出现“elasticsearch.UnsupportedProductError: The client noticed that the server is not Elasticsearch and we do not support this unknown product.”的错误。这是因为Elasticsearch在7.10.2版本后更改了许可模式，引入了Server Side Public License (SSPL)和Elastic License。许多基于Elasticsearch 7.10.2分支的搜索引擎需要使用7.x版本的SDK和agent，例如Beats全家桶。

接下来是一个获取集群信息的实例。通过es.cluster.health()调用Elasticsearch集群的健康检查API，可以返回集群的健康状态。由于可能使用自签名证书，初始化时需添加verify_certs=False参数。为了忽略开发或测试环境中的警告信息，我们可以使用warnings.filterwarnings("ignore")来设置Python的警告系统。

```python

import urllib3

import elasticsearch

from elasticsearch import Elasticsearch

import warnings

from pprint import pprint

禁用所有警告

warnings.filterwarnings("ignore")

print(elasticsearch.VERSION)

禁用警告

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

url = "ip:9200/"

user_passwd = ('user', 'passwd') 设置连接凭证

es = Elasticsearch([url], http_auth=user_passwd, verify_certs=False) 建立连接

health = es.cluster.health() 检查集群健康状态

pprint(health)

```

二、准备示例数据

使用 REST API 进行查询操作

REST API 是与 Easysearch 通信的桥梁。开发者可以通过发送 HTTP 请求，轻松执行索引文档、搜索数据等操作。你可以使用 Postman 这样的工具测试 HTTP 端点的响应情况。一旦确认端点正常工作，就可以通过编程方式发送请求了。

下面是一段 Python 代码示例，展示了如何构建查询参数并通过 GET 请求发送至 Easysearch。使用 `requests` 库处理 HTTP 请求，通过 `HTTPBasicAuth` 进行身份验证。查询结果以 JSON 格式返回，并对其进行处理。如果状态码为 200，表示查询成功，否则打印错误信息。

利用 DSL 进行索引数据的增删改查

DSL（Domain-Specific Language）是 Easysearch 的强大工具，允许用户构建复杂的查询。下面是如何使用 DSL 查询的示例。构建一个 DSL 查询语句，然后通过 `es.search()` 方法执行查询。查询结果存储在 `results` 中，对其进行处理并打印出来。如果没有结果，则打印相应的错误信息。

当你需要更新数据时，可以通过指定文档体的方式，将新的数据添加到 Elasticsearch 中。这里，我们指定一个 `ID` 为 `1` 的文档进行更新操作。具体操作如下：

定义需要更新的文档内容：

```python

doc = {"field": "新的值", "another_field": 新的数值}

```

接着，使用 Elasticsearch 的 `index` 方法进行更新操作：

```python

response = es.index(index="my_index", body=doc, id=1)

```

打印更新后的响应结果：

```python

print(response)

```

更新单条数据

若只想更新文档中的部分字段，可以使用 `update` 方法。例如，假设我们只想更新 `another_field` 字段的值为 `50`：

```python

update_body = {"doc": {"another_field": 50}}

response = es.update(index="my_index", id="1", body=update_body)

pprint(response)

```

删除数据

删除操作相对简单。只需指定索引和文档的 `ID`，然后调用 `delete` 方法即可：

```python

response = es.delete(index="my_index", id="1")

pprint(response)

```

索引数据 SQL 查询

除了使用传统的 Elasticsearch 查询方式，你还可以使用 SQL 方式进行查询。创建一个 SQL 查询语句：

```python

query_sql = {"query": "SELECT FROM my_index"}

```

然后，调用 `sql.query` 方法执行查询：

```python

res = es.sql.query(body=query_sql)

pprint(res)

```

索引数据批量操作

```python

bulk_data = [ ... ] 具体的批量数据定义如上所示

```

然后，调用 `bulk` 方法执行批量操作：

```python

response = es.bulk(body=bulk_data)

pprint(response)

---

创建索引的新篇章

在数据的海洋中，索引如同航海的灯塔，指引着方向。为了照亮数据的航道，我们首先需要创建一个索引。以下是创建索引的步骤：

构建一个索引主体结构`index_body`，内含设置与映射。这里的设置包括分片数和副本数，而映射则定义了字段的数据类型。例如，我们可以定义一个文本字段和一个整数字段。然后，通过调用Elasticsearch的`indices.create`方法，将新索引“new_index”呈现在舞台上。我们以简洁的方式打印响应结果。

删除索引的简洁操作

随着数据的更新和变化，有时我们需要删除旧的索引。只需一行代码，即可轻松删除名为“new_index”的索引。执行完毕后，查看返回的响应以确认删除操作是否成功。

索引存在性的检查

在大数据的丛林中，我们需要确保每一步操作都准确无误。在采取行动之前，先检查“new_index”是否存在。通过调用`indices.exists`方法，我们可以轻松获取答案。响应中的信息将告诉我们索引的状态。

总结篇章：Easysearch的魅力与优势

Easysearch虽未拥有专门的Python SDK，但它与ES 7.x的Python SDK客户端完美兼容，为开发者带来无限便利。借助ES 7.x Python SDK，开发者能轻松运用DSL和SQL语法对Easysearch进行查询和数据操作。Easysearch的主要优势在于其强大的兼容性、全面的功能、简洁明了的API、高效的数据处理性能等。无需修改现有代码即可从ES迁移到Easysearch，它提供了从简单SQL查询到复杂DSL查询的全方位支持，满足各种数据分析需求。亚马逊云技术支持专家韩旭强烈推荐Easysearch，无论是大数据处理还是数据驱动决策，它都是不可或缺的利器。

关于Easysearch的有奖征文活动

无论你是Easysearch的老用户还是初次听说，只要你对INFINI Labs旗下的Easysearch产品感兴趣，都可以参与这场活动。这是一个了解、分享和探讨Easysearch的绝佳机会。更多详情，请查看Easysearch征文活动页面。

---

文章来自《钓虾网小编|www.jnqjk.cn》整理于网络，文章内容不代表本站立场，转载请注明出处。

本文链接：https://www.jnqjk.cn/quanzi/161313.html

上一篇：Redis资料入门：快速上手实战教程
下一篇：NTP服务器-实现准确时间同步的核心组件