Comments

计算机领域有很多概念都来自数学,今天要讨论的幂等性就是其中之一。在程序世界,幂等的意义是对于某个操作,执行一次和多次所产生的影响应该相同。比如赋值操作是幂等的,a = 1 无论运行多少次,最终的影响都是一样;而计数则不是。幂等在很多系统中都很重要,结合自己的经历,聊聊 HTTP 的幂等性和 ETL 场景里的幂等。

HTTP 的幂等性

HTTP RFC 规范里有关于幂等方法的讨论:

Methods can also have the property of “idempotence” in that (aside from error or expiration issues) the side-effects of N > 0 identical requests is the same as for a single request. The methods GET, HEAD, PUT and DELETE share this property. Also, the methods OPTIONS and TRACE SHOULD NOT have side effects, and so are inherently idempotent.

Read on →
Comments

逛 V2EX 的时候无意间看到了有个叫 牛客网 的网站,里面有很多公司的笔试真题和大家分享的面经。 出于好奇,看了一下 字节跳动(今日头条)的后端题

一共有 5 题,3 道编程,2 道问答。时候发现前面 4 题跟算法有关,其中 3 道要实现,1 道是纠错和优化,最后一题是系统设计。 做得比较差,只完成了前面两道算法题。用 Go 语言实现,代码如下。

Read on →
Comments

最近一段时间都在读 Designing Data-Intensive Applications 这本书,中文名叫《数据密集型应用系统设计》。进度比较慢,但感觉很有意思,获益匪浅。在读第四章 Encoding and Evolution (数据编码与演化)时,脑海里时常浮现出自己的开发经历,颇有共鸣。因此准备结合书本内容和自身体验,总结成文字作为记录。这一篇主要讨论编码。

编码和解码

在程序世界里,数据通常有两种不同的表现形式:内存和文件(网络)。在内存中,数据保存在对象、结构体、列表、哈希表等结构中,这些数据结构针对 CPU 的高效访问和操作进行了优化。而把数据写入文件或通过网络发送时,需要将其转换成字节序列。

从内存中的表示到字节序列的转化称为编码或序列化,反之称为解码或反序列化。

Read on →
Comments

2012 年大四的时候写过一篇 Python 时间戳和日期相互转换,当时是初学 Python,对标准库也理解不深;随便找到一种解决方案就记录下来并发到博客上了。现在回看起来,其实太过繁琐了。然而从 Google Analytics 后台看,这竟然是点击率第二的文章,着实让我感到诧异。本着对读者负责的态度,有必要结合这些年的开发经验,再写一篇日期和时间处理的博客。 首先再次回答「Python 时间戳和日期相互转换」的问题。 时间戳转日期 import datetime import time t = time.time() print('Timestamp', t) dt = datetime.datetime.fromtimestamp(t) print('Datetime', dt) 输出: Timestamp 1527927420.684622 Datetime 2018-06-02 16:17:00.684622 日期转时间戳 import datetime now = datetime.datetime.now() print('Datetime', now) print('Timestamp', now.timestamp()) 输出: Datetime 2018-06-02 16:18:42.170874 Timestamp 1527927522.170874
Comments

背景故事

线上服务器一直没有开启防火墙,没有约束用起来倒也省事。部署 Hadoop 集群(CDH 发行版)的时候,所有网上看过的教程和笔记(包括 CDH 官方文档),全部都提到了部署过程中要关闭防火墙;极少数教程会提到如果有需要,可以在部署完成后再开启;然而没有任何教程在最后真正开启了防火墙。

因为没有防火墙,其实也发生过几次安全事故:

  • 某天某台服务器 CPU 利用率很高,后来发现是因为被人利用 rundeck 的漏洞植入了一个挖矿程序;
  • 某天有个跑在 Docker 里的 Redis 出现故障,经查也是被植入了挖矿程序
  • 某天发现有台机器上有个废弃的 MySQL 跑在公网上,日志里面几乎全是尝试登录的记录

这几次事故虽然没有导致财产损失,但是公网太可怕,没有防火墙就是在外面裸奔,随时可能受到攻击。Hadoop 集群所有服务都是绑定到 0.0.0.0,加上没有开启认证,很容易被拖库。

FirewallD

最先想到的是用 iptables,之前也有使用经历,然而这玩意儿实在太复杂,概念、规则太多,一直没弄懂。CentOS 7 默认安装了 FirewallD,使用起来非常方便,也很好理解。网上的介绍和教程很多,不赘述。直接介绍我的使用策略。

FirewallD 有很多种 zone policy,直接使用默认的 public.

Read on →
Comments

  • 查询所有 session
SELECT * FROM stv_sessions;
  • 终止 session
SELECT pg_terminate_backend(32281);

即,调用 pg_terminate_backend 函数,传入 process_id。

权限:普通用户只能终止自己的 session,超级用户能终止任意 session.

  • 查询正在运行的 queries

类似 MySQL 的 SHOW PROCESSLIST.

SELECT stv_recents.userid, stv_recents.status, stv_recents.starttime,
       stv_recents.duration, stv_recents.user_name, stv_recents.db_name,
       stv_recents.query, stv_recents.pid
FROM stv_recents
WHERE stv_recents.status = 'Running'::bpchar;
Read on →
Comments

应用使用虚拟环境是每个 Python 程序员都应该要掌握的技能。 pyenv 是一个非常好用的 Python 环境管理工具。有这些主要特性:

  1. 方便的安装、管理不同版本的 Python,而且不需要 sudo 权限,不会污染系统的 Python 版本
  2. 可以修改当前用户使用的默认 Python 版本
  3. 集成 virtualenv,自动安装、激活
  4. 命令行自动补全

详细内容见 Github - pyenv/pyenv.

安装 pyenv

最简单的方式是使用 pyenv-installer:

curl -L https://raw.githubusercontent.com/pyenv/pyenv-installer/master/bin/pyenv-installer | bash

然后在 ~/.bashrc~/.zshrc 中添加如下内容:

export PATH="~/.pyenv/bin:$PATH"
eval "$(pyenv init -)"
eval "$(pyenv virtualenv-init -)"
Read on →
Comments

通过 yum 安装:

$ sudo yum install java-1.8.0
$ sudo rpm -Uvh http://repo.rundeck.org/latest.rpm
$ sudo yum install rundeck

如果已经安装了 Java,第一步可以略过。安装过程中有几个步骤需要确认,一路同意(输入 y)即可。

安装完成后可以立即运行:

$ sudo service rundeckd start

但生产环境还是要修改一些默认配置。上面的安装过程会添加一个名为 rundeck 的用户和组。配置文件位于 /etc/rundeck:

$ sudo su - rundeck
$ cd /etc/rundeck/
$ ll
-rw-r-----. 1 rundeck rundeck  738 Apr 20 07:47 admin.aclpolicy
-rw-r-----. 1 rundeck rundeck 1104 Apr 20 07:47 apitoken.aclpolicy
-rw-r-----. 1 rundeck rundeck  511 Apr 20 07:47 cli-log4j.properties
-rw-r-----. 1 rundeck rundeck 1438 Jun 19 16:52 framework.properties
-rw-r-----. 1 rundeck rundeck  136 Apr 20 07:47 jaas-loginmodule.conf
-rw-r-----. 1 rundeck rundeck 7538 Apr 20 07:47 log4j.properties
-rw-r-----. 1 rundeck rundeck 2889 Apr 20 07:47 profile
-rw-r-----. 1 rundeck rundeck  549 Apr 20 07:47 project.properties
-rw-r-----. 1 rundeck rundeck 1065 Jun 20 11:54 realm.properties
-rw-r-----. 1 rundeck rundeck  579 Jun 20 11:56 rundeck-config.properties
drwxr-x---. 2 rundeck rundeck   27 Jun 19 16:52 ssl
Read on →
Comments

Babel

Babel is an integrated collection of utilities that assist in internationalizing and localizing Python applications, with an emphasis on web-based applications.

Flask-Babel

Flask 的 i18n 扩展,集成 babel、pytz 等。

使用

  • 安装:pip install Flask-Babel

  • babel 配置文件:babel.cfg

[python: **.py]
[jinja2: **.html]
extensions=jinja2.ext.autoescape,jinja2.ext.with_,webassets.ext.jinja2.AssetsExtension
Read on →
Comments

创建 EC2 实例的时候可以选择添加 EBS 卷,在实例运行后,需要手动挂载上去。

详情见 EBS 的文档

lsblk 命令查看所有可用的磁盘及其安装点

$ lsblk
NAME    MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
xvda    202:0    0   8G  0 disk
`-xvda1 202:1    0   8G  0 part /
xvdb    202:16   0  30G  0 disk

其中 xvda1 是根设备,挂载到了 /xvdb 是刚才添加的 EBS 卷,还没有挂载。

Read on →
getElementsByTagName('BODY')[0]).appendChild(s); }()); getElementsByTagName('BODY')[0]).appendChild(s); }()); getElementsByTagName('BODY')[0]).appendChild(s); }());