标签 mysql 下的文章

MySQL distinct 与 group by 去重的用法和区别（where/having）

作者: Joyber
时间: 2020-10-22
分类: 默认分类
评论

MySQL中常用去重复数据的方法是使用 distinct 或者 group by ，以上2种均能实现，但2者也有不同的地方。

distinct 特点：
如：select distinct name, sex from tb_students 这个sql的语法中，查询 tb_students 表中 name, sex 并去除名字和性别都重复的学生：

1、distinct 只能放在查询字段的最前面，不能放在查询字段的中间或者后面。

备注：select sex, distinct name from tb_students 这种写法是错误的，distinct 只能写在所有查询字段的前面
单独的字段这样也行
select count(distinct sex) from tb_students

2、distinct 对后面所有的字段均起作用，即去重是查询的所有字段完全重复的数据，而不是只对 distinct 后面连接的单个字段重复的数据。

备注：也就是 distinct 关键字对 name, sex 都起作用，去重姓名、性别完全一样的学生，如果姓名相同、性别不同是不会去重的。

3、要查询多个字段，但只针对一个字段去重，使用 distinct 去重的话是无法实现的。

group by 特点：
1、一般与聚类函数使用（如count()/sum()等），也可单独使用。

2、group by 也对后面所有的字段均起作用，即去重是查询的所有字段完全重复的数据，而不是只对 group by 后面连接的单个字段重复的数据。

3、查询的字段与 group by 后面分组的字段没有限制。

PHP生成MYSQL批量更新的SQL语句

作者: Joyber
时间: 2020-07-15
分类: 默认分类
评论


    private function updateBatchSql($table, $data, $key) {
        if (empty($data)) {
            throw new Exception('data format is error');
        }
        $ids = array_column($data, $key);
        $_ids = implode("','", $ids);
        $cols = array_keys($data[0]);
        $sql = "UPDATE {$table} SET %s WHERE `{$key}` IN ('{$_ids}')";
        $update = [];
        foreach ($cols as $v) {
            if ($v == $key) continue;
            $_str = "`{$v}`= ( CASE `{$key}` %s ELSE `{$v}` END)";
            $_when = [];
            foreach ($data as $row) {
                $_when[] = "WHEN '{$row[$key]}' THEN '{$row[$v]}'";
            }
            $_str = sprintf($_str, implode(' ', $_when));
            $update[] = $_str;
        }
        $sql = sprintf($sql, implode(', ', $update));
        return $sql;
    }

删除mysql表中的重复数据

作者: Joyber
时间: 2020-05-26
分类: 默认分类
评论

DELETE FROM pre_table WHERE id in (
SELECT b.id FROM pre_table b
INNER JOIN (SELECT title, COUNT(1) total, MIN(id) as mid FROM pre_table GROUP BY title ORDER BY total desc ) t on t.title = b.title
WHERE t.total>1 AND b.id != t.mid
)

如何判断MySql是否可用

作者: Joyber
时间: 2020-04-05
分类: 默认分类
评论

转的别人的文章：https://blog.csdn.net/weixin_40735752/article/details/88077362
在一主一从或一主多从的mysql架构中，当主库不可用时，需要及时切换到从库，那么，如何判断主库是否可用？

通过select 1来判断
方案
在sql中执行"select 1"，如果失败，则认为sql服务不可用。

优点
简单，速度快

缺点
只能检测sql服务器进程是否存在，并不能真正识别服务的可用性。
比如，当innodb_thread_concurrency设置过小时（比如=1），大部分查询可能因为需要排队等待而无法实时响应时，select 1反而可以实时响应。

通过实际的查表语句来检测
方案
在系统库mysql库中创建一个 health_check表,并且里面只放一行数据，然后定期执行"select * from mysql.health_check"

优点
简单，可以检测出因为并发线程过多而导致的数据库不可用的情况。

缺点
由于只采用读来检测，所以类似磁盘满而导致的服务不可用问题，是无法检测出来的。

通过更新表来检测
方案
简单地改进上一种方法，通过更新表来实现可用性检测。
update mysql.health_check set t_modified = now();
上述语句执行时，会写binlog文件，如果磁盘满时，执行会失败，因此，可以检测出磁盘不可用等io问题。

缺点
在主从的mysql结构里面，如果主备关系是双M结构，这时如果在备库也执行这个命令，就会出现主备冲突，导致主备同步停止。

改进
在health_check表中创建两列，一列是id，一列是t_modified_time，每个服务器只update id=自己的serverid的行，这样就可以保证主备库各自的检测命令不冲突。

改进后的缺点
改进后的更新表方案已经相对比较完善了，但是还是有些问题，主要的问题是可能出现“判定慢”。当服务器由于资源紧张时，大部分复杂的查询更新语句可能实质上已经超时，但是由于检测语句相对比较简单，可能不会超时（或者有时候超时，有时候会成功），因此出现判定慢或者判定不准确的问题。

通过sql内部的性能数据来检测可用性
方案
通过统计mysql的每一次io请求的时间，来判定服务是否可用。
mysql 5.6版本以后提供了performance_schema库，在file_summary_by_event_name表里面统计了每次io请求的时间。
performance_schema是可选项，全部打开性能统计会影响mysql的性能，大概下降10%左右。因此只需要enable少数需要的项进行统计。
比如打开 redo log的时间监控，可以执行：
update setup_instruments set ENABLED=‘YES’, Timed = ‘YES’ where name like ‘%wait/io/file/innodb/innodb_log_file%’;
假设已经打开了redo log和binlog这两个统计信息，接下来就是检测是否存在每次IO请求超过200ms的事件：
select event_name, MAX_TIMER_WAIT from performance_schema.file_summary_by_event_name where event_name in (‘wait/io/file/innodb/innodb_log_file’, ‘wait/io/file/sql/binlog’) and MAX_TIMER_WAIT > 200 * 100010001000;
发现异常以后，可以读取需要的信息，然后通过以下语句清空之前的统计信息，以便监控后续可能出现的异常：
truncate table performance_shema.file_summary_by_event_name;

优点
比较可靠

缺点
太复杂
————————————————
版权声明：本文为CSDN博主「greensea669」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_40735752/java/article/details/88077362

MySQL服务器默认安装之后调节性能的方法

作者: Joyber
时间: 2020-04-01
分类: 默认分类
评论

转自：https://www.xp.cn/b.php/16569.html

key_buffer_size - 这对MyISAM表来说非常重要。如果只是使用MyISAM表，可以把它设置为可用内存的 30-40%。合理的值取决于索引大小、数据量以及负载 -- 记住，MyISAM表会使用操作系统的缓存来缓存数据，因此需要留出部分内存给它们，很多情况下数据比索引大多了。尽管如此，需要总是检查是否所有的 key_buffer 都被利用了 -- .MYI 文件只有 1GB，而 key_buffer 却设置为 4GB 的情况是非常少的。这么做太浪费了。如果你很少使用MyISAM表，那么也保留低于 16-32MB 的 key_buffer_size 以适应给予磁盘的临时表索引所需。

innodb_buffer_pool_size - 这对Innodb表来说非常重要。Innodb相比MyISAM表对缓冲更为敏感。MyISAM可以在默认的 key_buffer_size 设置下运行的可以，然而Innodb在默认的 innodb_buffer_pool_size 设置下却跟蜗牛似的。由于Innodb把数据和索引都缓存起来，无需留给操作系统太多的内存，因此如果只需要用Innodb的话则可以设置它高达 70-80% 的可用内存。一些应用于 key_buffer 的规则有 -- 如果你的数据量不大，并且不会暴增，那么无需把 innodb_buffer_pool_size 设置的太大了。

innodb_additional_pool_size - 这个选项对性能影响并不太多，至少在有差不多足够内存可分配的操作系统上是这样。不过如果你仍然想设置为 20MB(或者更大)，因此就需要看一下Innodb其他需要分配的内存有多少。

innodb_log_file_size 在高写入负载尤其是大数据集的情况下很重要。这个值越大则性能相对越高，但是要注意到可能会增加恢复时间。我经常设置为 64-512MB，跟据服务器大小而异。

innodb_log_buffer_size 默认的设置在中等强度写入负载以及较短事务的情况下，服务器性能还可以。如果存在更新操作峰值或者负载较大，就应该考虑加大它的值了。如果它的值设置太高了，可能会浪费内存 -- 它每秒都会刷新一次，因此无需设置超过1秒所需的内存空间。通常 8-16MB 就足够了。越小的系统它的值越小。

innodb_flush_logs_at_trx_commit 是否为Innodb比MyISAM慢1000倍而头大？看来也许你忘了修改这个参数了。默认值是 1，这意味着每次提交的更新事务（或者每个事务之外的语句）都会刷新到磁盘中，而这相当耗费资源，尤其是没有电池备用缓存时。很多应用程序，尤其是从 MyISAM转变过来的那些，把它的值设置为 2 就可以了，也就是不把日志刷新到磁盘上，而只刷新到操作系统的缓存上。日志仍然会每秒刷新到磁盘中去，因此通常不会丢失每秒1-2次更新的消耗。如果设置为 0 就快很多了，不过也相对不安全了 -- MySQL服务器崩溃时就会丢失一些事务。设置为 2 指挥丢失刷新到操作系统缓存的那部分事务。

table_cache -- 打开一个表的开销可能很大。例如MyISAM把MYI文件头标志该表正在使用中。你肯定不希望这种操作太频繁，所以通常要加大缓存数量，使得足以最大限度地缓存打开的表。它需要用到操作系统的资源以及内存，对当前的硬件配置来说当然不是什么问题了。如果你有200多个表的话，那么设置为 1024 也许比较合适（每个线程都需要打开表），如果连接数比较大那么就加大它的值。我曾经见过设置为 100,000 的情况。

thread_cache -- 线程的创建和销毁的开销可能很大，因为每个线程的连接/断开都需要。我通常至少设置为 16。如果应用程序中有大量的跳跃并发连接并且 Threads_Created 的值也比较大，那么我就会加大它的值。它的目的是在通常的操作中无需创建新线程。

query_cache -- 如果你的应用程序有大量读，而且没有应用程序级别的缓存，那么这很有用。不要把它设置太大了，因为想要维护它也需要不少开销，这会导致MySQL变慢。通常设置为 32-512Mb。设置完之后最好是跟踪一段时间，查看是否运行良好。在一定的负载压力下，如果缓存命中率太低了，就启用它。

注意：就像你看到的上面这些全局表量，它们都是依据硬件配置以及不同的存储引擎而不同，但是会话变量通常是根据不同的负载来设定的。如果你只有一些简单的查询，那么就无需增加 sort_buffer_size 的值了，尽管你有 64GB 的内存。搞不好也许会降低性能。
我通常在分析系统负载后才来设置会话变量。

P.S，MySQL的发行版已经包含了各种 my.cnf 范例文件了，可以作为配置模板使用。通常这比你使用默认设置好的多了。