标签 mysql 下的文章

MySQL中常用去重复数据的方法是使用 distinct 或者 group by ,以上2种均能实现,但2者也有不同的地方。

distinct 特点:
如:select distinct name, sex from tb_students 这个sql的语法中,查询 tb_students 表中 name, sex 并去除名字和性别都重复的学生:

1、distinct 只能放在查询字段的最前面,不能放在查询字段的中间或者后面。

备注:select sex, distinct name from tb_students 这种写法是错误的,distinct 只能写在所有查询字段的前面
单独的字段这样也行
select count(distinct sex) from tb_students

2、distinct 对后面所有的字段均起作用,即 去重是查询的所有字段完全重复的数据,而不是只对 distinct 后面连接的单个字段重复的数据。

备注:也就是 distinct 关键字对 name, sex 都起作用,去重姓名、性别完全一样的学生,如果姓名相同、性别不同是不会去重的。

3、要查询多个字段,但只针对一个字段去重,使用 distinct 去重的话是无法实现的。

group by 特点:
1、一般与聚类函数使用(如count()/sum()等),也可单独使用。

2、group by 也对后面所有的字段均起作用,即 去重是查询的所有字段完全重复的数据,而不是只对 group by 后面连接的单个字段重复的数据。

3、查询的字段与 group by 后面分组的字段没有限制。


    private function updateBatchSql($table, $data, $key) {
        if (empty($data)) {
            throw new Exception('data format is error');
        }
        $ids = array_column($data, $key);
        $_ids = implode("','", $ids);
        $cols = array_keys($data[0]);
        $sql = "UPDATE {$table} SET %s WHERE `{$key}` IN ('{$_ids}')";
        $update = [];
        foreach ($cols as $v) {
            if ($v == $key) continue;
            $_str = "`{$v}`= ( CASE `{$key}` %s ELSE `{$v}` END)";
            $_when = [];
            foreach ($data as $row) {
                $_when[] = "WHEN '{$row[$key]}' THEN '{$row[$v]}'";
            }
            $_str = sprintf($_str, implode(' ', $_when));
            $update[] = $_str;
        }
        $sql = sprintf($sql, implode(', ', $update));
        return $sql;
    }

DELETE FROM pre_table WHERE id in (
SELECT b.id FROM pre_table b
INNER JOIN (SELECT title, COUNT(1) total, MIN(id) as mid FROM pre_table GROUP BY title ORDER BY total desc ) t on t.title = b.title
WHERE t.total>1 AND b.id != t.mid
)

转的别人的文章:https://blog.csdn.net/weixin_40735752/article/details/88077362
在一主一从或一主多从的mysql架构中,当主库不可用时,需要及时切换到从库,那么,如何判断主库是否可用?

通过select 1来判断
方案
在sql中执行"select 1",如果失败,则认为sql服务不可用。

优点
简单,速度快

缺点
只能检测sql服务器进程是否存在,并不能真正识别服务的可用性。
比如,当innodb_thread_concurrency设置过小时(比如=1),大部分查询可能因为需要排队等待而无法实时响应时,select 1反而可以实时响应。

通过实际的查表语句来检测
方案
在系统库mysql库中创建一个 health_check表,并且里面只放一行数据,然后定期执行"select * from mysql.health_check"

优点
简单,可以检测出因为并发线程过多而导致的数据库不可用的情况。

缺点
由于只采用读来检测,所以类似磁盘满而导致的服务不可用问题,是无法检测出来的。

通过更新表来检测
方案
简单地改进上一种方法,通过更新表来实现可用性检测。
update mysql.health_check set t_modified = now();
上述语句执行时,会写binlog文件,如果磁盘满时,执行会失败,因此,可以检测出磁盘不可用等io问题。

缺点
在主从的mysql结构里面,如果主备关系是双M结构,这时如果在备库也执行这个命令,就会出现主备冲突,导致主备同步停止。

改进
在health_check表中创建两列,一列是id,一列是t_modified_time,每个服务器只update id=自己的serverid的行,这样就可以 保证主备库各自的检测命令不冲突。

改进后的缺点
改进后的更新表方案已经相对比较完善了,但是还是有些问题,主要的问题是可能出现“判定慢”。当服务器由于资源紧张时,大部分复杂的查询更新语句可能实质上已经超时,但是由于检测语句相对比较简单,可能不会超时(或者有时候超时,有时候会成功),因此出现判定慢或者判定不准确的问题。

通过sql内部的性能数据来检测可用性
方案
通过统计mysql的每一次io请求的时间,来判定服务是否可用。
mysql 5.6版本以后提供了performance_schema库,在file_summary_by_event_name表里面统计了每次io请求的时间。
performance_schema是可选项,全部打开性能统计会影响mysql的性能,大概下降10%左右。因此只需要enable少数需要的项进行统计。
比如打开 redo log的时间监控,可以执行:
update setup_instruments set ENABLED=‘YES’, Timed = ‘YES’ where name like ‘%wait/io/file/innodb/innodb_log_file%’;
假设已经打开了redo log和binlog这两个统计信息,接下来就是检测是否存在每次IO请求超过200ms的事件:
select event_name, MAX_TIMER_WAIT from performance_schema.file_summary_by_event_name where event_name in (‘wait/io/file/innodb/innodb_log_file’, ‘wait/io/file/sql/binlog’) and MAX_TIMER_WAIT > 200 * 100010001000;
发现异常以后,可以读取需要的信息,然后通过以下语句清空之前的统计信息,以便监控后续可能出现的异常:
truncate table performance_shema.file_summary_by_event_name;

优点
比较可靠

缺点
太复杂
————————————————
版权声明:本文为CSDN博主「greensea669」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40735752/java/article/details/88077362

转自:https://www.xp.cn/b.php/16569.html

key_buffer_size - 这对MyISAM表来说非常重要。如果只是使用MyISAM表,可以把它设置为可用内存的 30-40%。合理的值取决于索引大小、数据量以及负载 -- 记住,MyISAM表会使用操作系统的缓存来缓存数据,因此需要留出部分内存给它们,很多情况下数据比索引大多了。尽管如此,需要总是检查是否所有的 key_buffer 都被利用了 -- .MYI 文件只有 1GB,而 key_buffer 却设置为 4GB 的情况是非常少的。这么做太浪费了。如果你很少使用MyISAM表,那么也保留低于 16-32MB 的 key_buffer_size 以适应给予磁盘的临时表索引所需。

innodb_buffer_pool_size - 这对Innodb表来说非常重要。Innodb相比MyISAM表对缓冲更为敏感。MyISAM可以在默认的 key_buffer_size 设置下运行的可以,然而Innodb在默认的 innodb_buffer_pool_size 设置下却跟蜗牛似的。由于Innodb把数据和索引都缓存起来,无需留给操作系统太多的内存,因此如果只需要用Innodb的话则可以设置它高达 70-80% 的可用内存。一些应用于 key_buffer 的规则有 -- 如果你的数据量不大,并且不会暴增,那么无需把 innodb_buffer_pool_size 设置的太大了。

innodb_additional_pool_size - 这个选项对性能影响并不太多,至少在有差不多足够内存可分配的操作系统上是这样。不过如果你仍然想设置为 20MB(或者更大),因此就需要看一下Innodb其他需要分配的内存有多少。

innodb_log_file_size 在高写入负载尤其是大数据集的情况下很重要。这个值越大则性能相对越高,但是要注意到可能会增加恢复时间。我经常设置为 64-512MB,跟据服务器大小而异。

innodb_log_buffer_size 默认的设置在中等强度写入负载以及较短事务的情况下,服务器性能还可以。如果存在更新操作峰值或者负载较大,就应该考虑加大它的值了。如果它的值设置太高了,可能会浪费内存 -- 它每秒都会刷新一次,因此无需设置超过1秒所需的内存空间。通常 8-16MB 就足够了。越小的系统它的值越小。

innodb_flush_logs_at_trx_commit 是否为Innodb比MyISAM慢1000倍而头大?看来也许你忘了修改这个参数了。默认值是 1,这意味着每次提交的更新事务(或者每个事务之外的语句)都会刷新到磁盘中,而这相当耗费资源,尤其是没有电池备用缓存时。很多应用程序,尤其是从 MyISAM转变过来的那些,把它的值设置为 2 就可以了,也就是不把日志刷新到磁盘上,而只刷新到操作系统的缓存上。日志仍然会每秒刷新到磁盘中去,因此通常不会丢失每秒1-2次更新的消耗。如果设置为 0 就快很多了,不过也相对不安全了 -- MySQL服务器崩溃时就会丢失一些事务。设置为 2 指挥丢失刷新到操作系统缓存的那部分事务。

table_cache -- 打开一个表的开销可能很大。例如MyISAM把MYI文件头标志该表正在使用中。你肯定不希望这种操作太频繁,所以通常要加大缓存数量,使得足以最大限度地缓存打开的表。它需要用到操作系统的资源以及内存,对当前的硬件配置来说当然不是什么问题了。如果你有200多个表的话,那么设置为 1024 也许比较合适(每个线程都需要打开表),如果连接数比较大那么就加大它的值。我曾经见过设置为 100,000 的情况。

thread_cache -- 线程的创建和销毁的开销可能很大,因为每个线程的连接/断开都需要。我通常至少设置为 16。如果应用程序中有大量的跳跃并发连接并且 Threads_Created 的值也比较大,那么我就会加大它的值。它的目的是在通常的操作中无需创建新线程。

query_cache -- 如果你的应用程序有大量读,而且没有应用程序级别的缓存,那么这很有用。不要把它设置太大了,因为想要维护它也需要不少开销,这会导致MySQL变慢。通常设置为 32-512Mb。设置完之后最好是跟踪一段时间,查看是否运行良好。在一定的负载压力下,如果缓存命中率太低了,就启用它。

注意:就像你看到的上面这些全局表量,它们都是依据硬件配置以及不同的存储引擎而不同,但是会话变量通常是根据不同的负载来设定的。如果你只有一些简单的查询,那么就无需增加 sort_buffer_size 的值了,尽管你有 64GB 的内存。搞不好也许会降低性能。
我通常在分析系统负载后才来设置会话变量。

P.S,MySQL的发行版已经包含了各种 my.cnf 范例文件了,可以作为配置模板使用。通常这比你使用默认设置好的多了。