数据库并行读取和写入(Python实现)

发布时间：2017年06月09日作者：IT网络文摘

这篇主要记录一下如何实现对数据库的并行运算来节省代码运行时间。语言是Python，其他语言思路一样。

前言

一共23w条数据，是之前通过自然语言分析处理过的数据，附一张截图：
电脑培训,计算机培训,平面设计培训,网页设计培训,美工培训,Web培训,Web前端开发培训

要实现对news主体的读取，并且找到其中含有的股票名称，只要发现，就将这支股票和对应的日期、score写入数据库。

显然，几十万条数据要是一条条读写，然后在本机上操作，耗时太久，可行性极低。所以，如何有效并行的读取内容，并且进行操作，最后再写入数据库呢？

并行读取和写入

并行读取：创建N*max_process个进程，对数据库进行读取。读取的时候应该注意：

每个进程需要分配不同的connection和对应的cursor，否则数据库会报错。
数据库必须能承受相应的高并发访问（可以手动更改）

实现的时候，如果不在进程里面创建新的connection，就会发生冲突，每个进程拿到权限后，会被下个进程释放，所以汇报出来NoneType Error的错误。

并行写入：在对数据库进行更改的时候，不可以多进程更改。所以，我们需要根据已有的表，创建max_process-1个同样结构的表用来写入。表的命名规则可以直接在原来基础上加上1,2,3...数字可以通过对max_process取余得到。

此时，对应进程里面先后出现读入的conn（保存消息后关闭）和写入的conn。每个进程对应的表的index就是主循环中的num对max_process取余(100->4,101->5)，这样每个进程只对一个表进行操作了。

部分代码实现

max_process = 16 #最大进程数def read_SQL_write(r_host,r_port,r_user,r_passwd,r_db,r_charset,w_host,w_port,w_user,w_passwd,w_db,w_charset,cmd,index=None):
    #得到tem字典保存着信息
    try:
        conn = pymysql.Connect(host=r_host, port=r_port, user=r_user, passwd =r_passwd,&nbs
        
		
        		网友评论
     		
				
			
			
			
		
		
		
    	
    	
        	
        		更多精彩分享
        		
        			
        		
        			
	        		
	        		学习是年轻人改变自己的最好方式

分类导航

数据库并行读取和写入(Python实现)

前言

并行读取和写入

部分代码实现

网友评论

更多精彩分享