MySQL(csv,text)导入mssql方法参考

分两步处理,第一步是将csv导入到mysql。没有使用mssql自带客户端的导入功能,因为这个功能太坑,尝试N多种方法仍然是报错,因此选择先转换成mysql做中间步骤。

csv/text导入MySQL

一批很大的csv数据(其实并非csv,而是制表符分隔字段),要导入到mssql数据库里。

首先在cygwin下使用awk对数据做预处理,只筛选出字符数正确的行。并且在首行加入列名,以便导入工具自动做列对应。

然后计算各字段最大长度;因为字段数太多(63个),所以计算一下,用于构造create table语句。对于最大长度在255以下的字段使用varchar(n)型,255以上使用longtext类型。

#参考下面语句
$ awk -F "\t" 'NF==63 {print $0}' all.csv >all_63f.txt
$ head -1 origin_text_file.txt >h.txt
$ dos2unix h.txt       #注意最好不要带BOM,否则自行另存一下,避免麻烦
$ cat h.txt all_63f.txt >a63_with_head.txt

#最大计算字符长度,本身并不复杂,只是写在一行里,阅读不太方便
$ awk -F "\t" 'BEGIN{for(i=1;i<=63;i++){xcount[i]=0}} {for(i=1;i<=63;i++){if(xcount[i]<length($i) ){xcount[i]=length($i)}}} END{for(i=1;i<=63;i++){print i,xcount[i]}}' all_63f.txt

接下来使用Navicat for MySQL将导入csv。navcate可以试用,功能足够用;如果使用频繁,建议购买授权。

MySQL导入mssql

以下win2008 x64下的mssql 2012为例。

安装mysql的.net驱动 http://dev.mysql.com/downloads/connector/

create table,建表,与mysql结构一致。

使用mssql自带导入功能导入数据,导入数据源选择 .Net Framework Data Provider for MySQL,填写必要的主机名、登录名、口令,如下

mysql_import_into_mssql_via_nf

不能选择源数据表,必须写select 语句,如: select f1,f2,f3... from `db`.`table` where 1

后面应该没有什么难度了。

ms sql server下unix时间戳函数unix_timestamp, from_unixtime(与mysql兼容)

直接上代码:

CREATE FUNCTION UNIX_TIMESTAMP (@ctimestamp datetime) RETURNS integer 
AS
BEGIN
  /* Function body */
  declare @return integer
  SELECT @return = DATEDIFF(SECOND,{d '1970-01-01'}, @ctimestamp)
  return @return
END


CREATE FUNCTION from_unixtime (@ts integer) RETURNS datetime 
AS
BEGIN
  /* Function body */
  declare @return datetime
  select @return = DATEADD(second, @ts, {d '1970-01-01'})
  return @return
END

用法

跟MySQL下的一样类似:

select dbo.UNIX_TIMESTAMP('2013-1-1')
select dbo.from_unixtime(2145000000)

感谢参考 http://skinn3r.wordpress.com/2009/01/26/t-sql-datetime-to-unix-timestamp/

microsoft sql server 2008数据库恢复到2005(版本降级)

实例:一个mssql 2008的数据库备份,要还原到2005上,本来以为备份时把数据库兼容级别为2005或2000、再备份,就可以还原到2005上,但事实上不行。

通过google找到了一个办法,有点麻烦,但还是可以比较完美还原的。

高版本上导出兼容在低版本上的创建数据库结构的的sql脚本,拿到低版本上执行,创建数据库及表结构,然后使用导入数据功能,从高版本上导入到低版本上。导入时,要对每个表勾选“启用标识插入”。

具体来说:

mssql manger studio 打开"对象资源管理器"(没有的话按F8), 连接到待备份的数据库,在待备份的数据库上点右键 - 任务 -生成脚本

在"脚本向导"的"选择数据库"中, 勾选"为所选数据库中的所有对象编写脚本"

下一步的"设置脚本选项"中, 找到"为服务器版本编写脚本"项, 选择合适的低版本("SQL Server 2005"或2000 )(这步很重要!!)

mssql_export_as_script mssql_export_as_script_adv

继续完成向导过程,最后把脚本保存到一个 .sql 脚本文件

拿这个sql脚本文件到目标数据库(低版本mssql)上,执行。

然后使用mssql的导入导出功能,勾选需要的表(通常是“全选”),然后点选所有的表,点“编辑映射”,启用标识插入。然后继续即可。

mssql_export_as_script_mapping

php+MSSQL的坑:(n)varchar型字段被截断

很自虐的搭配php+MSSQL,太多的坑,就不说text型被截断了。

受限于现有的asp+mssql应用,新增的部分功能使用php开发。对一个表的读写,后台使用asp,读写都很正常。前台一个调用是php写的,但就是遇到一个诡异的问题,要对数据做一个很复杂的解析处理,结果是数据丢失一部分。一层一层的输出,最后才发现是从数据库读出来了数据就不完整,这可奇怪了。又不是text型的数据,加了ini_set()修正text型默认长度限制,也不行。

但被截断长度很奇怪,恰恰是254个字节,似乎正好是较老的mssql里varchar()的默认最大长度;而该字段的实际是varchar(1000);

难道是字段类型问题?

于是修改该字段为text型,再执行,全好了,没有一点异常。

看来php+mssql实在是个自虐的搭配,不知道还有多少坑....

不过限于老的程序架构,也是个没办法的,人总是要吃饭的....

[另记: 盘点php+mssql下的坑]

这些坑还是有解决方案的,先留着,以后补充

1 text/ntext型字段长度被截断

2 php下mssql 库不支持ntext类型的数据

3 “varchar(n) 其中n>254 ”类型数据被截断

4 php5.3以后的win32 官方二进制版不支持mssql库

一个无敌的下载站点:msdn I tell you,作什么用就不说了,谁用谁知道

http://msdn.itellyou.cn/?lang=zh-cn 传送门

windows系列操作系统,microsoft sql server服务器,ms office,share point,visual stuido....msdn里有的,这里都有,ed2k下载。

使用方法,选择你所需要的软件,点右侧“复制所先的项”,得到ed2k下载链接,然后你懂得。

只是可惜,ed2k下载有些资源/有时不稳定,有可能根本下载不动

现在有一个更好的办法:通过百度云网盘的离线下载功能

msdn.itellyou.cn里面都有什么东西,看图,不说话

msdn_itellyou_cap_1 msdn_itellyou_cap_2baidu-pan-down

百度网盘已经离线过N多文件,只要有人下载过,那么你再下载就只要0秒钟!你没看错,是0秒钟

Microsoft SQL server性能优化必备工具

这里说的工具并不一定是独立软件

1 查看sql语句执行花费的时间、IO开销

在mssql客户端执行sql语句时,先在当前会话里执行下面语句

SET STATISTICS IO ON
SET STATISTICS TIME ON
也可一次性执行
set statistics io,time on

然后再执行sql语句,运行完成的消息框里将给出如下统计信息

SQL Server 分析和编译时间: 
   CPU 时间 = 0 毫秒,占用时间 = 1 毫秒。

SQL Server 执行时间:
   CPU 时间 = 0 毫秒,占用时间 = 1 毫秒。
SQL Server 分析和编译时间: 
   CPU 时间 = 0 毫秒,占用时间 = 4 毫秒。

(100 行受影响)
表 'your_table'。扫描计数 2,逻辑读取 165 次,物理读取 0 次,预读 0 次,lob 逻辑读取 0 次,lob 物理读取 0 次,lob 预读 0 次。

http://msdn.microsoft.com/zh-cn/library/ms190356.aspx

ms sql server 查看服务器当前的连接会话及会话信息(客户端ip地址,协议,时间,读写情况等)

ms sql server 查看服务器当前的连接会话及会话信息(客户端ip地址,协议,时间,读写情况等)

select * from sys.dm_exec_connections

这实际上是master数据库里的一个系统视图,读出来后有不少字段,如client_net_address, protoco_type, connect_time, num_read, num_write等,很明白,就不多说了。

btw,master数据库里有很多系统视图,如:dm_exec_sessions, dm_fts_memory_pools, dm_os_hosts, dm_os_memory_allocations, dm_os_memory_objects, dm_os_threads, sql_logins, types等,很有参考意义

ms sql在对大表做很慢的更新语句时,应单条处理,而不要一个语句更新多条,以避免锁表而阻塞其它应用的读操作

接到一客户的要求,需要修改其发布过所有文章里的联系方式,于是写sql语句,拿到mssql客户端里直接执行。

起初写的是这种形式的语句
update article set [content]=replace(content,'aaaa','bbbb') where companyid=123
写起来很简单,但是执行时花了3分钟都没有执行完,在执行过程中,网站上对article表访问的页面全部长时间没有响应。于是赶快停掉这个update语句。前面页面马上恢复正常。

分析原因应该是在update时,表被锁定,而阻塞了所有操作。
于是改成
update article set [content]=replace(content,'aaaa','bbbb') where id in(111,222,333,444....)
这种形式,当然首先要查出该客户的所有文章id号,再用逗号拼接构造成sql语句。
这个语句执行一样很慢,可以想象;试了试前台页面又没不响应了。于是赶快停掉。
要重新修改语句。
这次改成
update article set [content]=replace(content,'aaaa','bbbb') where id =111
update article set [content]=replace(content,'aaaa','bbbb') where id =222
update article set [content]=replace(content,'aaaa','bbbb') where id =222
update article set [content]=replace(content,'aaaa','bbbb') where id =222
....
这种多语句的形式,有4K多条,复制到mssql客户端里执行,还是很慢,但前台页面都可以正常打开了,根本感觉不到正在执行的update语句的影响。
经过5分多钟,终于执行完成。

上文中的语句是作了简化的,实际上构造出来的语句是这个形式
update [article] set [content]=replace(replace(replace(replace(convert(nvarchar(max),[content]),'f***','y***'),'1376133***','1358571***'),'353***','605***'),'354***','606***') where id=23002
其中,content字段是ntext型,还得convert();原来数据库是mssql 2000,后来升级到2005,本来应该把字段改成nvarchar(max)型,但因为表太大一直没有改。

查出id号作逗号拼接,是使用uestudio的替换功能,相当方便

Microsoft SQL server数据库转换为MySQL方法

有时需要把MS SQL数据库转换成MySQL,但苦于没有好用的工具,个人使用一个手工转换的方法,相对来说还是比较方便的,对于只导一两个表的时候。

思想:
通过mssql构造出MySQL的insert into 语句,保存到一个文本文件里,然后导入MySQL数据库。

方法扼要如下:

  1. 根据ms sql表结构同步创建出mysql表,可以使用mssql客户端工具生成mssql的建表语句,里面一般来说会带上COLLATE Chinese_PRC_CI_AS 及 CONSTRAINT [DF_xxx_xxx] 这样的部分,对mysql是没有用的,使用ue的查找替换功能将其删掉,替换“CONSTRAINT [DF_xxx_xxx] ”要使用正则表达式匹配 CONSTRAINT.*?\]
  2. 将简化后的create table ... 语句改写成适合MySQL的建表语句,主要是字段类型的相应修改(mysql里没有nvarchar等以n打头的类型)、方括号替换成反引号、删掉mssql标识列定义等。
  3. MySQL里执行create table建表。
  4. 回到mssql里,对每个文本型字段执行一次字符串替换,将单引号替换成mysql风格的转义符( \ '),语句大致如下:
    update you_table_name set [field_name_1]=replace([field_name_1],'''','\''')
    里面mssql的单引号转义是两个单引号,所以看起来相当别扭,顺便逼视一下MS的脑残转义约定。
  5. 将mssql表里的非字符型字段改成字符型,当然不改也行,只是下面一步会很痛苦。
  6. 按下来我们要构造一系列用于把mssql记录插入MySQL表的insert 语句,
  7. 我们要在mssql里拼接字符串的形式构造该查询语句 select top 100 'inset into `you_table_name`(`field_name_1`,`field_name_2`,...)values('''+[field_name_1]+''','''+convert(varchar(10),isnull([field_name_2],0))+''',...);' from you_mssql_table
    从这个语句里可以看出,如果是字符型字段,像field_name_1,直接使用mssql拼接符(+)连起来就可以了,但如果是数字型或日期型字段,像`field_name_2`,就要convert做转换了,日期型还要加上第三个参数,如convert(varchar(10),time,120)这样写。
    我们可以先对前100条构造出适合MySQL的insert语句,随机复制几条到MySQL里测试是否可以正常插入。
  8. 确认无误后,从mssql里导出数据的方式,将上面的查询导出成access数据库文件,再从access中导出文本文件(也可以直接从mssql里导出文本),通常mssql导出的文本文件是ansi编码的,我们可以使用editplus之类工具打开并另存为utf-8编码。不推荐使用ue转换,经验教训表明ue转换编码容易出错。
  9. 进入mysql命令行客户端里,注意加上--default-character-set=utf8参数,否则很可能导入一团乱码
    >mysql -uroot -p --default-character-set=utf8
  10. 进入相应数据库use you_database
  11. 执行source X:\path\to\your\sql\file.sql
    应该很快可以完成,导入时可以注意一下是否有错误提示。通常不会有的。
  12. 至此转换完成。