对百度搜索引擎的怀疑:百度搜索引擎来源比例很低,甚至还不如百度空间

百度搜索引擎来源比例很低,远远没有google的多,甚至与百度空间相比也差好几倍,而百度空间也只是转粘了三篇带链接的文章

来源
访问次数
访问次数百分比
google (organic)
903 70.00%
(direct) ((none))
211 16.36%
hi.baidu.com (referral)
86 6.67%
baidu (organic)
25 1.94%
page99.net (referral)
23 1.78%

不知是百度seo没做好还是百度实在太笨,针对google也没有刻意的做seo,也只是在发文章时注意一下标题,多加入一点相关的语句词组之类。

还有,百度搜索引擎来的流量,关注过,大多数都是到首页的访部,对首页的访问是没有意义的,之前在这里说过

google的更新速度太快了,同时再骂一骂百度

过一段时间看看百度的表现,如果还是这样,或许就屏蔽百度搜索蜘蛛。

google的更新速度太快了,同时再骂一骂百度

google的更新速度太快了,昨天傍晚新购买了一个域名path8.net——个人不喜欢.com域名——晚上改换网站域名,计划原域名page99.net在一段过度期后作废。

具体什么时间作废,没法确定,因为这点是按google收录页面全部转到新域名的时间决定。也就是说,原域名没有存在价值后,就会直接删去。其它的搜索引擎,就不管了,尤其百度,收录量好像也不少,以site:page99.net查询,基本上所有页面都有收录。但排名好像不怎么高。排名不高倒也算了,更让人无法容忍的是,从百度搜索结果来的访问,几乎全是指向到首页的;指向文章内容页的几乎没有。众所周知的,几乎所有网站的首页,都是经常更新的,内容不稳定,指向到首页的搜索结果,实际上是没有意义的。但百度,还是这么搞,只能说它技术太差劲!

两个月前就想屏蔽百度蜘蛛,但没有真正做。下一步,再过两个月,如果百度还是这样,就直接屏蔽百度蜘蛛。

但百度贴吧、空间等里面的链接还是有必要手工修改更新一下。对网站监测数据表明,从百度空间里来的访问者,经常看好几页的,也就是这些人经常是高质量访客。

更重要是,百度空间带来的流量比百度搜索引擎带来的流量还要大!(当然都在10%以下)前面说过了,百度搜索引擎带来的质量太差劲,所以百度空间还是有必要维持一段时间的。
哈,扯了老半天,都是跑题了的!下面言归正传。

昨天晚上改换域名后,从google管理员工具里,提交域名更改,通知google,以加快收录索引的更新。

今天上午,就是刚才十分钟前,site:path8.net 结果共有24条记录,也就是说google管理员工具里的提交并没有生效,这里的收录的结果其实是google搜索蜘蛛发现新站点后,马上说加到搜索索引里的。

各浏览器使用人群分布/IE,firefox,chrome,opera

对一段时间内本站访客使用浏览器比较看浏览器份额,本站主要是web网络相关技术为主的站点,对于这部分关注用户而言,使用linux操作系统的用户占10%,这已经是一个非常大的比例。使用非IE(包括非IE内核)的人数相当高,近25%。

1.
Internet Explorer / Windows
2,674 60.80%
2.
Firefox / Windows
668 15.19%
3.
Firefox / Linux
430 9.78%
4.
Chrome / Windows
352 8.00%
5.
Chrome / Linux
79 1.80%
6.
Opera / Windows
77 1.75%
7.
Mozilla / Linux
22 0.50%
8.
Safari / Windows
15 0.34%
9.
Opera / Linux
11 0.25%
10.
Opera Mini / (not set)
10 0.23%

图表

操作系统统计

1.
Windows
3,796 86.21%
2.
Linux
551 12.51%
3.
(not set)
22 0.50%
4.
Macintosh
18 0.41%
5.
iPhone
8 0.18%
6.
FreeBSD
4 0.09%
7.
SymbianOS
2 0.05%
8.
Android
1 0.02%
9.
Nokia
1 0.02%

图表

baidu突然良心发现了吗?

baidu突然良心发现了吗?

昨天被百度K了,今天又突然恢复了。不知是什么原因。
好像最近一段时间(google退出了),baidu时常抽风,搜索结果比较异常,不知这两件事之间是否有什么 关系。(是否真的如有人大胆猜测的baidu调用了google的搜索结果,这就太恶劣了)

site:path8.net
找到相关网页368篇,用时0.056秒
来百度推广您的产品
提示:找到的相关网页数是估算值,不代表真实结果数,仅供参考。站长帮助

突然一个印度访问,不明白

今天从量子统计里看到一个印度的访问者,访问了两个页面,

来源都是google搜索,第一次访问

http://www.google.co.in/search?hl=en&source=hp&q=path8.net&btnG=Google%20Search&meta=&aq=f&aqi=&aql=&oq=&gs_rfai=&rlz=1W1GPCK_en

是google印度搜索我的域名 path8.net,打开了两次首页,然后使用google翻译,翻译我的首页,也就是第二个页面,来源页是

http://translate.google.co.in/translate?hl=en&sl=zh-CN&u=http://www.path8.net/&ei=LymvS4aKAsW6rAf82PWmAQ&sa=X&oi=translate&ct=result&resnum=1&ved=0CAgQ7gEwAA&prev=/search%3Fq%3Dpath8.net%26hl%3Den%26sa%3DG%26rlz%3D1W1GPCK_en

访问页面为

http://translate.googleusercontent.com/translate_c?hl=en&sl=zh-CN&u=http://www.path8.net/tn/&prev=/search%3Fq%3Dpath8.net%26hl%3Den%26sa%3DG%26rlz%3D1W1GPCK_en&rurl=translate.google.co.in&usg=ALkJrhi50880axcrNjZadGHGnnXi4mwsxg

但很奇怪,这个访问的IP地址还是上面访客的地址,不是知道是什么原因,该访客ip地址是115.240.168.22,怀疑可能是google印度的搜索服务器,但是不知为什么量子统计还能获取的这个访问,难道google服务器还打开javascript

其中第一个访问,也就是在印度google搜索path8.net的第二条结果,是http://www.robtex.com/dns/path8.net.html,是英文的网页,鸟语不好,没有看明白是什么,好像是一个查询域名相关信息的东西,上面有powered by google的字样,页面右边有这样的一块:

robtex
swiss
army
knife
internet
tool
robtex swiss army knife internet tool

这个页面有多个标签,第一个summer,内容如下

IP and Domain Information Sources

Source Date Information
rbls 2010-03-28 12:01:23 Blacklistings
now 2010-03-28 12:01:23 This information page's creation date
semrush 2010-03-28 12:01:23 SEO, Keywords
sedo 2010-03-28 12:01:23 Domain Sale Information
alexa 2010-03-28 12:01:23 Description, ranking and other stats
wot 2010-03-28 12:01:23 Reputation
dns 2010-03-27 22:28:13 Visible DNS Information

Thumbnails powered by Thumbshots [link:http://www.thumbshots.com/]

(后面的是一个链接,是我取消并把链接地址列于后的)

另有一个标签backlist 内容如下:

md5:0015332b8a437d758d45c490e0fe9352:path8.net
md5:92e40627d06427fe7c621ab44e63b32b:page99

难道这个域名什么时候列入黑名单,还是什么

博客访问日志尝试分析

下班了,突然想来看博客今天有哪些人访问,连上数据库,直接查看之前wordpress访客追踪插件的访问追踪记录表,今天的访问照样大多是来自google,然也有一些其它搜索引擎的,加起来也没有google的多。里面有几个“人”访问的,习惯性的查一下ip地址是哪里的。前两天查时,有几个使用win2003的用户访问,查看一些技术文章的,也有使用linux的,这次突然见有一个用fedora的linux用户:

Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.6) Gecko/20091216 Fedora/3.5.6-1.fc11 Firefox/3.5.6

访问来源是google搜索 (mysql procedure myisam )结果的第一页,前面有几条,都是mysql.com的结果,下面就是我的页面,从别处搜集来的信息,也没有进行修改加工,也没有进行优化,居然排名还能这么靠前!当然这样的关键词组合相当冷僻,很少人会这么搜索。

这个访问者是玩linux的,当然更要查一下是哪里的,ip138显示
<ul>
<li>本站主数据:北京市 电信</li>
<li>参考数据一:北京市 电信</li>
<li>参考数据二:北京市 理想国际大厦</li>
</ul>
理想国际大厦,查一下是什么单位,google结果,中关村的,好像还挺大的样子,其中一个结果页显示,该楼盘的信息

<span>http://data.dichan.com/OfficeDetails.aspx?OfficeID=&amp;Caption=%E7%90%86%E6%83%B3%E5%9B%BD%E9%99%85%E5%A4%A7%E5%8E%A6</span>
下面来有里面入驻的单位:新浪,17-20整层;华旗资讯,10-11整层;百度,12整层;还有其它几个。
看来百度也没有多大,才点了一层,又在里面查一层多大面积,2800m<sup>2</sup>;貌似这个页面里的信息比较老一点了。
对面积大小没有多少概念,问别的同事公司办公室有多大页面,感觉一个百度的办公区域大小。同事不解,为什么要问办公室面积,从博客的ip追踪说起,简要解释一下,然而他们是更不解,“根本不知道你在说什么”,看来差不多是袋鼠式的跳跃思维了。
又突然看到这个页面是新浪地产的页面,但域名根本不是sina.com.cn,进入该地址主页,自动跳转到新浪页面了,看来也是个老的站点,或者分站点,但新浪这些大网站一般不搞一大堆不同的域名的,都是单一域名+子域名的;估计这是并购别的网站了,而这是个老页面,只改了个网站logo,实际上是不是就不知道了,也没必要推究,又不是搞情报工作的。
至于这个访问者究竟是谁,大概很难知道了,ip地址,查这么专业的问题,而且看了两个页面“mysql 表种类 MyISAM,innodb详解”,“mysql 索引管理:SHOW INDEX语法 查看索引状态”,应该确实是在查找技术资料,而且使用linux,大概是一家搞网络的公司的员工,而且有可能是个当从事mysql相关技术不久的,不然不会查找这些比较浅显的东西,而且使用中文google搜索。
使用的可能是英文版搜索系统(语言环境),是fedora11,版本比较老一点,可能是公司行为,没有统一升级版本。
两次访问时间是中午2010-02-25 13:18:00, 2010-02-25 13:18:02访问时间非常积,看来这老兄的网速相当快,而且所看到页面信息不是自己所要的。

[user-agent并不可靠,但一般情况下,还是准确的,很少人去修改它,事实上好像也没有什么意思]

极简单/简陋的wordpress插件:网站访客追踪记录

提醒:有了个新版本,照样很简陋,默认将追踪记录表放到单独的数据库里;如果表访问失败会给出简单的消息提示。 传送门: 极简单/简陋的wordpress插件:网站访客追踪记录 v0.0.2

wordpress本身没有用户访问记录的功能,甚至连文章点击次数都没有记录,当然可以借助google analytics之类的工具进行站点访问的分析,但对于极小访问量的站点来说,GA似乎显得太大材小用了,要是能够精确记录下每一个访客的活动情况,是最好不过的,但并没有找到相关的插件,所以就临时查阅资料,草草完成了这个访问活动记录的插件,功能极其简陋,今天-严格地说是昨天、现在已经1:57分,已经是"明天"了-才真正开始了解一点wp插件的开发

-------------------------------------------
插件源程序\wordpress\wp-content\plugins\fstrace\fstrace.php
 <?php
/*
Plugin Name: fs trace
Plugin URI: http://www.path8.net/
Description: This plugin will trace all visitor's visit action.
Version: 0.0.1
Author: fengyqf
Author URI: http://www.path8.net/
*/

/*
This program is free software; you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation; either version 2 of the License, or
(at your option) any later version.

This program is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
GNU General Public License for more details.

You should have received a copy of the GNU General Public License
along with this program; if not, write to the Free Software
Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
*/

function fstrace_by_fengyqf(){
global $wpdb;
$url=mysql_escape_string(substr($_SERVER["REQUEST_URI"],0,200));
$referer=mysql_escape_string(substr($_SERVER["HTTP_REFERER"],0,200));
$cookie=mysql_escape_string(substr($_SERVER["HTTP_COOKIE"],0,250));
$client=mysql_escape_string(substr($_SERVER["HTTP_USER_AGENT"],0,200));
$ip=mysql_escape_string(substr($_SERVER["REMOTE_ADDR"],0,16));
$wpdb->query("insert into `my_wpplg_trace`(`referer`,`url`,`ip`,`client`,`cookie`)
values('{$referer}','{$url}','{$ip}','{$client}','{$cookie}')");

}
add_action('wp_footer','fstrace_by_fengyqf');

?>
-------------------------

需要有一张表存储追踪到的记录,插件本身没有创建数据表的功能,需要手工创建该表,语句如下:
-- phpMyAdmin SQL Dump
-- version 3.2.3
-- http://www.phpmyadmin.net
--
-- 主机: localhost
-- 生成日期: 2010 年 01 月 30 日 17:35
-- 服务器版本: 5.0.18
-- PHP 版本: 5.2.6

SET SQL_MODE="NO_AUTO_VALUE_ON_ZERO";

--
-- 数据库: `wordpress`
--

-- --------------------------------------------------------

--
-- 表的结构 `my_wpplg_trace`
--

CREATE TABLE IF NOT EXISTS `my_wpplg_trace` (
`id` int(11) NOT NULL auto_increment,
`referer` varchar(200) character set utf8 NOT NULL default '',
`url` varchar(200) character set utf8 NOT NULL default '',
`time` timestamp NOT NULL default CURRENT_TIMESTAMP,
`ip` varchar(16) character set utf8 NOT NULL default '',
`client` varchar(200) character set utf8 NOT NULL default '',
`cookie` varchar(300) character set utf8 NOT NULL default '',
PRIMARY KEY  (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=gbk AUTO_INCREMENT=4 ;

本来设置的是`cookie` varchar(300),但mysql服务器是4.1版本,varchar类型只能支持到255,在服务器mysql建表时只好改成`cookie` varchar(250)  ;比较无奈,购买虚拟主机附送的数据库,比较小,而且是4.1版,还不能用phpMyAdmin3.x连接——什么时间买个大点的5.x版的

---------------------------------
以前的追踪记录程序,一并列在这里,可能有点参考价值

之前借助在页面里插入以下这样代码的JS文件,籍以记录访客的记录,但对于搜索引擎的抓取,是无能为力了

$url=addslashes($_SERVER['HTTP_REFERER']);
$time=addslashes(date('Y-m-d H-n-s'));
$ip=addslashes($_SERVER["REMOTE_ADDR"]);
$client=addslashes($_SERVER["HTTP_USER_AGENT"]);
$cookie=substr(addslashes($_SERVER["HTTP_COOKIE"]),0,500);

$trace_table='fstrace';

$link = mysql_connect($mysql_host, $mysql_user,$mysql_pwd)
or die("Could not connect: " . mysql_error());
#print ("Connected successfully");
mysql_select_db($mysql_db);
$sql="insert into `{$trace_table}` (`url`,`time`,`ip`,`client`,`cookie`) values('{$url}','{$time}','{$ip}','{$client}','{$cookie}')";
mysql_query($sql,$link);
#echo $sql.''.mysql_affected_rows($link);
mysql_close($link);

或许您在阅读这篇文章时,您的IP地址、请求页面、cookie等信息已经记录在数据库里了,呵呵.

固定链接: http://www.path8.net/tn/archives/145

搞了老半天,凌晨1:22分,算是把数据导到wp里了(百度空间搬到wordpress)

百度空间数据导入wordpress 2.9.1, 初步完成。 使用php数据采集器,hmjcj_1.3 采集数据,主要包括文章标题,分类,时间等。很简单的采集工具,称不上多好,但在这里够用了。 采集得到的数据整理,distinct得到所有文章分类,导入一个新表里,原始文章表里,加分类id号字段,update;时间整理出来。 本地新安装wp,把分类导入wp_terms,文章导入 wp_posts,在wp_term_taxonomy表,为分条wp_terms创建一条记录,直接使term_id与term_taxonomy_id相等,以免导文章分类号对应时麻烦。 导入文章与分类关系数据wp_term_relationships 几条主要语句: insert into `wp_posts` (post_author, post_date, post_date_gmt,  post_content, post_title, post_status , comment_status, ping_status, post_name, post_modified, post_modified_gmt , post_parent, post_type, comment_count, post_excerpt, to_ping, pinged, post_content_filtered) select 1, `time`, `time`, `body`, `title`, 'publish', 'open', 'open', `title`, `time`, `time`, 0, 'post', 0, '', '', '', '' from `fei5` insert into `wp_term_relationships`(term_taxonomy_id, object_id) SELECT `fei5`.cate_id, wp_posts.`id` FROM `fei5` inner join wp_posts on wp_posts.post_title=fei5.title SELECT wp_posts.`id`, wp_posts.post_title, `fei5`.cate_id, `fei5`.cate FROM `fei5` inner join wp_posts on wp_posts.post_title=fei5.title