新网站如何被百度收录,收录减少又是什么原因?
author:一佰互联 2012-03-17   click:1207

前几天有个朋友在MSN里面问搜索引擎友好指的是什么,这是个涉及面挺宽的问题,今天从几方面谈一下大概。


假设我们从搜索引擎蜘蛛的角度去看待一个网页,在抓取,索引和排名的时候会遇到哪些问题呢?解决了这些问题的网站设计就是搜索引擎友好的。

搜索引擎蜘蛛能不能找到你的网页?

要让搜索引擎找到你的主页你就必须要有外部链接,在找到你的主页之后,还必须能找到你的更深的内容页,也就要求你要有良好的网站结构,符合逻辑,可能是一个扁平的,可能是一个树状的。

而且这些网页之间要有良好的链接结构,这些链接以文字链接最好,图像链接也可以,但是JavaScript链接,下拉菜单链接,flash链接等就会有问题。

一般推荐网站需要有一个网站地图,把所有重要的栏目和网页都列进去。如果网站比较大,网站地图还可以分成几个。

网站的所有页面都要能从主页开始,顺着链接找到,最好在3,4次点击之内。

搜索引擎蜘蛛找到网页后能不能抓取网页?

网页的URL必须是可以被抓取的,如果网页是由数据库动态生成的,那么URL一般要经过改写成静态的,也就是去掉那些URL中问号参数之类的东西, 也要去掉Session ID。技术上倒不是搜索引擎不能读取这种URL,但是为了避免陷入无限循环,搜索引擎蜘蛛通常要远离这类URL。

还有如果你的网站是一个整个的flash,那也没办法读取。虽然搜索引擎在努力想读取flash信息,但目前为止收效甚微。

还有框架结构(frame),在网站刚出现的时候,框架结构风行一时,现在还有不少网站在用,这是搜索引擎蜘蛛的大敌。有的时候可以抓取,但别自找麻烦。

还有尽量去除不必要的搜索引擎不能读的东西,像音频文件,图片,弹出窗口等。

搜索引擎蜘蛛抓取网页之后,怎样提炼有用信息?

网页的HTML码必须很优化,也就是格式标签占的越少越好,真正内容占的越多越好,整个文件越小越好。把CSS,JavaScript等放在外部文件。

把关键词放在应该出现的地方。

检查网页对不同操作系统,不同browser的兼容性。检查是否符合W3C标准。

只有搜索引擎能顺利找到你的所有网页,抓取这些网页并取出其中真正的有相关性的内容,这个网站才可以被视为是搜索引擎友好的。

1.网站建设完成后再向百度提交你的申请

2.网站早期的内容要保证80%原创化,即不能够复制网上已经重复千百次的内容.
2.1 原创化不等于原创,你可以将复制过来的内容加一修改,使之接近原创化.一般来说,需要修改文章的正文前200字,标题.关键词和描述也最好自己去写. 具体可以参考seo草根培训博客的示例.
2.2 原创化的效果一定比不上原创文章,但是同样会得到搜索引擎的收录,而采集后未经编辑的文章只有很少的一部分能够被搜索引擎收录.
2.3 原创化可以是复制其它站上的某一篇文章加一修改,也可以是找多个网站的同一主题的文章,然后手工整理,使之形成一篇新文章,这样做明显比单一复制某一文章再修改要好的多,.


3.为你的网站选择一个好域名,以及一个高速 稳定 安全的空间
3.1好的域名一般要满足三个条件
3.1.1域名本身就是行业关键词或者热门关键词(这样的域名很多都已经被注册了,用于投资,此时你可以注册看似冷门的关键词,就像 cet这样的词一年前并没有多大意义,但是今天却能够带来很多流量). 行业词汇做域名,可以无形中提高网站在搜索引擎中的地位.
3.1.2 域名最好是.com,如果你所想的.com米已经被注册,建议换个思路,注册其它.com米,实在不行,再考虑cn和net的米
3.1.3因为3月以来的1元CN域名活动,使很多人手里都有好几十个CN米,很多人都用CN来做垃圾站,所以目前百度对CN米的审核非常严格,一般的站,如果很多内容是采集的,也许根本就不会被百度收录.
3.1.4所有的玉米中,gov.cn / edu.cn 在搜索引擎尤其是百度中被收录的几率要比其它米大,可以理解为他们是天生皇族;除此之外,org要比net要比com容易被收录.
3.2
空间必须是好的,如果你打算做一个优秀的网站而不是垃圾站.空间的大小无所谓,够用就好,关键是空间的质量.我们常常不会去理会1分钟左右都还没有打开的站,所以空间的速度很重要.要是你的站天天被挂马,你的访客会越来越少,所以空间安全很重要.

4.合理的清晰的网站结构,让游客和搜索蜘蛛都可以顺利地阅读你网站所有前台页面.(seo草根培训博客重点提醒一下本条建议.)
5.尽可能多地结交高质量的外部连接,如同行网站的友情连接,网站早期如果找不到同行站的友情连接,可以发布相关文章到同行站,再在所发布的文章中带一个自己的网站连接.
6.检测用户的行为,比如用户从那里来,来干什么,什么主题的内容最受欢迎. 及时提供用户需要的资源,而不是一味地以自己的设想来更新.
7.坚持每天更新,更新数量在10篇左右.

百度收录减少的问题,好多站长都遇见过,最近好象严重点。最近我看到很多朋友说自己网站莫名其妙的百度收录减少,有的在还没有找到原因,没有合适的解决办法。百度收录减少也被有的朋友称呼为“百度拔毛”或者“百度割肉”如何解决百度收录减少,继续往下看。

如果是新站,出现突然减少,其实也没什么可担心的,因为baidu和google不一样.google虽然限制宽松,但是稳定,对页面有一定的要求,更新内容是逐步增加.而百度,最喜欢做的是收录新站,只要是页面都收录,然后慢慢整理.

具体的原因可能性太多,大约有几十种,把常见的原因列出来.请看下面:

(1) 网站作弊.

原因: 比如堆积关键字,隐性文字等等.如果出现这样的情况,百度就算已经收录了你,别庆幸自己蒙混过关,因为在更新的时候也会慢慢剔除的.二级域名和博客交叉连接.

解决方法:这个不用说了吧,赶快把自己的页面好好修改一下吧!另外,二级域名不要过分乱用.博客交叉连接现在无用了,里面留一两个连接就可以,多了去掉.

(2) 网站规范

原因: 标题和关键词(KeyWords)过多,有的站长喜欢把搜索相关的关键字都放进去,你放一万个也没用的.还有就是描述(Description)不合理,如果你是新站,这个绝对有用的,要设置好.

解决方法: 标题里留三四个关键字足够了,太多了百度不喜欢.建议设置为页面主题+专题名+网站名.至于关键词,你加上了没关系,但是至少页面应该出现点相关内容吧.描述的设置很简单,只要语言通顺,对页面做个大概的总结,出现两三次关键字就足够了.

(3) 网站质量

原因: 内容几乎全部采集来的,而且是采集的很热门的文章.百度突然会收录你几千页,但是百度收录后,在一定时间内,会重新检索,如果你内容没有价值的话,被丢弃.

解决方法: 采集后,稍微修改一下再发布.不要太懒,你动动手,把文章简单浏览一下,更改段落或者部分内容,至少有点和别人不一样的地方.原创的多了最好,另外在页面留个版权信息.转载的话也可以留----文章整理:XXX网站 http:XXXXXX

(4) 网站连接

原因: 网站缺少外部连接,或者外部连接逐渐减少,百度对你站的重视当然也会降低,慢慢的减少收录内容.连接的质量是很重要的.垃圾连接宁可不要!另外,检查你的页面,如果有连接指向被封的站,百度会把你当作帮助犯的.

解决方法: 检查网站外部连接,少的话就去交换,或者去一些大站大论坛发点能引起别人兴趣的帖子,留下连接.回复的人越多,效果越好. 如果站内有连接指向被封的站,尽快删除.


(5) 网站改版

原因: 网站没有修改好,就已经提交到百度,动不动来个大变化,大更新,今天这样,明天那样.分类和标题换来换去.还有时候出现测试,或者其他和网站无关的内容.

解决方法: 定位好,要做什么站就坚持下去.可以增加新的分类和内容.老的内容最好不要胡乱删除.如果你更换空间的换,最好提前换.保证在一段时间内以前的空间内容继续存在,以防万一.

(6) 网站空间

原因: 网站空间不稳定,动不动打不开网站,百度连续两次以上更新都无法抓到相信信息,那么你肯定要被从数据库清理,因为百度以为你的站已经关闭,或者相关页面不存在了.还有一个就是,你IP上多次出现作弊站点,跟着倒霉了.

解决方法: 买空间时候注意,找点信誉好的IDC.别光为了便宜,如果经常出问题,别说百度了,网民也承受不了.毕竟你的站不会引起百度重视.另外,买空间时候时候检查一下虚拟主机IP上的站点,和收录情况,以及被封闭站点的数量.

(7) 网站安全

原因: 自己的站点上加了恶意代码或者故意挂马的话,百度能分析的出来.会降低你的信任度.还有就是被那些小黑客用工具入侵,修改或者删除了大部分页面.

解决方法: 定期备份,出现问题及时解决.一般百度更新都是夜里勤快.对个人站每天更新的不多.如果一旦不正常,立刻处理,应该可以避免的.

(8) 网站优化

原因: 对SEO有一定的了解,就刻意的修改,网站做出来,过度优化,虽然没有明显作弊,但是根本没有任何价值.虽然通过百度可以得到流量,毕竟网站做出来是提供给别人浏览的,如果你回头率过低,也不行.百度不是一直提倡所谓的用户体验嘛.

解决方法: 不要过分优化,SEO的本质是为搜索引擎服务,不是欺骗.万事把握个度.打个比方说,你页面某个关键字加粗一次,百度知道是重点,可你把所有的相关关键字都加粗,百度会怎么想???!!!

(9) 网站倒霉

原因: 也许你倒霉,遇见百度大的更新或者算法改变,会很多站点一起出现收录减少或者被K.正好你的站被百度看上了.

解决方法: 没有太好的办法.只有慢慢等百度重新收录.如果你是SEO高人,也可以尽快琢磨出最新的算法给大家分享.

(10) 网站关闭

原因: 你的站点已经关闭了,但是百度还有很多相关的收录信息.论坛类比较常见.可收录却不断减少.