SEO从入门到精通34-24(转载如本站资源侵犯您的权利请告知,本站将立即予以删除。).txt

80酷酷网    80kuku.com

         </configSections>

          <!-- 实际重定向  -->

          <RewriterConfig>

                       <Rules>

                                <RewriterRule>

                                         <LookFor>~/(\d*).html</LookFor>

                                         <SendTo>~/user/default.aspx?link=$1</SendTo>

                                </RewriterRule>

                       </Rules>

              </RewriterConfig>

 

          <system.web>

                       <!--

                       需要在IIS 里面增加html          引用,改成aspx 的引用

                       -->

                       <httpHandlers>

                                <add                     verb="*"                     path="*.aspx"

        type="URLRewriter.RewriterFactoryHandler, URLRewriter" />

                                <add                     verb="*"                     path="*.html"

        type="URLRewriter.RewriterFactoryHandler, URLRewriter" />

                       </httpHandlers>

    5.  在地址栏输入 

      例如:Google,里面的函数名称只有 1 个或者2 个字符。

   2. 将网页的公共部分转换为脚本并存于js 文件里。这样可以减少文件大小,加快下载速度,同

      时也方便管理。不过不能将导航等等优化的关键代码转换成js ,否则搜索引擎搜索不到。

      转换方式:

      原来:<h1>天天收藏夹</h1>

      脚本:document.write(“<h1>天天收藏夹</h1>”);

      例如:华军软件园 源代码,将标题、导航等等都放着js文件里,将导航放在js里面就不太好

      了。

3.使用base  标签:

  Base 标签是一个全集控制的标签。

  比如:

    <A HREF="http://www.supercss.com/code/1.htm " target=”_blank”>代码一</A>

    <A HREF="http://www.supercss.com/code/2.htm " target=”_blank”>代码一</A>

    其中  http://www.supercss.com 和  target=”_blank”: 多次重复,增加无用的代码。

    修改为:

    <head>

        <base href=”http://www.supercss.com/” target=”_blank”>

    </head>

    <body>

        <a href=”/code/1.htm”>代码一</a>

       <a href=”/code/2.htm”>代码二</a>

    </body>

 

4.慎用网页减肥工具

   通常的网页减肥工具,对htm 减肥具有一定的破坏性,常常为了减肥将标签的 后半个标签删除,

   造成网页的不完整。

   处理前:<table><tr><td>第一行</td></tr><tr><td>第二行</td></tr></table>

   处理后:<table><tr><td>第一行<tr><td>第二行</table>

   处理后  </td></tr> 被去掉了,使页面不完整。

 

5.删除空格和回车

   如果要更加苛刻的减肥,那最后一步就是删除空格了,还可以使文件大小下降很多。

   不过删除空格后的页面由于没有阶梯排列,将很难读懂。

   例子:百度首页的代码就非常紧凑。

 

                             不同位置的网页优化

 

网站首页优化:

 

1.关键词选择

 

                       《搜索引擎优化(SEO)从入门到精通》 第  28     页


----------------------- 页面 29-----------------------

              

              

 

    首页的关键词应该选择核心关键词。通常这些词优化难度比较大,需要大量的外部链接。交换

    链接的时候以网站名称或者核心关键词命名链接。参见:域名及网站名称中的关键词

    例如:在搜索引擎优化行业,首页的关键词应该是 SEO。

 2.网页链接

    首页大部分都是链接,最新的链接要放在网页的前面,便于搜索引擎收录。

 3.更新频率

    蜘蛛第一个来到的页面就是首页,首页一定要经常更新,蜘蛛就会来的比较频繁,链接的页面

    将会更快被收录。

 

 栏目页优化:

 1. 关键词选择

    栏目页的关键词,相对首页,可以选择次一些的关键词,以核心“SEO”为例,栏目也可以是“SEO

    培训”,“SEO 教程”等。

 2. 内部链接

    栏目页一定要链接到首页,为首页建立内部链接。同时和其他栏目页也要相互链接。

    栏目页大量的链接内容页,链接数量控制在 100 个以内。

 

 内页优化:

 1.  关键词

    内页可以不特别关注关键词,可以将Meta Title           设置成相同的内容。在页面里更多的利用H1,

    IMG、STRONG 标签优化关键词。

2. 内容

    网页要以内容为主,大于5K 时,可以做翻页处理。内容最好是原创,内页收录的越多,从搜索

    引擎来的流量才能越多。

3. 链接

    通常内页很少有外部链接的,除非内容非常好,被人转载。内页要链接栏目页和首页,大量的

    内页链接,有利于栏目页和首页的关键词排名。内页最好能链接内容相关的其他内页,这样可

    以增加网页的相关度,同时方便用户浏览,增加网站的PV。

 

                                  Robots.txt

 

 搜索引擎通过一种程序robot       (又称spider),自动访问互联网上的网页并获取网页信息。

 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的

 部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定

 的内容。robots.txt 文件应该放在网站根目录下。

 

 robots.txt 文件的格式:

 "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL 作为结束符),

 每一条记录的格式如下所示:

 "<field>:<optionalspace><value><optionalspace>"。

 

 在该文件中可以使用#进行注解,具体使用方法和UNIX 中的惯例一样。该文件中的记录通常以一行

 或多行User-agent 开始,后面加上若干Disallow 行,详细情况如下:

 

                        《搜索引擎优化(SEO)从入门到精通》 第  29    页


----------------------- 页面 30-----------------------

             

 

User-agent:

    该项的值用于描述搜索引擎 robot  的名字,在"robots.txt"文件中,如果有多条User-agent 记录说

明有多个robot 会受到该协议的限制,对该文件来说,至少要有一条User-agent 记录。如果该项的值

设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

 

Disallow:

    该项的值用于描述不希望被访问到的一个 URL,这个 URL  可以是一条完整的路径,也可以是

部分的,任何以 Disallow  开头的 URL  均不会被 robot  访问到。例如"Disallow:/help"对/help.html               和

/help/index.html 都不允许搜索引擎访问,而"Disallow:/help/"则允许robot 访问/help.html,而不能访问

/help/index.html 。任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"

文件中,至少要有一条Disallow 记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,

该网站都是开放的。

robots.txt 文件用法举例:

 

       例 1.  禁止所有搜索引擎访问网站的任何部分                                      User-agent: *

 

       下载该robots.txt文件                                              Disallow: / 

 

       例 2.  允许所有的 robot         访问  ( 或者也可以建一个空文件 User-agent: *

 

       "/robots.txt" file)                                          Disallow:  

 

                                                                    User-agent:

 

       例3.  禁止某个搜索引擎的访问                                             BadBot

 

                                                                    Disallow: / 

 

                                                                    User-agent:

 

                                                                    baiduspider

 

                                                                    Disallow:

       例 4. 允许某个搜索引擎的访问 

 

                                                                    User-agent: *

 

                                                                    Disallow: / 

 

       例 5.一个简单例子

 

           在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,User-agent: *

 

       即搜索引擎不会访问这三个目录。                                              Disallow:

 

           需要注意的是对每一个目录必须分开声明,而不要写成 /cgi-bin/

 

       "Disallow: /cgi-bin/ /tmp/"。                                 Disallow: /tmp/

 

           User-agent:后的*具有特殊的含义,代表"any             robot",所以在该 Disallow: /~joe/ 

 

       文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"这样的记录出现.

 

Robot 特殊参数:

1.  Google

    允许  Googlebot:

    如果您要拦截除  Googlebot       以外的所有漫游器访问您的网页,可以使用下列语法:

 

                           《搜索引擎优化(SEO)从入门到精通》 第  30         页


----------------------- 页面 31-----------------------

             

 

 

   User-agent:Disallow:/

   User-agent:Googlebot

    Disallow:

    Googlebot  跟随指向它自己的行,而不是指向所有漫游器的行。

 

    "Allow"扩展名:

    Googlebot 可识别称为"Allow"的  robots.txt    标准扩展名。其他搜索引擎的漫游器可能无法识别此

    扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。"Allow"行的作用原理完全与"Disallow"

    行一样。只需列出您要允许的目录或页面即可。

 

    您也可以同时使用"Disallow"和"Allow"。例如,要拦截子目录中某个页面之外的其他所有页面,

    可以使用下列条目:

 

   User-Agent:Googlebot

    Disallow:/folder1/

   Allow:/folder1/myfile.html

    这些条目将拦截  folder1      目录内除  myfile.html   之外的所有页面。

 

    如果您要拦截  Googlebot       并允许  Google    的另一个漫游器(如  Googlebot-Mobile ),可使用

    "Allow"规则允许该漫游器的访问。例如:

 

   User-agent:Googlebot

    Disallow:/

   User-agent:Googlebot-Mobile

   Allow:

 

    使用  *  号匹配字符序列:

    您可使用星号  (*)     来匹配字符序列。例如,要拦截对所有以  private                  开头的子目录的访问,可使

    用下列条目:

 

   User-Agent:Googlebot

    Disallow:/private*/

    要拦截对所有包含问号  (?)          的网址的访问,可使用下列条目:

 

   User-agent:*

    Disallow:/*?*

 

    使用  $  匹配网址的结束字符

    您可使用  $    字符指定与网址的结束字符进行匹配。例如,要拦截以  .asp                          结尾的网址,可使用

    下列条目:

 

   User-Agent:Googlebot

    Disallow:/*.asp$

    您可将此模式匹配与  Allow         指令配合使用。例如,如果  ?             表示一个会话  ID,您可排除所有包

 

                           《搜索引擎优化(SEO)从入门到精通》 第  31          页


----------------------- 页面 32-----------------------

             

             

 

   含该  ID 的网址,确保  Googlebot   不会抓取重复的网页。但是,以  ?          结尾的网址可能是您要包

   含的网页版本。在此情况下,可对  robots.txt        文件进行如下设置:

 

   User-agent:*

   Allow:/*?$

   Disallow:/*?

   Disallow:/ *?一行将拦截包含  ?  的网址(具体而言,它将拦截所有以您的域名开头、后接任意字

   符串,然后是问号  (?),而后又是任意字符串的网址)。

 

   Allow: /*?$ 一行将允许包含任何以  ?     结尾的网址(具体而言,它将允许包含所有以您的域名开

   头、后接任意字符串,然后是问号  (?),问号之后没有任何字符的网址)。

 

   Sitemap 网站地图:

   对网站地图的新的支持方式,就是在robots.txt 文件里直接包括 sitemap 文件的链接。

   就像这样:

   Sitemap: http://www.supercss.com/index.xml

   目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。

   不过,我建议还是在Google Sitemap  进行提交,里面有很多功能可以分析你的链接状态。

 

Robots.txt 带来的好处:

   1. 几乎所有的搜索引擎 Spider 都遵循robots.txt 给出的爬行规则,协议规定搜索引擎 Spider 进

      入某个网站的入口即是该网站的robots.txt,当然,前提是该网站存在此文件。对于没有配置

      robots.txt 的网站,Spider 将会被重定向至404    错误页面,相关研究表明,如果网站采用了自

      定义的404 错误页面,那么 Spider 将会把其视作robots.txt——虽然其并非一个纯粹的文本文

      件——这将给 Spider 索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。

 

   2. robots.txt 可以制止不必要的搜索引擎占用服务器的宝贵带宽,如email   retrievers,这类搜索

      引擎对大多数网站是没有意义的;再如 image              strippers,对于大多数非图形类网站来说其也

      没有太大意义,但却耗用大量带宽。

 

   3. robots.txt 可以制止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序,事

      实上,对于某些在运行中产生临时页面的网站来说,如果未配置robots.txt,搜索引擎甚至会

      索引那些临时文件。

 

   4. 对于内容丰富、存在很多页面的网站来说,配置 robots.txt              的意义更为重大,因为很多时候

      其会遭遇到搜索引擎 Spider 给予网站的巨大压力:洪水般的 Spider 访问,如果不加控制,甚

      至会影响网站的正常访问。

 

   5. 同样地,如果网站内存在重复内容,使用robots.txt 限制部分页面不被搜索引擎索引和收录,

      可以避免网站受到搜索引擎关于  duplicate content 的惩罚,保证网站的排名不受影响。

 

robots.txt 带来的风险及解决:

    1.  凡事有利必有弊,robots.txt  同时也带来了一定的风险:其也给攻击者指明了网站的目录结构

      和私密数据所在的位置。虽然在 Web            服务器的安全措施配置得当的前提下这不是一个严重

 

                       《搜索引擎优化(SEO)从入门到精通》 第  32     页


----------------------- 页面 33-----------------------

             

             

 

      的问题,但毕竟降低了那些不怀好意者的攻击难度。

 

          比如说,如果网站中的私密数据通过 www.yourdomain.com/private/index.html      访问,那

      么,在robots.txt 的设置可能如下:

 

      User-agent: *

      Disallow: /private/

 

          这样,攻击者只需看一下 robots.txt       即可知你要隐藏的内容在哪里,在浏览器中输入

      www.yourdomain.com/private/ 便可访问我们不欲公开的内容。对这种情况,一般采取如下的

      办法:

 

      设置访问权限,对/private/ 中的内容实施密码保护,这样,攻击者便无从进入。

      另一种办法是将缺省的目录主文件 index.html 更名为其他,比如说 abc-protect.html,这样,

      该内容的地址即变成 www.yourdomain.com/private/abc-protect.htm ,同时,制作一个新的

      index.html  文件,内容大致为“你没有权限访问此页”之类,这样,攻击者因不知实际的文

      件名而无法访问私密内容。

   2. 如果设置不对,将导致搜索引擎将索引的数据全部删除。

 

      User-agent: *

      Disallow: /

      上述代码将禁止所有的搜索引擎索引数据。

      参见:页面收录减少,如何检查判断?

 

                                  网页相似度

 

网页相似度是比较网页是否相似,通常有以下两种计算方式:

1. 根据网页摘要来比较,如果多个网页摘要的md5 值一样,证明这些网页有很高的相似性

2. 根据网页出现关键词,按照词频排序,可以取N 个词频高的,如果md5 值一样,证明这些网页

   有很高的相似性。

 

网页相似度对SEO 的影响:

Google 对网页相似度限制在 60%,如果超过这个标准将导致页面不被收录,或者收录后排名靠后中。

 

参考:如何降低网页相似度?

 

                                    404 页面

 

相关服务器返回代码介绍:

   200  客户端请求已成功响应。

   301  永久重定向某个链接。

   302  临时重定向到某个链接。

 

                       《搜索引擎优化(SEO)从入门到精通》 第  33     页

分享到
  • 微信分享
  • 新浪微博
  • QQ好友
  • QQ空间
点击: