• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

【原】获取网页所有链接——简易搜索引擎雏形(C#,已测试通过,有CODE) ...

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

最近一直在看搜索引擎方面的资料,在Google上找了很多,可是没有找到一个下载下来可以直接使用的!

没有办法只能看别人的代码,然后一点一点的调试!功夫不负有心人,终于算是修得正果!贴代码:

 retval;
        }

    }
}

 

这个代码只是实现了部分功能,即单页面抓取不重复链接,看来还有部分工作要做,就是页面内部循环,利用正则抓取页单一站点的整体链接,目的是为了收集自己最感兴趣的内容。

为了使读者有信心,继续贴一些重量级别的代码过来,这段代码是统计一个URL内关键字出现的次数,测试通过!见代码:

Search.aspx 页面代码如下:


 

Search.aspx.cs 后台代码如下:

 

 lTitle;
    }
}

 

再推荐两篇文章:

http://www.codeproject.com/KB/applications/SearchDotnet.aspx (Internal Site Search Engine 测试通过)

http://www.codeproject.com/KB/IP/Searcharoo_4.aspx (C# search engine: refactored to search Word, PDF and more)

测试通过,不过有点小麻烦,得学会序列化和反序列化(这里采用二进制)。 解决问题方法是:

1.  随便找4个文件,分别命名为:plaintext.txt,Kilimanjaro.pdf,Decorator.ppt,Marathoning.doc 放在目录 content 中;

2.  根据错误提示(e文,注意e文提示上面的链接,那个链接告诉你如何序列化和反序列化二进制文件以及XML文件),创建二进制文件 z_searcharoo.dat 放在特定的目录下,然后RUN!


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap