手机浏览器扫描二维码访问
搜索引擎,顾名思义,便是一种用于搜索信息而产生的工具。
一般解释而言,便是通过用户的需求,和一定的算法,将用户输入的关键词与互联网上现存的信息进行匹配,并按照相关度和时间顺序,将符合要求的信息罗列在用户的眼前。
搜索引擎这门生意讲究的是个先来后到。
如果能在最早的时候将知名论坛和网站的内容全部爬取,那就会在用户占有率上占尽优势。
要知道在这个时间点,日后驰名全球的寻他公司和布谷公司还在娘胎里,呀唬公司的搜索引擎虽然已经诞生,但其底层技术依旧是依靠人工存放网站目录,可谓是效率极其低下。
现在已经有互联网信息爆炸的趋势了,随着信息越来越多,人工处理流程必将被淘汰,而王向中设想的,则是抢在市场最前列,将新一代的搜索引擎提前面世。
实际上做一个搜索引擎并没有看上去那么轻松。
首先是代码问题,这个年代网页技术还停留在web1.o(互联网1.o)的时代,先暂且不提Ajax(AsynchronousJavascriptAndXmL,异步JavaScript和XmL)这种动态页面刷新机制,就连JavaScript(一种web页面脚本语言)都还尚未出现。
还好windows公司相当强大,早在1996年发布了ASP1.o(ActiveServerPages,动态服务器页面),这也让王向中不必苦哈哈地用大量c语言进行后端代码编写工作。
接下来就是数据的爬取和存储问题。
这话虽然听起来很高端,但实际上也就是将数据从别的网站上摘下来,进行索引和关键词分配的简单加工后存储的过程。
这个时候Python语言尚还叫ABc语言,很显然在这个年代使用这个失败的产品是不太合适的,使用更加成熟的c++也许可以解决一些问题。
将爬虫模型简单地铺开来讲,最基础的爬虫,便是通过程序直接访问网页的源代码,通过正则表达式匹配出网页的标题和其具体内容,再接着分析网页内的超链接所指向的页面,逐步将整个网站的内容收入囊中。
再接下来便是数据的存储问题。
mySQL(一种关系数据库管理系统)可以完美地代替文本文档进行数据存取,因为它有一项对于搜索引擎而言重要的功能——索引。
索引可以给一条数据给予定义。
举个最简单的比方,为了节省空间,图书馆的书一般是纵向摆放,而在每本书的侧面上,都写有书名和作者姓名。
这个书名和作者姓名,就是一本书的“索引”
,当你想要找一本书的时候,显然不可能将每本书都打开细细查阅一番,这无疑是在浪费时间。
而通过书名和作者名,你可以轻松地找到自己想要的那本书。
假设一本书是一条数据,那么通过索引功能,便可以轻松地将它从数据库中调取出来,而不必辛苦地逐行逐字分析书本的内容。
1V1高糖甜宠看着不知什么时候钻进被窝里偷袭自己的人形犬,女子额头上全是黑线,咬牙切齿,狗子,做人要安分一点。我是狗子。像只八爪鱼紧紧抱着怀里的人儿,男人眸里全是澈亮的无辜。女子闻言额头黑线又多了一抹,当狗子就应该睡床脚,守大门,乖乖听话!男人眸光顿时一亮,一本正经,音音,狗子要吃饱了才会乖乖听话的。群号706135186...
遭遇丈夫背叛,小三算计,蓝小棠一夜之间,一无所有。‘和平离婚宴’出来,那个男人将她抵在角落,灼热的呼吸落在她的耳根嫁给我,膈应他,我带你一起报仇,把曾经所有失去的,通通都夺回来爱情向东,...
女扮男装霸总,咱不约传言,司辰煜不近女色是因为他是个gay。直到某天,看着司总与一身边的那个穿着西装,打着领带的助手相谈甚欢的时候,外界才明白,传言果然不是空穴来风。传言,司总很是器重这个助手。要星不给月亮一样的器重。放屁!程曦将手里写着司总一掷千金讨好助手的头条新闻扔在执行长办公桌上司辰煜。欠我的一百万什么时候还?不就是欠你这么点小钱吗。我现在就还!喂喂喂。你干什么?看着将自己打横抱起的霸道男人,程曦下了一跳。还钱啊,卖身还债,终身不赎。...
狂帝由作者随风清创作全本作品该小说情节跌宕起伏扣人心弦是一本难得的情节与文笔俱佳的好书919言情小说免费提供狂帝全文无弹窗的纯文字在线阅读。...
身为上门女婿,陈阳有着无数的心酸和无奈,偶然间的一次机会,陈阳化身为龙,曾经瞧不起我的人,全部都将诚服在我脚下,而我爱的人,将由我陈阳来护佑她们一世安宁。...
胸口装着LED灯外面套着铁壳满天乱飞的花花公子,穿着蒙面紧身衣在高楼大厦间不停荡秋千的四眼宅男,为了找回小右变成蜥蜴的断臂医生,在北极躺了七十年还身材健美的过期冷鲜,背上插着四根机械触手假装章鱼的秃头博士,能随意变化身体大小的资深窃贼不知从什么时候起,克拉夫特所生活的世界中,出现了一大堆利用科学而变得不科学的特殊群体。大文豪鲁迅先生曾经说过能打败科学的只有科学。于是,克拉夫特李决定投身于科学研究的事业中。读者群要相信科学854917188...