这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
文章:浅谈我对互联网资源检索的想法 [2024/08/04 11:33] xxy 创建 |
文章:浅谈我对互联网资源检索的想法 [2024/08/04 11:35] (当前版本) xxy |
||
---|---|---|---|
行 1: | 行 1: | ||
- | == 浅谈我对互联网资源检索的想法 == | + | ====== 浅谈我对互联网资源检索的想法 |
- | | + | 国内无法访问Google,在必应也可以使用高级检索指令来过滤内容,可以获取大部分表层网络和少部分深层网络的内容,使用这种技术互联网上绝大部分能访问的资源应该都是可以获取的,这取决于搜索引擎的网络爬虫爬取的广度和深度,个人建议使用顶级的搜索引擎。或者使用聚合多个搜索引擎的结果的搜索引擎,它没有爬虫,而是针对其它搜索引擎返回的结果进行处理 |
找资源个人建议使用网盘搜索引擎(比如罗马盘,史莱姆搜索,以及资源网站和资源导航网站)和BT搜索引擎(电影娱乐资源丰富些,去中心化)。公开的个人网盘的资源质量相对较高,找电子书资源很适合。网盘搜索引擎使用爬虫技术爬取特定网站公布的网盘资源信息,有些结合调用搜索引擎API的返回的结果,资源还是比较全的,但是百度网盘大部分私密的资源是无法获取的,还有公布了但是不知道验证码的资源也是无法获取的。如果可以获取百度网盘用户列表和用户资源列表,将网盘资源解析为直链就更好了,但是用户隐私将被侵犯。 | 找资源个人建议使用网盘搜索引擎(比如罗马盘,史莱姆搜索,以及资源网站和资源导航网站)和BT搜索引擎(电影娱乐资源丰富些,去中心化)。公开的个人网盘的资源质量相对较高,找电子书资源很适合。网盘搜索引擎使用爬虫技术爬取特定网站公布的网盘资源信息,有些结合调用搜索引擎API的返回的结果,资源还是比较全的,但是百度网盘大部分私密的资源是无法获取的,还有公布了但是不知道验证码的资源也是无法获取的。如果可以获取百度网盘用户列表和用户资源列表,将网盘资源解析为直链就更好了,但是用户隐私将被侵犯。 | ||
- | 一些网站和论坛也可以获取不好找的资源,有些需要注册账号和使用积分。这些网站或许资源不全面,但是在某些专业方向资源丰富,有些只是内部共享交流,外面找不到的。 | + | 一些网站和论坛也可以获取不好找的资源,有些需要注册账号和使用积分。这些网站或许资源不全面,但是在某些专业方向资源丰富,有些只是内部共享交流,外面找不到的。 |
当然如果拥有顶级的黑客技术,潜在能访问的资源是能访问的,整个互联网的存储设备都是你外存。 | 当然如果拥有顶级的黑客技术,潜在能访问的资源是能访问的,整个互联网的存储设备都是你外存。 | ||
使用网络爬虫和搜索引擎API+搜索引擎高级检索技术对特定资源、信息网站(打★这些网站)进行采集处理分析。Web API,URL及其参数。★自己用Python写爬虫程序。 | 使用网络爬虫和搜索引擎API+搜索引擎高级检索技术对特定资源、信息网站(打★这些网站)进行采集处理分析。Web API,URL及其参数。★自己用Python写爬虫程序。 | ||
- | 回复 @Ninelie_Aimer : | + | 回复 @Ninelie_Aimer : |
爬虫的难点在于能成功请求并返回数据(维持连接有验证码和IP封禁等问题)和解析过滤出目标数据(有JavaScript加密的JSON,正则表达模式匹配)。使用Selenium可以解决一些问题。 | 爬虫的难点在于能成功请求并返回数据(维持连接有验证码和IP封禁等问题)和解析过滤出目标数据(有JavaScript加密的JSON,正则表达模式匹配)。使用Selenium可以解决一些问题。 | ||
网络爬虫的原理知道一点,用过别人的程序。 | 网络爬虫的原理知道一点,用过别人的程序。 | ||
- | 回复 @爱动漫ES : | + | 回复 @爱动漫ES : |
第二个问题,我把它称“图书馆问题”:如何确定图书馆中一本内容你感兴趣,但你不知道是否存在的书籍的存在性?这个问题它反映的是人对自己存储信息和知识的系统的掌控或者说利用能力,也可以从检索层面理解。理解这种复杂的系统或许需要人工智能的帮助,这种量级的信息和复杂的结构,在有限的时间内,人无法完成对其完全解析。但是计算机凭借其计算能力和算法或许能在更高维度辅助人类,这是人造“神”(半神,达到“全知”的程度)。计算机作为人智力和肢体的延伸,在某些领域会超过人类,正如车子比人跑的更快,但它始终是工具,工具没有自主意识。或许脑科学和计算技术得发展会诞生强人工智能。 | 第二个问题,我把它称“图书馆问题”:如何确定图书馆中一本内容你感兴趣,但你不知道是否存在的书籍的存在性?这个问题它反映的是人对自己存储信息和知识的系统的掌控或者说利用能力,也可以从检索层面理解。理解这种复杂的系统或许需要人工智能的帮助,这种量级的信息和复杂的结构,在有限的时间内,人无法完成对其完全解析。但是计算机凭借其计算能力和算法或许能在更高维度辅助人类,这是人造“神”(半神,达到“全知”的程度)。计算机作为人智力和肢体的延伸,在某些领域会超过人类,正如车子比人跑的更快,但它始终是工具,工具没有自主意识。或许脑科学和计算技术得发展会诞生强人工智能。 | ||
个人力量有限,集体的智慧拥有强大的力量。 | 个人力量有限,集体的智慧拥有强大的力量。 | ||
行 17: | 行 17: | ||
拥有信息和资源让大脑有一种幻觉——你掌握了这些有“价值”东西,它们将会为你创造价值。你不断搜集信息和资源,大脑也不断分泌多巴胺让你快乐,长期如此形成一种不良习惯,你有了太多和选择、面临太多的诱惑,无法静下心来学习。这个时代是好时代,也是不好的时代。有了信息和资源远远不够,高效的学习方法和执行能力,健康的身体、人格和心理才是最宝贵的,人不能失去其社会属性。信息检索只是术,是技术,是方法;它不是道,道是规则,是智慧,是自己走的道路。 | 拥有信息和资源让大脑有一种幻觉——你掌握了这些有“价值”东西,它们将会为你创造价值。你不断搜集信息和资源,大脑也不断分泌多巴胺让你快乐,长期如此形成一种不良习惯,你有了太多和选择、面临太多的诱惑,无法静下心来学习。这个时代是好时代,也是不好的时代。有了信息和资源远远不够,高效的学习方法和执行能力,健康的身体、人格和心理才是最宝贵的,人不能失去其社会属性。信息检索只是术,是技术,是方法;它不是道,道是规则,是智慧,是自己走的道路。 | ||
- | | + | 回复 @爱动漫ES : |
- | | + | 回复 @像风一样得男子 : |
搜索引擎检索指令,网盘搜索引擎,BT搜索引擎这些东西普通人能用,对学习和工作也有帮助。这些东西百度一下就有,说明存在性就可以了。网络爬虫有用,我要重点说一下,感兴趣的人自然会去了解和学习。 | 搜索引擎检索指令,网盘搜索引擎,BT搜索引擎这些东西普通人能用,对学习和工作也有帮助。这些东西百度一下就有,说明存在性就可以了。网络爬虫有用,我要重点说一下,感兴趣的人自然会去了解和学习。 | ||
我能得这么多个赞,很大原因就是沾了UP主的光,这是事实,我的评论汇总文章现在无人问津。 | 我能得这么多个赞,很大原因就是沾了UP主的光,这是事实,我的评论汇总文章现在无人问津。 | ||
- | | + | 回复 @DYT-H : |
- | 大学的资源离开校园就无法访问了,要利用好这些资源 | + | 大学的资源离开校园就无法访问了,要利用好这些资源 |
可以去大学图书馆看下这方面的书(信息素养、图书科技文献情报学、搜索引擎工作原理、网络爬虫、网络软硬件技术、Web技术),多去大学内网的资源站点检索资源,推荐使用Google搜索引擎。 | 可以去大学图书馆看下这方面的书(信息素养、图书科技文献情报学、搜索引擎工作原理、网络爬虫、网络软硬件技术、Web技术),多去大学内网的资源站点检索资源,推荐使用Google搜索引擎。 | ||
计算机科学技术、计算机网络、编程语言和建站相关的书籍也是推荐可以一看,可以先看入门的。 | 计算机科学技术、计算机网络、编程语言和建站相关的书籍也是推荐可以一看,可以先看入门的。 | ||
- | 我也就这几板斧: | + | 我也就这几板斧: |
- | | + | 1.google/ |
- | | + | 2.BT、网盘搜索引擎(本质上也是搜索引擎) |
- | | + | 3.特定网站的收集和深入查找(我一般通过搜索引擎发现,然后配合搜索引擎运算符深入 ,可以了解下google hacking技术(我也没学过)),如果你是高手,你还可以自己开发网络爬虫来获取信息,甚至使用AI、大数据、知识工程和知识表示(百科、信息图、云图等)来辅助获取和分析信息, |
- | 特定网站搜索的范围是个宽泛的概念,这个范围它包含一切可访问计算机资源(甚至是物理上具有潜在访问可能性的算力、存储资源),因此搜索引擎无法访问的内网、局域网、P2P网络技术下的加密匿名覆盖网络(Tor网络、freenet、I2P)也包含在此列,甚至于使用AI和量子计算机(可能能)打开的“神域”中的资源(比如暴力或智能地提取1GB存储空间全部组合中有价值组合的资源,这是神也达不到的领域,如果能达到那就1TB全组合……)也在此列 | + | 特定网站搜索的范围是个宽泛的概念,这个范围它包含一切可访问计算机资源(甚至是物理上具有潜在访问可能性的算力、存储资源),因此搜索引擎无法访问的内网、局域网、P2P网络技术下的加密匿名覆盖网络(Tor网络、freenet、I2P)也包含在此列,甚至于使用AI和量子计算机(可能能)打开的“神域”中的资源(比如暴力或智能地提取1GB存储空间全部组合中有价值组合的资源,这是神也达不到的领域,如果能达到那就1TB全组合……)也在此列 |
- | | + | 回复 @God-among-us : |
这种资源,只有自己去探索了。即使是明网上的资源,搜索引擎爬虫探索的广度和深度也无法全覆盖。有些网站内部的搜索引擎效果比Google更好(仅就该网站而言。) | 这种资源,只有自己去探索了。即使是明网上的资源,搜索引擎爬虫探索的广度和深度也无法全覆盖。有些网站内部的搜索引擎效果比Google更好(仅就该网站而言。) | ||
- | 回复 @NKU的某某 : | + | 回复 @NKU的某某 : |
- | 回复 @爱动漫ES : | + | 回复 @爱动漫ES : |
- | 回复 @古希腊的汉密士 : zlibrary,安娜的档案这些网站有电子书。这些网站本身也值得研究一下。 | + | 回复 @古希腊的汉密士 : zlibrary,安娜的档案这些网站有电子书。这些网站本身也值得研究一下。 |