用户工具

站点工具


文章:浅谈我对互联网资源检索的想法

浅谈我对互联网资源检索的想法

国内无法访问Google,在必应也可以使用高级检索指令来过滤内容,可以获取大部分表层网络和少部分深层网络的内容,使用这种技术互联网上绝大部分能访问的资源应该都是可以获取的,这取决于搜索引擎的网络爬虫爬取的广度和深度,个人建议使用顶级的搜索引擎。或者使用聚合多个搜索引擎的结果的搜索引擎,它没有爬虫,而是针对其它搜索引擎返回的结果进行处理 找资源个人建议使用网盘搜索引擎(比如罗马盘,史莱姆搜索,以及资源网站和资源导航网站)和BT搜索引擎(电影娱乐资源丰富些,去中心化)。公开的个人网盘的资源质量相对较高,找电子书资源很适合。网盘搜索引擎使用爬虫技术爬取特定网站公布的网盘资源信息,有些结合调用搜索引擎API的返回的结果,资源还是比较全的,但是百度网盘大部分私密的资源是无法获取的,还有公布了但是不知道验证码的资源也是无法获取的。如果可以获取百度网盘用户列表和用户资源列表,将网盘资源解析为直链就更好了,但是用户隐私将被侵犯。

一些网站和论坛也可以获取不好找的资源,有些需要注册账号和使用积分。这些网站或许资源不全面,但是在某些专业方向资源丰富,有些只是内部共享交流,外面找不到的。 当然如果拥有顶级的黑客技术,潜在能访问的资源是能访问的,整个互联网的存储设备都是你外存。 使用网络爬虫和搜索引擎API+搜索引擎高级检索技术对特定资源、信息网站(打★这些网站)进行采集处理分析。Web API,URL及其参数。★自己用Python写爬虫程序。

回复 @Ninelie_Aimer :我也是推荐使用Google指令和网盘、BT搜索引擎,外加收藏优质的资源信息提供网站这几种方式来获取资源,能满足绝大部分的需求。能自己编写程序来实现一些自动化也是有好处的,可以考虑从URL及其参数入手来处理分析各大搜索引擎返回的数据。 爬虫的难点在于能成功请求并返回数据(维持连接有验证码和IP封禁等问题)和解析过滤出目标数据(有JavaScript加密的JSON,正则表达模式匹配)。使用Selenium可以解决一些问题。 网络爬虫的原理知道一点,用过别人的程序。

回复 @爱动漫ES :第一个问题,要去主动检索信息,有个前提——你必须先知道要检索的东西的存在性。你都不知道的东西,你怎么去检索?知乎、B站这些网站提供内容推荐服务,还可以根据你的兴趣来推荐关联内容。学科分类方法(GBT 13745-2009)、大学专业的分类(普通高等学校本科专业目录(2020 年版)和图书馆分类方法(国内使用中图法)这些东西可以从框架层面让你知道什么东西是存在的。 第二个问题,我把它称“图书馆问题”:如何确定图书馆中一本内容你感兴趣,但你不知道是否存在的书籍的存在性?这个问题它反映的是人对自己存储信息和知识的系统的掌控或者说利用能力,也可以从检索层面理解。理解这种复杂的系统或许需要人工智能的帮助,这种量级的信息和复杂的结构,在有限的时间内,人无法完成对其完全解析。但是计算机凭借其计算能力和算法或许能在更高维度辅助人类,这是人造“神”(半神,达到“全知”的程度)。计算机作为人智力和肢体的延伸,在某些领域会超过人类,正如车子比人跑的更快,但它始终是工具,工具没有自主意识。或许脑科学和计算技术得发展会诞生强人工智能。 个人力量有限,集体的智慧拥有强大的力量。 先博后专,容易造成博而不专,这是大忌。 拥有信息和资源让大脑有一种幻觉——你掌握了这些有“价值”东西,它们将会为你创造价值。你不断搜集信息和资源,大脑也不断分泌多巴胺让你快乐,长期如此形成一种不良习惯,你有了太多和选择、面临太多的诱惑,无法静下心来学习。这个时代是好时代,也是不好的时代。有了信息和资源远远不够,高效的学习方法和执行能力,健康的身体、人格和心理才是最宝贵的,人不能失去其社会属性。信息检索只是术,是技术,是方法;它不是道,道是规则,是智慧,是自己走的道路。

回复 @爱动漫ES :大学有门课——《信息素养》,校图书馆应该也有文献检索和文献检索数据库的培训,信息检索和图书情报学是紧密联系的。处于信息时代,一个人应当具备检索获取信息和资源的意识和能力。 搜索无处不在,各大网站都有检索功能,这是主动获取信息的窗口。通过理解搜索引擎工作原理和使用高级检索指令配合关键字和术语,可以从其庞大的数据库中高效的获取自己想要的内容。 搜索引擎(Google,Bing)的网络爬虫爬取了全球大量的网站,但其爬取深度可能不足,比如深网中的资源它的爬虫无法访问。因此,收集优质的网站(比如网盘搜索引擎、BT搜索引擎、资源导航网站等等),从这些网站中获取信息资源可能比搜索引擎效果更好。为了实现自动化采集、处理分析、表现显示信息,可以自己使用相关数据分析软件或自己编写网络爬虫。数据科学,数据可视化,数据挖掘等学科都是关联领域。 检索信息有几个问题:

回复 @像风一样得男子 :这是表层的描述,不是技术原理和实现细节。 搜索引擎检索指令,网盘搜索引擎,BT搜索引擎这些东西普通人能用,对学习和工作也有帮助。这些东西百度一下就有,说明存在性就可以了。网络爬虫有用,我要重点说一下,感兴趣的人自然会去了解和学习。 我能得这么多个赞,很大原因就是沾了UP主的光,这是事实,我的评论汇总文章现在无人问津。

回复 @DYT-H :谈谈我对信息和资源检索的一点认识

大学的资源离开校园就无法访问了,要利用好这些资源 可以去大学图书馆看下这方面的书(信息素养、图书科技文献情报学、搜索引擎工作原理、网络爬虫、网络软硬件技术、Web技术),多去大学内网的资源站点检索资源,推荐使用Google搜索引擎。 计算机科学技术、计算机网络、编程语言和建站相关的书籍也是推荐可以一看,可以先看入门的。

我也就这几板斧: 1.google/bing的搜索引擎服务,搜索运算符(高级检索指令),现在有AI技术的加持(AI对外界的控制有限制)。我一般惯用这个。 2.BT、网盘搜索引擎(本质上也是搜索引擎) 3.特定网站的收集和深入查找(我一般通过搜索引擎发现,然后配合搜索引擎运算符深入 ,可以了解下google hacking技术(我也没学过)),如果你是高手,你还可以自己开发网络爬虫来获取信息,甚至使用AI、大数据、知识工程和知识表示(百科、信息图、云图等)来辅助获取和分析信息,

特定网站搜索的范围是个宽泛的概念,这个范围它包含一切可访问计算机资源(甚至是物理上具有潜在访问可能性的算力、存储资源),因此搜索引擎无法访问的内网、局域网、P2P网络技术下的加密匿名覆盖网络(Tor网络、freenet、I2P)也包含在此列,甚至于使用AI和量子计算机(可能能)打开的“神域”中的资源(比如暴力或智能地提取1GB存储空间全部组合中有价值组合的资源,这是神也达不到的领域,如果能达到那就1TB全组合……)也在此列

回复 @God-among-us :常规搜索引擎(如Google)的网络爬虫无法访问深网(包括注册网站或应用软件的服务器,暗网,局域网(NAT限制),企业内部网等在硬件和软件层面具有潜在访问可能性的网络)中的资源(无访问权限,爬虫功能限制(如网络协议层面)),定制的网络爬虫和黑客技术加持可以解决一些问题。 这种资源,只有自己去探索了。即使是明网上的资源,搜索引擎爬虫探索的广度和深度也无法全覆盖。有些网站内部的搜索引擎效果比Google更好(仅就该网站而言。)

回复 @NKU的某某 :海盗湾,BT搜索引擎软件插件里提供的BT下载服务器地址。

回复 @爱动漫ES :我个人以前就有感觉当下网络推荐算法导致的信息茧房坏处,你让我彻底觉悟到这个问题必须要我自己去学习搜索技术来纠正了(如开源的RSS订阅软件,python自动爬虫)。我强烈地意识到要提高自己的信息素养和信息处理能力,否则生在这个时代,要是不学会使用现代的计算机软件工具,那我只是生活在互联网时代的原始人。总之,特别感谢。

回复 @古希腊的汉密士 : zlibrary,安娜的档案这些网站有电子书。这些网站本身也值得研究一下。

文章/浅谈我对互联网资源检索的想法.txt · 最后更改: 2024/08/04 11:35 由 xxy