V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jahan
V2EX  ›  程序员

有没有可能在内网利用开源工具建一个类似百度的搜索引擎?

  •  
  •   jahan · 2018-03-05 10:57:39 +08:00 · 4311 次点击
    这是一个创建于 2463 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有没有可能在内部网络利用开源工具建一个类似百度的搜索引擎?能够搜索一下文档,网页之类的? 有开源的可以部署吗?硬件都需要怎么配置?

    13 条回复    2020-01-12 21:10:20 +08:00
    2lecl
        1
    2lecl  
       2018-03-05 11:14:59 +08:00 via iPhone
    solr ?
    jahan
        2
    jahan  
    OP
       2018-03-05 11:19:12 +08:00
    刚查了一个雅虎的 Vespa。solr 和 vespa 是不是都没有爬虫呢?
    yuyongji1987
        3
    yuyongji1987  
       2018-03-05 12:37:55 +08:00 via iPhone
    elasticsearch
    linyinma
        4
    linyinma  
       2018-03-05 12:50:12 +08:00
    [内网搭建一个搜索引擎] : 你提的的仅仅是搜索, 搜索引擎最重要的功能都是日常站点的收录,你内网有多少站点啊,这些站点被收录前提需要向站长平台提交站点,然后站长平台去抓取~~ 仅仅打个搜索引擎有什么意思额
    jahan
        5
    jahan  
    OP
       2018-03-05 14:06:37 +08:00
    @linyinma 不懂这个机制,所以弄了一个类似百度。就是想建一个整套的平台,不知道要做那些?或者有没有全开源的工具。
    katsusan
        6
    katsusan  
       2018-03-05 14:09:51 +08:00 via iPhone
    问这个问题至少说明下检索的对象是什么,对象以什么形式存在好一点
    likuku
        7
    likuku  
       2018-03-05 14:13:12 +08:00
    搜互联网上的公开信息?搜局域网内企业 /自己保存的信息?(以前 google 有供个人下载使用的 桌面搜索软件)
    likuku
        8
    likuku  
       2018-03-05 14:14:49 +08:00
    对企业自己存储的文档资料进行检索,记得 IBM 很早就有成熟商业产品。
    jahan
        9
    jahan  
    OP
       2018-03-05 14:20:43 +08:00
    所搜特定的 10 几个网站。想做一个只针对这 10 几个网站的小型的百度。
    simapple
        10
    simapple  
       2018-03-05 14:44:11 +08:00
    es
    jahan
        11
    jahan  
    OP
       2018-03-05 14:49:58 +08:00
    @simapple 网站都不在本地,应该需要一个爬虫吧
    coreos
        12
    coreos  
       2018-03-05 18:21:46 +08:00
    可以做特定的网站地图,简单的爬虫
    ddup
        13
    ddup  
       2020-01-12 21:10:20 +08:00
    我的,归海数据桌面搜索,可以全文搜索,可以部署在内网然后通过浏览器访问,不过需要配置一下。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6114 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 01:57 · PVG 09:57 · LAX 17:57 · JFK 20:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.