`
johnnyhg
  • 浏览: 346623 次
  • 来自: NA
社区版块
存档分类
最新评论
文章列表
 打上SOLR-236_collapsing.patch补丁,实现 solr 搜索结果折叠、除去重复的搜索结果,可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并搜索试用下。   其实 solr 上已经有了这功能的实现:solr 1.3 collapse patch, 请看:https://issues.apache.org/jira/browse/SOLR-236 ,我这里下载是了新的:https://issues.apache.org/jira/secu ...
schema.xml位于solr/conf/目录下,类似于数据表配置文件, 定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。 1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。 name:就是这个FieldType的名称。 class:指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为。 view plaincopy to clipboardprint? Java代码 <schema  ...
http://www.gbsou.com/2011/11/01/8048.html     score(q,d)   =   coord(q,d) ·  queryNorm(q) · ∑ (   tf(t in d) ·  idf(t)2  ·  t.getBoost() ·  norm(t,d)  )   具体可以查看相关文章:http://blog.chenlb.com/2009/08/lucene-scoring-architecture.html   这里先考虑三个因素coord(q,d)与tf(t in d),当查询串中,命 ...
当你的索引数量越来越大,你会发现你的搜索响应时间变得更慢,索引新内容的时间也会越来越长,那么,到了做出一些改变的时候了,幸运的是,solr很好的考虑到了这些情况,你只需要改变你的配置就可以了。 以下将 ...
  如果你拥有一个网站或独立博客,或者你的工作多少和互联网有关,那你一定耳濡目染多多少少对SEO(搜索引擎优化)有一定了解。本文将列举其中20个 SEO领域最常用的名词和概念,如果你打算熟悉和了解他们请继续阅读。 ...
电子商务介绍:   概念:电子商务,英文名Electronic Commerce,简称EC。   电子商务模式(常见类):   B2B模式,Business to Business-企业对企业,例子:阿里巴巴,生意宝(网盛科技)、慧聪网。   B2C模式,Business to Customer-企业对个人,例子:亚马逊,当当,凡客,时尚起义,走秀网。   C2C模式,Customer to Customer-个人对个人,例子:ebay,淘宝,拍拍,易趣。 电子商务专业名词(常见类):   SEM:Search Engine Marketing的缩写,意即搜索引擎营 ...
  1.访问量:alexa,chinaz查询工具。   2.网络流行度:搜索网站名,搜索结果越多相对来说越流行。   3.行业排名:查询艾瑞的排名。   4.网络新闻曝光率:用baidu新闻搜索。   5.SEO表现:收录与PR,排名。   6.百度指数:百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度。   7.每天新增注册用户数=UV*1%=80000*1%=80   8.活跃用户=注册用户/10=100000*10%=10000   9.最高同时在线=活跃用户*20%=10000*20%=2000   10.收费交易客户数=活跃用户*5%=10000*5 ...
analyzers 下分为两个包: common :提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词 smartcn SmartChineseAnalyzer 是一个智能中文分词模块 ...
一般来说,linux服务器大多是通过ssh客户端来进行远程的登陆和管理的,使用ssh登陆linux主机以后,如何能够快速的和本地机器进 行文件的交互呢,也就是上传和下载文件到服务器和本地;    与ssh有关的两个命令可以提供很方便的操作:       sz:将选定的文件发送(send)到本地机器       rz:运行该命令会弹出一个文件选择窗口,从本地选择文件上传到服务器(receive) 当然,还可以设置一下目录了: 设置一下上传和下载的默认目录 options–>session options–>file transfer 下可以设置上传和下载的目录 ...
时间过得很快,来淘宝已经两个月了,在这两个月的时间里,自己也感受颇深。下面就结合淘宝目前的一些底层技术框架以及自己的一些感触来 说说如何构建一个可伸缩,高性能,高可用性的分布式互联网应用。 一 应用无状态(淘宝 session 框 架)        俗话说,一个系 统的伸缩性的好坏取决于应用的状态如何管理。为什么这么说呢?咱们试想一下,假如我们在 session 中保存了大量与客户端的状态信 息的话,那么当保存状态信息的 server 宕机的时候,我们怎么办?通常来说,我们都是通过集群来解决这个问题,而通常 所说的集群 ...
实时检索系统Zoie实现分析   实时检索的核心原理 通常的检索系统 中,建索引和查询是分开的,即建索引是离线的,新的 索引会以一定频率(比如每隔5分钟)供查询端使用。对于一些站内检索来说,这种延迟性使得:不需要建索引的速度足够快(只要能跟的上提交频率就行),查询 的效果不必完全精确。而要取得实时检索效果,典型的思路是:建索引和查询是在一个进程内,这样每一次的添加索引都会被下一次的查询用到,但这里面的细节还 是需要好好琢磨解决 的,下面就给出Zoie的基于Lucene的解决方案 :索引分两种,ram index和disk index。建索引的过程是:首先建立ram in ...
sudo apt-get install numlockx sudo vim /etc/rc.local 把下面的内容添加到最后那行的前面 代码: if [ -x /usr/bin/numlockx ]; then    numlockx on fi
4.缓存Tips: 缓存js,css文件 请参考: http://railslab.newrelic.com/2009/01/22/page-responsiveness # Combining all your javascripts in production mode <%= javascript_include_tag :all , :cache => true %> <%= javascript_include_tag :all , :cache => "main&qu ...
1. 最基本的关心两个选项 -c -n 例: ./ab -c 100 -n 10000 http://127.0.0.1/index.php -c 100 即:每次并发100个 -n 10000 即: 共发送10000个请求 2. 测试结果分析 [junjie2@login htdocs]$ /data1/apache/bin/ab -c 1000 -n 50000 "http://10.10.10.10/a.php " This is ApacheBench, Version 1.3d <$Revision: 1.73 $> apache- ...
#http://stdlib.rubyonrails.org/ require "erb" # Build template data class. class Product def initialize( code, name, desc, cost ) @code = code @name = name @desc = desc @cost = cost @features = [ ] end def add_feature( feature ) ...
Global site tag (gtag.js) - Google Analytics