解决Nutch一些小问题

news/2024/5/18 16:01:40 标签: bbs, html
htmledit_views">  1.网页快照乱码问题
Nutch的网页快照是乱码,解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件,修改其中的第63行。
原来的代码是:content  new  String(bean.getContent(details);
修改后的代码是:content  new  String(bean.getContent(details),"gb2312");
2.搜索结果高亮显示
Nutch默认的搜索结果是没有高亮的,解决办法是在关键词中加入html颜色标签。
将  org.apache.nutch.searcher.Summary  第107行  代码  修改为:
public  String  toString()  {
          StringBuffer  buffer  new  StringBuffer();
          for  (int  0;  fragments.size();  i++)  {
              buffer.append(fragments.get(i));
          }
          return  "<span  style='color:red'>"  buffer.toString()+  "</span>"; 
}
3.抓取页面大小
Nutch默认只抓取一个页面的前65k的内容,在我抓取html" title=bbs>bbs的时候,会出现只能抓取前几个回帖的内容,所以想抓取整个页面的内容,就要解除65k的限制。解决方法是修改nutch/conf中的nutch-site.xml文件,在文件最后添加以下内容:
<property>
    <name>http.content.limit</name>
    <value>-1</value>
    <description>The  length  limit  for  downloaded  content,  in  bytes.
    If  this  value  is  nonnegative  (>=0),  content  longer  than  it  will  be  truncated;
    otherwise,  no  truncation  at  all.
    </description>
</property>

http://www.niftyadmin.cn/n/1760324.html

相关文章

java代码的思考

001 为什么要将 import 的带黄色的没有被使用的类干掉&#xff1f; 其实我一直不想将这些类去掉&#xff0c;觉得麻烦&#xff0c;后来我想明白了&#xff0c;这样会消耗资源去查找这些无用的类&#xff0c;去那些jar包里寻找&#xff0c;同时万一这些包被取消了&#xff0c; 还…

linux C函数之strdup函数分析

本文转载自&#xff1a;http://blog.csdn.net/tigerjibo/article/details/12784823 linux C函数之strdup函数分析 一.函数分析 1.函数原型&#xff1a; #include <string.h> char *strdup(const char *s); 2.功能&#xff1a; strdup()函数主要是拷贝字符串s的一个副本&…

分支限界

分支限界的基本思想 分支限界和回溯法都是在解空间树中进行搜索&#xff0c;但是他们的搜索方式不同&#xff0c;对于回溯法&#xff0c;他是从根节点开始以深度优先的策略进行搜索&#xff1b;而分支限界则是从根节点开始&#xff0c;以宽度优先为的方式进行搜索 分支限界通…

Nutch距离一个商业应用的搜索引擎还有多远

了解nutch的人基本上对这个开源的系统都是比较欣赏的&#xff0c;起码在国内是这样的&#xff0c;也很有多搜索网站是基于这个系统修改过来的&#xff0c;不过要做得好&#xff0c;做得真正是一个商业化的搜索&#xff0c;这个修改就不是一朝一夕的事情&#xff0c;也不是修修剪…

USB3.0接口EMC设计标准电路

转载于:https://www.cnblogs.com/ydvely521/p/10048851.html

【Linux函数】Signal ()函数详细介绍

1. 功能 设置某一信号的对应动作 2. 声明 #include <signal.h> typedef void (*sighandler_t)(int); sighandler_t signal(int signum, sighandler_t handler);123 3. 参数说明  第一个参数signum&#xff1a;指明了所要处理的信号类型&#xff0c;它可以取除了SIGKILL和…

maven 环境变量 设置

Maven安装与配置 一、需要准备的东西 1. JDK 2. Eclipse 3. Maven程序包 二、下载与安装 1. 前往https://maven.apache.org/download.cgi下载最新版的Maven程序&#xff1a; 2. 将文件解压到D:\Program Files\Apache\maven目录下: 3. 新建环境变量MAVEN_HOME&#xff0c;赋值D:…

socket()函数介绍

socket()函数介绍 socket函数介绍 函数原型domaintypeprotocolerrno示例 函数原型 socket()函数的原型如下&#xff0c;这个函数建立一个协议族为domain、协议类型为type、协议编号为protocol的套接字文件描述符。如果函数调用成功&#xff0c;会返回一个标识这个套接字的文件…