中文分词 httpcws HTTPCWS 是一款基于HTTP协议的开源中文分词系统。(HTTPCWS is an Chinese Word Segmentation System Based on the HTTP protocol.) HTTPCWS采用NewBSD开源协议,使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。...
桌面搜索 Pinot 如果你也在寻找不依赖于KDE或是GNOME、开源的index工具,Pinot或许就是答案。
Pinot不仅作为D-Bus服务来爬行、索引你的文档,并对它们的更改情况进行监视;而且,Pinot也提供基于GTK的用户界面,让你能够查询该服务所索引的内容。
当前,Pinot具有高级查询、语言检测、文档浏览、元数据编辑、文档标记、查询存储、文档摘要、搜索桌面和Web等功能。
Pinot发布在GPL许可之下,目前版本为0.81,除源代码外,还包括适用于Fedora、......
D语言搜索引擎 DLucene DLucene 是一个用 D 语言实现对 Lucene 搜索引擎的封装库。该项目还在进一步完善中。...
Piscator Piscator is a small SQL/XML search engine. Once an XML feed is loaded, it can be queried using plain SQL. The setup is almost identical to the DB2 side tables approach....
网页索引引擎 Swish-e Swish-e 是一个快速,灵活和自由开放源码的网页索引系统。Swish-e是适合收藏的100万或更小的网页文件。使用Gnome ™ libxml2分析器和收集过滤器,Swish-e 能索引的纯文本文件,电子邮件, PDF格式, HTML格式, XML和微软®Word/的PowerPoint / Excel和任何文件,可以转换为XML或HTML文档。Swish-e也往往用做为数据库的功能补充,如MySQL的®数据库的非常快的全文检索。......
XML搜索引擎 XQEngine XQEngine 是一个基于XML文档的全文本搜索引擎,前端使用的是 XQuery 查询语言。...
Romulus Romulus 是一个client,用于搜索,查看,和hearing 智能主题的text,audio 和 video。这包括debates,essays,白皮书,摘要,源代码,maps 和transcripts。对于audio,它使用vorbis,对于video,使用theora,对于文本,使用RTF。...
Softronics Search Engine Softronics Search Engine 的目的是开发一个基于crawler(spider) 的搜索引擎,基于分布式架构,提供负载平衡和查询的精确结果,通过使用有效的ranking 算法,基于java/servlet。...
Oxyus Oxyus is an open source search engine written in 100% Java, aimed to provide a search button to your website in an easy way. Oxyus uses Apache Lucene for indexing, Quartz for scheduling and other interesting software products.......
Aperture Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。...
Python搜索引擎 PyLucene PyLucene 是 Python 语言用来访问 Lucene 索引库的封装。通过 PyLucene 可以用来创建索引和对索引进行搜索。
示例说明:
Java 代码:
for (int i = 0; i < hits.length(); i++) { Document doc = hits.doc(i); System.out.println(hits.score(i) + " : " + doc.get("title"));}
而 Python 的代码则是:
for hit in hits: hit = Hit.cast_(hit) print hit.getScore(), ':', hit.getDocument['title']......
开放网站搜索协议 OpenSearch OpenSearch 是一套基于XML的开放网站搜索协议,OpenSearch 其實是一個簡單的 XML 格式,用以分享搜尋的結果,或是定義該網站搜尋的方法,讓一些支援 OpenSearch 的 OpenSearch search clients 使用,目前支援的瀏覽器有 Internet Explorer 7 與 Firefox 2.0+...
DocFetcher DocFetcher是一个Linux下的桌面搜索工具,它可以快速的在指定的文件夹搜索特定关键字。支持的文档格式包括:
HTML and plain text (both customizable)
Portable Document Format (pdf)
Microsoft OfficeWord (doc), Excel (xls) and PowerPoint (ppt)
OpenOffice.org Writer, Calc, Draw and Impress
Rich Text Format (rtf)
AbiWord (abw, abw.gz, zabw)
Microsoft Compiled HTML Help (chm)
Microsoft Visio (vsd)
更多关......
luke Luke 是查询LUCENE索引文件的工具, 而且用 Luke 的Search可以做查询
Luke is a handy development and diagnostic tool, which accesses already existing Lucene indexes and allows you to display and modify their contents in several ways:
browse by document number, or by term
view documents / copy to clipboard
retrieve a ranked list of most frequent terms
execute a search, and browse the results
an......
Web Search Aggregator Web Search Aggregator 可以让你在统一的一个页面中集成多个搜索引擎的搜索结果。...
LIRE LIRE(Lucene Image REtrieval)提供一种的简单方式来创建基于图像特性的Lucene索引。利用该索引就能够构建一个基于内容的图像检索(content- based image retrieval,CBIR)系统,来搜索相似的图像。LIRE使用的特性都取自MPEG-7标准: ScalableColor、ColorLayout、EdgeHistogram。此外该类库还提供一个搜索该索引的方法。......
Zilverline Zilverline is what you could call a 'Reverse Search Engine': Zilverline is a search engine that offers web access to your personal or intranet content.
Zilverline is a 'Lucene Desktop' comparable to Google Desktop, but based on Lucene.......
开源搜索系统 Red-Piranha Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha 可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎, 或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何 Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你......