位置:首页 > > TIKA参考API

TIKA参考API

用户可以在使用 Tika 的外观类在应用程序中嵌入Tika。它的方法来探索Tika的所有功能。因为它是一个外网类,Tika抽象的背后有其功能的复杂性。除了这一点,用户还可以使用各种Tika类在他们的应用程序。

User Application

Tika 类 (facade)

这是最突出的Tika类库和正面设计模式。因此,抽象所有的内部实现,并提供了简单的方法来访问Tika功能。下表列出该类的构造函数以及它们的描述。

package : org.apache.tika

class: Tika

S.No. 构造函数和说明
1

Tika ()

使用默认配置,构建Tika类。

2

Tika (Detector detector)

通过接受检测实例作为参数创建 Tika 的外观

3

Tika (Detector detector, Parser parser)

创建一个Tika外观通过接受检测和解析器实例作为参数。

4

Tika (Detector detector, Parser parser, Translator translator)

创建一个Tika外观通过接受检测器,解析器,并且转换实例作为参数。

5

Tika (TikaConfig config)

创建一个Tika外观通过接受TikaConfig类作为参数的对象。

方法和说明

以下是 Tika外观类的重要方法:

S.No. 方法和描述
1

String parseToString (File file)

此方法及其所有变种分析作为参数传递的文件,并返回字符串格式提取的文本内容。默认情况下,这个字符串参数的长度是有限的。

2

int getMaxStringLength ()

返回由parseToString方法返回字符串的最大长度。

3

void setMaxStringLength (int maxStringLength)

设置由parseToString方法返回的字符串的最大长度。

4

Reader parse (File file)

该方法及其所有变型解析作为参数传递的文件,并返回 java.io.Reader对象的形式,所提取的文本内容。

5

String detect (InputStream stream, Metadata metadata)

该方法及其所有变接受InputStream对象和元数据对象作为参数,检测出给定文档的类型,并返回该文件类型的名称作为字符串对象。这种方法提炼使用 Tika 的检测手段。

6

String translate (InputStream text, String targetLanguage)

此方法及其所有变种接受InputStream对象,并表示,我们希望我们的文字被翻译语言的字符串,并把特定的文本所需的语言,尝试自动检测源语言。

解析器接口

这是Tika包的所有解析器类实现的接口。

package : org.apache.tika.parser

Interface : Parser

方法和说明

以下是TikaParser接口的重要方法:

S.No. 方法及描述
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

这个方法将给定的文档解析到XHTML和SAX事件序列。解析后,将放置在ContentHandler类的对象,并在元数据的类的对象的元数据,所提取的文件的内容。

Metadata 类

这个类实现了各种接口,如素材,地理,HttpHeaders,消息,微软Office,气候预测,TIFF,TikaMetadataKeys,TikaMimeKeys,Serializable接口,支持各种数据模型。下表列出了构造函数和这个类的方法及其说明。

package : org.apache.tika.metadata

class : Metadata

S.No. 构造方法及描述
1

Metadata()

构造一个新的,空的元数据。

S.No. 方法及描述
1

add (Property property, String value)

增加了一个元数据属性/值映射到给定的文件。使用此功能,可以将该值设置为一个属性。

2

add (String name, String value)

增加了一个元数据属性/值映射到给定的文件。使用这种方法,我们可以使用新名称的值设置为一个文件,从现有的元数据。

3

String get (Property property)

返回给定的元数据属性的值(如果有的话)。

4

String get (String name)

返回给定元数据的名称的值(如果有的话)。

5

Date getDate (Property property)

返回日期的元数据属性的值。

6

String[] getValues (Property property)

返回的元数据属性的所有的值。

7

String[] getValues (String name)

返回给定元数据的名称的所有的值。

8

String[] names()

返回元数据对象的元数据元素的所有的名字。

9

set (Property property, Date date)

设置给定的元数据属性的日期值

10

set(Property property, String[] values)

设置多个值到一个元数据属性。

语言类标识符

此分类标识了特定内容的语言。下表列出了这个类的构造函数以及它们的描述。

package : org.apache.tika.language

class : Language Identifier

S.No. 构造器和说明
1

LanguageIdentifier (LanguageProfile profile)

实例化的语言标识符。在这里必须通过一个LanguageProfile对象作为参数。

2

LanguageIdentifier (String content)

这个构造函数可以通过从文本内容传递一个String实例化一个语言标识符

S.No. 构造器和说明
1

String getLanguage ()

返回给当前LanguageIdentifier对象的语言。