Filtering bio-sequence based on sequence descriptor - Citegraph

Paper Info

Title
Filtering bio-sequence based on sequence descriptor

Abstract
Study on biological sequence database similarity searching has received substantial attention in the past decade, especially after the sequencing of the human genome. As a result, with larger and larger increases in database sizes, fast similarity search is becoming an important issue. Transforming sequences into numerical vectors, called sequence descriptors, for storing in a multidimensional data structure is becoming a promising method for indexing bio-sequences. In this paper, we present an effective sequence transformation method, called SD (Sequence Descriptor) which uses multiple features of a sequence including Count, RPD (Relative Position Dispersion), and APD (Absolute Position Dispersion) to represent the original sequence data. In contrast to the q-gram transformation method, this avoids the problem of exponentially growing vector size. Also, we present a transformation, called ST (Segment Transformation), which recursively divides sequence data into equal length subsequences, and concatenates them after transformation of the subsequences. Experiments on human genome data show that our transformation method is more effective than the q-gram transformation method.

Year	DOI	Venue
2006	10.1007/11691730_3	BioDM
Keywords	Field	DocType
effective sequence transformation method,biological sequence database similarity,q-gram transformation method,sequence descriptors,promising method,filtering bio-sequence,original sequence data,sequence data,transformation method,human genome data,transforming sequence,human genome,indexation,similarity search	Data mining,Sequence transformation,Data structure,Alignment-free sequence analysis,Sequence database,Computer science,Filter (signal processing),Search engine indexing,Nearest neighbor search,Recursion	Conference
Volume	ISSN	ISBN
3916	0302-9743	3-540-33104-2
Citations	PageRank	References
0	0.34	13
Authors
3

Authors (3 rows)

Cited by (0 rows)

References (13 rows)

Name	Order	Citations	PageRank
Te-Wen Hsieh	1	0	0.34
Huang-Cheng Kuo	2	42	23.87
Jen-Peng Huang	3	57	6.45

1