]> AND Private Git Repository - chloroplast13.git/commitdiff
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
Update version of the corrections of JF & Arnuld.
authorbassam al-kindy <bassam.al-kindy@lifc>
Tue, 14 Jan 2014 14:58:40 +0000 (15:58 +0100)
committerbassam al-kindy <bassam.al-kindy@lifc>
Tue, 14 Jan 2014 14:58:40 +0000 (15:58 +0100)
annotated.tex
biblio.bib
conclusion.tex
discussion.tex
intro.tex
main.tex

index b43666b5d07e6819aec023ab3a8a5b65bfb16c7b..359b062a2d7797e30bdcd4569bd19d4ce22917b3 100644 (file)
@@ -57,33 +57,15 @@ summarizes their distribution in our dataset.
 
 Annotation,  which  is the  first  stage,  is  an important  task  for
 extracting gene features. Indeed, to extract good gene feature, a good
 
 Annotation,  which  is the  first  stage,  is  an important  task  for
 extracting gene features. Indeed, to extract good gene feature, a good
-annotation tool  is obviously  required. To obtain  relevant annotated
-genomes, two annotation  techniques from NCBI and Dogma  are used. The
-extraction of gene feature, the  next stage, can be anything like gene
-names,  gene  sequences, protein  sequences,  and  so  on. Our  method
-considers gene  names, gene counts,  and gene sequence  for extracting
-core  genes and  producing  chloroplast evolutionary  tree. The  final
-stage   allows  to   visualize  genomes   and/or  gene   evolution  in
-chloroplast.    Therefore   we   use  representations   like   tables,
-phylogenetic  trees,  graphs,  etc.   to  organize  and  show  genomes
-relationships,  and  thus  achieve   the  goal  of  representing  gene
-evolution.   In addition,  comparing these  representations  with ones
-issued from  another annotation tool dedicated to  large population of
-chloroplast genomes  give us biological perspectives to  the nature of
-chloroplasts evolution. Notice that  a local database linked with each
-pipe stage is  used to store all the  informations produced during the
-process.
+annotation tool  is obviously  required. The extraction of gene feature, the  next stage, can be anything like gene names,  gene  sequences, protein  sequences,  and  so  on. Our  method considers gene  names, gene counts,  and gene sequence  for extracting core  genes and  producing  chloroplast evolutionary  tree. The  final stage   allows  to   visualize  genomes   and/or  gene   evolution  in chloroplast.    Therefore   we   use  representations   like   tables, phylogenetic  trees,  graphs,  etc.   to  organize  and  show  genomes relationships,  and  thus  achieve   the  goal  of  representing  gene
+evolution.   In addition,  comparing these  representations  with ones issued from  another annotation tool dedicated to  large population of chloroplast genomes  give us biological perspectives to  the nature of chloroplasts evolution. Notice that  a local database linked with each pipe stage is  used to store all the  informations produced during the process.
 
 \input{population_Table}
        
 \subsection{Genome annotation techniques}
 
 
 \input{population_Table}
        
 \subsection{Genome annotation techniques}
 
-For  the first  stage, genome  annotation, many  techniques  have been
-developed  to annotate chloroplast  genomes.  These  techniques differ
-from  each others  in  the number  and  type of  predicted genes  (for
-example:  \textit{Transfer  RNA   (tRNA)}  and  \textit{Ribosomal  RNA
-(rRNA)}  genes). Two  annotation techniques  from NCBI  and  Dogma are
-considered to analyze chloroplast genomes.
+To obtain  relevant annotated genomes, two annotation  techniques from NCBI and Dogma  are used. For  the first  stage, genome  annotation, many  techniques  have been developed  to annotate chloroplast  genomes.  These  techniques differ
+from  each others  in  the number  and  type of  predicted genes  (for example:  \textit{Transfer  RNA   (tRNA)}  and  \textit{Ribosomal  RNA (rRNA)}  genes). Two  annotation techniques  from NCBI  and  Dogma are considered to analyze chloroplast genomes.
 
 \subsubsection{Genome annotation from NCBI} 
 
 
 \subsubsection{Genome annotation from NCBI} 
 
@@ -117,16 +99,13 @@ parameters.  Protein  coding genes are  identified in an  input genome
 using sequence similarity of genes  in Dogma database.  In addition in
 comparison   with   NCBI    annotation   tool,   Dogma   can   produce
 both \textit{Transfer RNAs (tRNA)} and \textit{Ribosomal RNAs (rRNA)},
 using sequence similarity of genes  in Dogma database.  In addition in
 comparison   with   NCBI    annotation   tool,   Dogma   can   produce
 both \textit{Transfer RNAs (tRNA)} and \textit{Ribosomal RNAs (rRNA)},
-verify their start and end  positions. Another difference is also that
-there  is   no  gene  duplication   with  Dogma  after   solving  gene
-fragmentation. In  fact, genome annotation  with Dogma can be  the key
-difference when extracting core genes.
+verify their start and end  positions. further more, there is no gene duplication with gene annotations from Dogma after applying gene de-fragmentation process. In  fact, genome annotation with Dogma can be the key difference when extracting core genes.
 
 The Dogma  annotation process  is divided into  two tasks.   First, we
 manually annotate chloroplast genomes using Dogma web tool. The output
 of this step is supposed to  be a collection of coding genes files for
 each genome, organized in GeneVision file. The second task is to solve
 
 The Dogma  annotation process  is divided into  two tasks.   First, we
 manually annotate chloroplast genomes using Dogma web tool. The output
 of this step is supposed to  be a collection of coding genes files for
 each genome, organized in GeneVision file. The second task is to solve
-the  gene   duplication  problem  and   therefore  we  have   use  two
+the  gene   duplication  problem  and   therefore  we  have   used  two
 methods. The first method, based  on gene name, translates each genome
 into a set  of genes without duplicates. The  second method avoid gene
 duplication  through a  defragment  process. In  each iteration,  this
 methods. The first method, based  on gene name, translates each genome
 into a set  of genes without duplicates. The  second method avoid gene
 duplication  through a  defragment  process. In  each iteration,  this
@@ -161,12 +140,9 @@ method can be stated as follows: how can we ensure that the gene which
 is  predicted in  core genes  is the  same gene  in leaf  genomes? The
 answer  to this problem  is that  if the  sequences of  any gene  in a
 genome annotated  from Dogma  and NCBI are  similar with respect  to a
 is  predicted in  core genes  is the  same gene  in leaf  genomes? The
 answer  to this problem  is that  if the  sequences of  any gene  in a
 genome annotated  from Dogma  and NCBI are  similar with respect  to a
-given  threshold,  then   we  do  not  have  any   problem  with  this
-method. When the sequences are  not similar we have a problem, because
-we cannot decide which sequence belongs to a gene in core genes.
+given  threshold,  the method is operational when the sequences are not similar. The problem of attribution of a sequence to a gene in the core genome come to light.
 
 
-The second method is based on  the underlying idea: we can predict the
-the best annotated  genome by merging the annotated  genomes from NCBI
+The second method is based on  the underlying idea that it is possible to predict the the best annotated  genome by merging the annotated  genomes from NCBI
 and Dogma according to a quality test on genes names and sequences. To
 obtain all  quality genes  of each genome,  we consider  the following
 hypothesis: any gene  will appear in the predicted  genome if and only
 and Dogma according to a quality test on genes names and sequences. To
 obtain all  quality genes  of each genome,  we consider  the following
 hypothesis: any gene  will appear in the predicted  genome if and only
@@ -286,7 +262,7 @@ core genes with its two genomes parents.
 
 \subsection{Features visualization}
 
 
 \subsection{Features visualization}
 
-The goal is to visualize results  by building a tree of evolution. All
+The goal is to visualize results  by building an evolutionary tree. All
 core  genes generated  represent  an important information  in the  tree,
 because they  provide ancestor information of two  or more
 genomes. Each  node in the  tree represents one chloroplast  genome or
 core  genes generated  represent  an important information  in the  tree,
 because they  provide ancestor information of two  or more
 genomes. Each  node in the  tree represents one chloroplast  genome or
@@ -294,8 +270,8 @@ one predicted core and labelled as \textit{(Genes count:Family name\_Scientific
 names\_Accession number)}. While an edge is labelled with the number of
 lost  genes from  a leaf  genome or  an intermediate  core  gene. Such
 numbers are  very interesting because  they give an  information about
 names\_Accession number)}. While an edge is labelled with the number of
 lost  genes from  a leaf  genome or  an intermediate  core  gene. Such
 numbers are  very interesting because  they give an  information about
-the evolution:  how many genes  were lost between two  species whether
-they  belong  to  the  same  lineage  or not. Phylogenetic relationships are mainly built by comparison of sets of coding and non-coding sequences. Phylogenies of photosynthetic plants are important to assess the origin of chloroplasts (REF) and the modalities of gene loss among lineages. These phylogenies are usually done using less than ten chloroplastic genes (REF), and some of them may not be conserved by evolution process for every taxa. As phylogenetic relationships inferred from data matrices complete for each species included and with the same evolution history are better assumptions, we selected core genomes for a new investivation of photosynthetic plants phylogeny. To depict  the links between
+evolution:  how many genes  were lost between two  species whether
+they  belong  to  the  same  lineage  or not. To depict  the links between
 species   clearly,  we   built   a  phylogenetic   tree  showing   the
 relationships based on the distances among genes sequences. Many tools
 are    available   to    obtain    a   such    tree,   for    example:
 species   clearly,  we   built   a  phylogenetic   tree  showing   the
 relationships based on the distances among genes sequences. Many tools
 are    available   to    obtain    a   such    tree,   for    example:
@@ -323,18 +299,14 @@ the distances and finally draw the phylogenetic tree.
 
 \section{Implementation}
 
 
 \section{Implementation}
 
-The different  algorithms have  been implemented using  Python version
-2.7,  on  a  laptop  running Ubuntu~12.04~LTS.   More  precisely,  the
-computer is a Dell Latitude laptop - model E6430 with 6~GiB memory and
+All the different  algorithms have  been implemented using  Python on a personal computer running Ubuntu~12.04 with 6~GiB memory and
 a  quad-core Intel  core~i5~processor with  an operating  frequency of
 a  quad-core Intel  core~i5~processor with  an operating  frequency of
-2.5~GHz. Many python packages  such as os, Biopython, memory\_profile,
-re,  numpy, time,  shutil, and  xlsxwriter were  used to  extract core
+2.5~GHz. All the programs can be downloaded at \url{http://......} .
 genes  from large  amount of  chloroplast  genomes.
 
 \begin{center}
 genes  from large  amount of  chloroplast  genomes.
 
 \begin{center}
-\begin{table}[b]
-\caption{Type of annotation, execution time, and core genes 
-for each method}\label{Etime}
+\begin{table}[H]
+\caption{Type of annotation, execution time, and core genes.}\label{Etime}
 {\scriptsize
 \begin{tabular}{p{2cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.2cm}}
 \hline\hline
 {\scriptsize
 \begin{tabular}{p{2cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.25cm}p{0.5cm}p{0.2cm}}
 \hline\hline
@@ -355,15 +327,15 @@ Gene Quality & $\surd$ & $\surd$ & $\surd$ & $\surd$ & \multicolumn{2}{c}{$\sime
 Table~\ref{Etime}  presents  for  each  method  the  annotation  type,
 execution time,  and the  number of core  genes. We use  the following
 notations:  \textbf{N}  denotes NCBI,  while  \textbf{D} means  DOGMA,
 Table~\ref{Etime}  presents  for  each  method  the  annotation  type,
 execution time,  and the  number of core  genes. We use  the following
 notations:  \textbf{N}  denotes NCBI,  while  \textbf{D} means  DOGMA,
-and \textbf{Seq}  is for sequence. The first  {\it Annotation} columns
-represent the algorithm used to annotate chloroplast genomes, the {\it
+and \textbf{Seq}  is for sequence. The first two {\it Annotation} columns
+represent the algorithm used to annotate chloroplast genomes. The next two ones {\it
 Features} columns mean  the kind  of gene feature used to extract core
 genes: gene name, gene sequence, or  both of them. It can be seen that
 Features} columns mean  the kind  of gene feature used to extract core
 genes: gene name, gene sequence, or  both of them. It can be seen that
-almost all methods need low {\it Execution time} to extract core genes
-from large chloroplast genome.   Only the gene quality method requires
-several days of computation (about 3-4 days) for sequence comparisons,
-once the quality genomes are  construced it takes just 1.29~minutes to
-extract core gene. Thanks to this low execution times we can use these
+almost all methods need low {\it Execution time} expended in minutes to extract core genes
+from the large set of chloroplast genomes. Only the gene quality method requires
+several days of computation (about 3-4 days) for sequence comparisons. However,
+once the quality genomes are well constructed, it only takes 1.29~minutes to
+extract core gene. Thanks to this low execution times that gave us a privilege to use these
 methods to extract core genes  on a personal computer rather than main
 frames or parallel computers. The lowest execution time: 1.52~minutes,
 is obtained with the second method using Dogma annotations. The number
 methods to extract core genes  on a personal computer rather than main
 frames or parallel computers. The lowest execution time: 1.52~minutes,
 is obtained with the second method using Dogma annotations. The number
@@ -373,18 +345,13 @@ biological background of chloroplasts. With  NCBI we have 28 genes for
 96   genomes,   instead   of    10   genes   for   97   genomes   with
 Dogma. Unfortunately, the biological distribution of genomes with NCBI
 in core tree do not  reflect good biological perspective, whereas with
 96   genomes,   instead   of    10   genes   for   97   genomes   with
 Dogma. Unfortunately, the biological distribution of genomes with NCBI
 in core tree do not  reflect good biological perspective, whereas with
-DOGMA the  distribution of genomes is biologically  relevant. {\it Bad
-genomes} gives  the number of genomes  that destroy core  genes due to
-low  number  of  gene  intersection.  \textit{NC\_012568.1  Micromonas
-pusilla} is the only genome which destroyed the core genome with NCBI
+DOGMA the  distribution of genomes is biologically  relevant. Some a few genomes maybe destroying core genes due to
+low  number  of  gene  intersection. More precisely, \textit{NC\_012568.1  Micromonas pusilla} is the only genome who destroyes the core genome with NCBI
 annotations for both gene features and gene quality methods.
 
 annotations for both gene features and gene quality methods.
 
-The second important factor is the amount of memory being used by each
+The second important factor is the amount of memory nessecary in each
 methodology.   Table   \ref{mem}  shows  the  memory   usage  of  each
 methodology.   Table   \ref{mem}  shows  the  memory   usage  of  each
-method.  We  used  a  package from  PyPI~(\textit{the  Python  Package
-Index})     named     \textit{Memory\_profile}    (located     at~{\tt
-https://pypi.python.org/pypi})   to   extract   all  the   values   in
-table~\ref{mem}. In  this table, the values are  presented in megabyte
+method. In this table, the values are  presented in megabyte
 unit and \textit{gV} means  genevision~file~format. We can notice that
 the level  of memory which is  used is relatively low  for all methods
 and is available  on any personal computer. The  different values also
 unit and \textit{gV} means  genevision~file~format. We can notice that
 the level  of memory which is  used is relatively low  for all methods
 and is available  on any personal computer. The  different values also
@@ -392,14 +359,16 @@ show that the gene features  method based on Dogma annotations has the
 more   reasonable   memory   usage,   except  when   extracting   core
 sequences. The third method gives the lowest values if we already have
 the   quality   genomes,   otherwise   it  will   consume   far   more
 more   reasonable   memory   usage,   except  when   extracting   core
 sequences. The third method gives the lowest values if we already have
 the   quality   genomes,   otherwise   it  will   consume   far   more
-memory. Moreover, the  amount of memory used by  the third method also
+memory. Moreover, the  amount of memory, which is used by the third method also
 depends on the size of each genome.
 
 depends on the size of each genome.
 
-\begin{center}
+
 \begin{table}[H]
 \begin{table}[H]
+\centering
 \caption{Memory usages in (MB) for each methodology}\label{mem}
 \caption{Memory usages in (MB) for each methodology}\label{mem}
+\tabcolsep=0.11cm
 {\scriptsize
 {\scriptsize
-\begin{tabular}{p{2.5cm}p{1.5cm}p{1cm}p{1cm}p{1cm}p{1cm}p{1cm}p{1cm}}
+\begin{tabular}{p{2.5cm}@{\hskip 0.1mm}p{1.5cm}@{\hskip 0.1mm}p{1cm}@{\hskip 0.1mm}p{1cm}@{\hskip 0.1mm}p{1cm}@{\hskip 0.1mm}p{1cm}@{\hskip 0.1mm}p{1cm}@{\hskip 0.1mm}p{1cm}}
 \hline\hline
 Method& & Load Gen. & Conv. gV & Read gV & ICM & Core tree & Core Seq. \\
 \hline
 \hline\hline
 Method& & Load Gen. & Conv. gV & Read gV & ICM & Core tree & Core Seq. \\
 \hline
@@ -411,7 +380,7 @@ Gene Quality  & ~ & 15.3 & $\le$3G & 16.1 & 17 & 17.1 & 24.4\\
 \end{tabular}
 }
 \end{table}
 \end{tabular}
 }
 \end{table}
-\end{center}  
 
 
 
 
 
 
index 510d794936e608d109e181f3a81a97b1e20f2c5b..22ebe6d579e5625cb228989c86874c049ba5b8c3 100644 (file)
@@ -1,5 +1,5 @@
 @article{Sayers01012011,
 @article{Sayers01012011,
-author = {Sayers, Eric W. and Barrett, Tanya and Benson, Dennis A. and Bolton, Evan and Bryant, Stephen H. and Canese, Kathi and Chetvernin, Vyacheslav and Church, Deanna M. and DiCuccio, Michael and Federhen, Scott and Feolo, Michael and Fingerman, Ian M. and Geer, Lewis Y. and Helmberg, Wolfgang and Kapustin, Yuri and Landsman, David and Lipman, David J. and Lu, Zhiyong and Madden, Thomas L. and Madej, Tom and Maglott, Donna R. and Marchler-Bauer, Aron and Miller, Vadim and Mizrachi, Ilene and Ostell, James and Panchenko, Anna and Phan, Lon and Pruitt, Kim D. and Schuler, Gregory D. and Sequeira, Edwin and Sherry, Stephen T. and Shumway, Martin and Sirotkin, Karl and Slotta, Douglas and Souvorov, Alexandre and Starchenko, Grigory and Tatusova, Tatiana A. and Wagner, Lukas and Wang, Yanli and Wilbur, W. John and Yaschenko, Eugene and Ye, Jian}, 
+author = {Sayers \emph{et al}}, 
 title = {Database resources of the National Center for Biotechnology Information},
 volume = {39}, 
 number = {suppl 1}, 
 title = {Database resources of the National Center for Biotechnology Information},
 volume = {39}, 
 number = {suppl 1}, 
@@ -283,4 +283,26 @@ ISSN = {1088-9051}
   title={DNASTAR- GenVision Software for Genomic Visualizations},
   author={DNASTAR},
   url = {http://www.dnastar.com/products/genvision.php} 
   title={DNASTAR- GenVision Software for Genomic Visualizations},
   author={DNASTAR},
   url = {http://www.dnastar.com/products/genvision.php} 
-}
\ No newline at end of file
+}
+
+@article{mcfadden2001primary,
+  title={Primary and secondary endosymbiosis and the origin of plastids},
+  author={McFadden, Geoffrey Ian},
+  journal={Journal of Phycology},
+  volume={37},
+  number={6},
+  pages={951--959},
+  year={2001},
+  publisher={Wiley Online Library}
+}
+
+@article{li2013complete,
+  title={Complete Chloroplast Genome Sequence of Holoparasite Cistanche deserticola (Orobanchaceae) Reveals Gene Loss and Horizontal Gene Transfer from Its Host Haloxylon ammodendron (Chenopodiaceae)},
+  author={Li, Xi and Zhang, Ti-Cao and Qiao, Qin and Ren, Zhumei and Zhao, Jiayuan and Yonezawa, Takahiro and Hasegawa, Masami and Crabbe, M James C and Li, Jianqiang and Zhong, Yang},
+  journal={PloS one},
+  volume={8},
+  number={3},
+  pages={e58747},
+  year={2013},
+  publisher={Public Library of Science}
+}
index 25c5c57cccca7affd24c1f9fc533ad339939c8a9..6f2c43130c6076184e4d7c598dd5f307f42c1e47 100644 (file)
@@ -1,2 +1,2 @@
-In this paper, we applied three methodologies for extracting core genes from large chloroplastes genomes. Extracted core genes depends on gene features and sequences. We developed a program using python to extract the core genes based on three methodologies. We considered first to extract core genes by sequence comparisons based on NCBI annotation. But the method failed to produce a core gene with different similarity thresholds because of NCBI annotation problems. We considered then to use DOGMA annotation tool to enhance core genes. Second and third methods used the annotation from NCBI and DOGMA. Second method is to extract gene names from gene features. An Intersection core metrix built where each position stores the intersection score by intersect two genomes (\emph{i.e. set of genes}) at a time. Core genes then constructed by selecting the maximum IS from ICM, remove the two intersected genomes with maximum IS, and add the corresponding core genes to ICM. In third method, a gene quality test is considered to ensure that the gene produced from NCBI annotation is the same gene (\emph{i.e.} gene name and sequence) produced by DOGMA. A gene  quality test take place to construct new genomes according to the genes that pass a specific similarity threshold of 65\%, ICM then will take place to extract the core genes.\\
-Core tree are generated from each method to display the distribution of chloroplastes and core genes. The core tree from second method based on DOGMA annotation shows that the distribution of chloroplastes (\emph{i.e. Green Algae, Red Algae, and Land plants}) are match chloroplastes evolution history where each endosymbiosis version is branched well in the tree.     
\ No newline at end of file
+In this paper, we applied three methodologies for extracting core genes from large chloroplasts genomes. Extracted core genes depend on gene features and sequences. We developed a program using python to extract the core genes based on three methodologies. We considered first to extract core genes by sequence comparisons based on NCBI annotation. But the method failed to produce a core gene with different similarity thresholds because of NCBI annotation problems. We considered then to use DOGMA annotation tool to enhance core genes. Second and third methods used the annotation from NCBI and DOGMA. Second method is to extract gene names from gene features. An Intersection core metrix built where each position stores the intersection score by intersect two genomes (\emph{i.e. set of genes}) at a time. Core genes then constructed by selecting the maximum IS from ICM, remove the two intersected genomes with maximum IS, and add the corresponding core genes to ICM. In third method, a gene quality test is considered to ensure that the gene produced from NCBI annotation is the same gene (\emph{i.e.} gene name and sequence) produced by DOGMA. A gene  quality test take place to construct new genomes according to the genes that pass a specific similarity threshold of 65\%, ICM then will take place to extract the core genes.\\
+Core tree are generated from each method to display the distribution of chloroplasts and core genomes. The tree from second method based on DOGMA annotation shows that the distribution of chloroplasts (\emph{i.e. Green Algae, Red Algae, and Land plants}) match chloroplasts evolution history where each endosymbiosis event is branched well in the tree.     
\ No newline at end of file
index 97fcb3f90f659475a493b8dbdd60f1abf60ee283..9491806084feaa10f38ead274f68546ea72d5f0a 100644 (file)
@@ -3,41 +3,40 @@ a lineage comprising \textit{Red Algae, Green Algae} and \textit{Land Plants} (t
 Several Second Enbiosymbioses occurred then: two involving a Red 
 Algae and other heterotrophic eucaryotes and giving birth to both Brown 
 Algae and Dinoflagellates lineages; another involving a Green Algae and 
 Several Second Enbiosymbioses occurred then: two involving a Red 
 Algae and other heterotrophic eucaryotes and giving birth to both Brown 
 Algae and Dinoflagellates lineages; another involving a Green Algae and 
-a heterotrophic eucaryot and giving birth to Euglens.\\
-The interesting with the tree produced (especially from DOGMA) is 
+a heterotrophic eucaryot and giving birth to Euglens\cite{mcfadden2001primary}.\\
+The interesting point with the tree produced (especially from DOGMA) is 
 that organisms resulting from the first endosymbiosis are distributed in 
 every of the lineage found in the chloroplast genome structure 
 evolution: with Red Algae chloroplasts together in one lineage, and 
 that organisms resulting from the first endosymbiosis are distributed in 
 every of the lineage found in the chloroplast genome structure 
 evolution: with Red Algae chloroplasts together in one lineage, and 
-Green Algae and Land Plants chloroplasts together in antoher lineage; 
-while oranisms resulting from secondary endosymbioses are localized in 
+Green Algae and Land Plants chloroplasts together in another lineage; 
+while organisms resulting from secondary endosymbioses are more localized in 
 the tree: both the chloroplasts of Brown Algae and Dinoflagellates 
 representatives are found exclusively in the lineage also comprising the 
 Red Algae chloroplasts from which they evolved, while the Euglens 
 chloroplasts are related to the Green Algae chloroplasts from which they 
 the tree: both the chloroplasts of Brown Algae and Dinoflagellates 
 representatives are found exclusively in the lineage also comprising the 
 Red Algae chloroplasts from which they evolved, while the Euglens 
 chloroplasts are related to the Green Algae chloroplasts from which they 
-evolved. This make sense in term of biology and history of lineages and 
+evolved. This makes sense in terms of biology, history of lineages, and 
 theories of chloroplasts (and so photosynthetic ability) origins in 
 theories of chloroplasts (and so photosynthetic ability) origins in 
-different Eucaryotic lineages.
+different Eucaryotic lineages\cite{mcfadden2001primary}.
 Interestingly, The sole organisms included that possesses a 
 chloroplast (and so a chloroplastic genome) but that have lost the 
 photosynthetic ability (being parasitic plants) are found at the base of 
 Interestingly, The sole organisms included that possesses a 
 chloroplast (and so a chloroplastic genome) but that have lost the 
 photosynthetic ability (being parasitic plants) are found at the base of 
-the tree, and not together with its related species phylogenetically, 
-meaning that functional chloroplast genes are evolutionnary constrained 
+the tree, and not together with their phylogenetically related species. This means that functional chloroplast genes are evolutionnary constrained 
 when used in photosynthetic process, but loose rapidly their efficiency 
 when used in photosynthetic process, but loose rapidly their efficiency 
-when not used. They are Cuscuta-grovonii an Angiosperm (flowering plant) 
+when not used, as recently observed for a species of Angiosperms\cite{li2013complete}. These species are \textit{Cuscuta-grovonii} an Angiosperm (flowering plant) 
 at the base of the DOGMA Angiosperm-Conifers branch, and 
 at the base of the DOGMA Angiosperm-Conifers branch, and 
-Epipactis-virginiana also an Angiosperm at the complete base of the tree.
+\textit{Epipactis-virginiana} also an Angiosperm at the complete base of the tree.
 Another interesting result is that land plants that 
 Another interesting result is that land plants that 
-represent single sublineage originating from the large and diverse 
+represent single sublineage originating from the large and diverse 
 lineage of green algae in Eucaryots history are present in two different 
 branches of the DOGMA tree, associated with Green Algae, one branch 
 comprising the basal grade of land plants (mosses and ferns) and the second 
 lineage of green algae in Eucaryots history are present in two different 
 branches of the DOGMA tree, associated with Green Algae, one branch 
 comprising the basal grade of land plants (mosses and ferns) and the second 
-comprising the most internal lineage of land plants (Conifers and flowering plants). 
+comprising the most internal lineages of land plants (Conifers and flowering plants). 
 But independently of their split in two distinct branches of the DOGMA 
 tree, the Land Plants always show a higher number of functional genes in 
 But independently of their split in two distinct branches of the DOGMA 
 tree, the Land Plants always show a higher number of functional genes in 
-their chloroplasts than the green algae from which they emerged, probably meaning that 
+their chloroplasts than the green algae from which they emerged, probably meaning that the
 terrestrial way of life necessitates more functional genes for an 
 terrestrial way of life necessitates more functional genes for an 
-optimal photosynthesis than marine way of life. But a more detailed 
-analysis of selected genes is necessary to better understad the reasons why?
+optimal photosynthesis than the marine way of life. However, a more detailed 
+analysis of selected genes is necessary to better understand the reasons why?
 
 
 
 
 
 
index 9a70444bd0874aaa646f07e56a77cd3ff23d55fd..2a6cac9815097a006c00fa916edb5861cbeebe1b 100644 (file)
--- a/intro.tex
+++ b/intro.tex
@@ -6,21 +6,22 @@ annotated from NCBI \cite{Sayers01012011} and Dogma \cite{RDogma}: how
 can  we identify the  best core  genome and  what is  the evolutionary
 scenario of these chloroplasts.\\
 Chloroplast (such as mitochondria) are fondamental key elements in 
 can  we identify the  best core  genome and  what is  the evolutionary
 scenario of these chloroplasts.\\
 Chloroplast (such as mitochondria) are fondamental key elements in 
-living organisms history. Indeed, chlorplast in Eucaryotes are organites responsible for 
+living organisms history. Indeed, chloroplast in Eucaryotes are organites responsible for 
 photosynthesis. Photosynthesis is the main way to produce organic matter 
 from mineral matter, using solar energy. Consequently photosynthetic 
 organisms are at the base of most ecosystems trophic chains and 
 photosynthesis. Photosynthesis is the main way to produce organic matter 
 from mineral matter, using solar energy. Consequently photosynthetic 
 organisms are at the base of most ecosystems trophic chains and 
-photosynthesis in eucaryotes allowed a great speciation in the lineage 
+photosynthesis in Eucaryotes allowed a great speciation in the lineage 
 (to a great biodiversity). From an ecological point of view, 
 photosynthetic organisms are at the origin of the presence of dioxygen 
 in the atmosphere (allowing extant life) and are the main source of mid- 
 (to a great biodiversity). From an ecological point of view, 
 photosynthetic organisms are at the origin of the presence of dioxygen 
 in the atmosphere (allowing extant life) and are the main source of mid- 
-to long term carbon stockage (using atmospheric CO2, important in the 
-context of climate change). Chloroplast found in Eucaryots have an endosymbiotic origin, meaning 
-that they are a fusion of a photosynthetic bacteria (Cyanobacteria) and 
-a eucaryotic cell (enable to produce organic matter from solar energy = heterotrophic). \\
+to long term carbon stockage (using atmospheric CO2) an important feature in the 
+context of climate change. Chloroplasts found in Eucaryotes have an endosymbiotic origin, meaning 
+that they from the incorporation of a photosynthetic bacteria (Cyanobacteria) within an eucaryotic cell. \\
 
 
-By  the  principle  of
-classification, a  small number of genes lost  among species indicates
-that these species are close to  each other and belong to same family,
-while a  large lost  means that we  have an  evolutionary relationship
-between species  from different families.
+By  the  principle  of phylogenetic classification, a mutation in the DNA shared by two to several taxa has a higher probability to be inherited from common ancestor than to have evolved independently. In such a process, shared changes in the genomes allow to build relationships between species. In the case of chloroplasts, an important category of changes in the genome is the loss of functional genes, when inoperant or when transferred to the nucleus. Thereby, we hypothesize that small number of gene losses  among species indicates
+that these species are close to  each other and belong to same lineage,
+while a  large loss  means that we  have an  evolutionary relationship
+between species  from much more distant lineages. Phylogenetic relationships are mainly built by comparison of sets of coding and non-coding sequences. Phylogenies of photosynthetic plants are important to assess the origin of chloroplasts (REF) and the modalities of gene loss among lineages. These phylogenies are usually done using less than ten chloroplastic genes (REF), and some of them may not be conserved by evolution process for every taxa. As phylogenetic relationships inferred from data matrices complete for each species included and with the same evolution history are better assumptions, we selected core genomes for a new investigation of photosynthetic plants phylogeny. To depict the links between species clearly, we here intend to built a phylogenetic tree showing the relationships based on the distances among gene sequences of a core genome. The circumscription of the core chloroplast genomes for a given set of photosynthetic organisms needs bioinformatic tools for sequence annotation and comparison that we describe here.
+
+Other possible scientific questions to consider for introduction improvement:
+Which bioinformatic tools are necessary for genes comparison in selected complete chloroplast genomes? Which bioinformatic tools are necessary to build a phylogeny of numerous genes and species, etc?
\ No newline at end of file
index bebdb14a8e0c6fe7d94e3b9c33d29478c2844ce9..fd5f236d437af08541be86a10b7458d0feeffc2b 100755 (executable)
--- a/main.tex
+++ b/main.tex
 
 
 \title{Finding the Core-Genes of Plant Species Chloroplast}
 
 
 \title{Finding the Core-Genes of Plant Species Chloroplast}
-\author[1]{Bassam AlKindy} %\footnote{email: bassam.al-kindy@univ-fcomt\'{e}.fr}
-\author[1]{Jacques Bahi}
+\author[1]{Bassam AlKindy} %\footnote{email: bassam.al-kindy@univ-fcomte.fr}
 \author[1]{Jean-Fran\c{c}ois Couchot} 
 \author[1]{Christophe Guyeux} 
 \author[2]{Arnaud Mouly}
 \author[1]{Michel Salomon}
 \author[1]{Jean-Fran\c{c}ois Couchot} 
 \author[1]{Christophe Guyeux} 
 \author[2]{Arnaud Mouly}
 \author[1]{Michel Salomon}
+\author[1]{Jacques Bahi}
 \affil[1]{FEMTO-ST Institute, UMR 6174 CNRS, Computer Science Department DISC, Universit\'{e} de Franche-Comt\'{e}, France}
 \affil[1]{FEMTO-ST Institute, UMR 6174 CNRS, Computer Science Department DISC, Universit\'{e} de Franche-Comt\'{e}, France}
-\affil[2]{Lab. Chrono-Environnement, UMR 6174 CNRS, Universit\'{e} de Franche-Comt\'{e}, France}
+\affil[2]{Lab. Chrono-Environnement, UMR 6249 CNRS, Universit\'{e} de Franche-Comt\'{e}, France}
 %{\small \it Authors in alphabetic order}
 
 \renewcommand\Authands{ and }
 %{\small \it Authors in alphabetic order}
 
 \renewcommand\Authands{ and }