-
Notifications
You must be signed in to change notification settings - Fork 3
/
text_processinggrupo.py
43 lines (36 loc) · 1.44 KB
/
text_processinggrupo.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
"""
__author__ = "Ahirton Lopes e Rodrigo Pasti"
__copyright__ = "Copyright 2015/2016, Mackenzie University"
__credits__ = ["Ahirton Lopes", "Rodrigo Pasti", "Leandro de Castro"]
__license__ = "None"
__version__ = "1.0"
__maintainer__ = "Ahirton Lopes"
__email__ = "[email protected]"
__status__ = "Beta"
"""
'''
"""
-----------------------------------------------------------------------------------------------------------------------
FUNÇÕES PARA TRATAMENTO TEXTUAL E FORMATAÇÃO
-----------------------------------------------------------------------------------------------------------------------
"""
'''
import re
import nltk
import semantic_dictionaries
import unicodedata
import file_utils
from nltk.corpus import mac_morpho
"""
Recebe uma lista de documentos e retorna o tratamento destes na forma de lista
de tokens
"""
def tokenize(documents):
nDocs = len(documents) # len = Retorna o comprimento (o número de itens) de um objeto
documentsProcessed = [] # Cria lista para todos os documentos a serem processados
for iDoc in range(0,nDocs): # Ordenação dos diferentes documentos a serem processados
#documentsProcessed.append(nltk.word_tokenize(documents[iDoc].decode('utf-8')))
documentsProcessed.append(nltk.word_tokenize(documents[iDoc])) # Adiciona à lista a partir da ordenação
return documentsProcessed