Digital Humanities: Computational Linguistics с Python (NLTK) для филологов в эпоху больших данных и анализа текстов на примере GloVe

Привет, коллеги! Digital Humanities – это не просто модное словечко, а реальная трансформация филологии. С помощью computational linguistics, python, и инструментов вроде NLTK (Natural Language Toolkit) мы можем анализировать большие данные текстов, используя векторные представления слов и машинное обучение для лингвистики.

Давайте разберем ключевые инструменты и методы, о которых говорили выше, в формате удобной таблицы. Здесь мы сравним их по нескольким важным параметрам, чтобы вы могли выбрать подходящий инструмент для своих задач в области Digital Humanities и компьютерной лингвистики.

В этой таблице мы рассмотрим python библиотеки, методы анализа текста, и способы представления данных, часто используемые в проектах, связанных с обработкой естественного языка, анализом тональности текстов, и data mining для лингвистики.

Таблица: Инструменты и методы Digital Humanities и Computational Linguistics

Инструмент/Метод Описание Язык Применение в DH Примеры Плюсы Минусы
NLTK (Natural Language Toolkit) Библиотека для обработки естественного языка, включает инструменты для токенизации, стемминга, tag-гинга, парсинга. Python Автоматическая обработка текстов, корпусная лингвистика, анализ частотности слов, создание конкордансов. Определение частей речи в тексте, подсчет количества употреблений определенного слова в корпусе. Простота использования, большое количество встроенных функций, активное сообщество. Может быть медленной для больших объемов данных, некоторые функции требуют дополнительных знаний.
SpaCy Еще одна библиотека для обработки естественного языка, ориентированная на скорость и эффективность. Python Извлечение именованных сущностей, анализ зависимостей, построение синтаксических деревьев. Определение всех упоминаний компаний и людей в новостной статье, анализ связей между словами в предложении. Высокая скорость работы, хорошие модели по умолчанию, простота интеграции с другими инструментами. Меньше встроенных функций, чем в NLTK, требует более продвинутых знаний для настройки.
Gensim Библиотека для тематического моделирования, анализа семантической близости, и создания векторных представлений слов. Python Кластеризация документов по темам, определение семантической близости между словами и документами. Автоматическое определение основных тем в коллекции исторических документов, поиск документов, семантически близких к заданному запросу. Простота использования, хорошие алгоритмы для тематического моделирования, поддержка больших данных. Требует значительных вычислительных ресурсов для больших корпусов, требует тщательной настройки параметров.
GloVe (Global Vectors for Word Representation) Алгоритм для создания векторных представлений слов, основанный на матрице совместной встречаемости слов. Python (через библиотеки вроде Gensim), C Определение семантических отношений между словами, улучшение качества моделей машинного обучения для лингвистики. Нахождение слов, семантически близких к слову «король», например, «королева», «трон», «правитель». Учитывает глобальную статистику встречаемости слов, позволяет создавать более качественные векторные представления. Требует значительных вычислительных ресурсов для обучения на больших корпусах, сложнее в настройке, чем Word2Vec.
Word2Vec Еще один алгоритм для создания векторных представлений слов, основанный на нейронных сетях. Python (через библиотеки вроде Gensim), C Аналогично GloVe. Аналогично GloVe. Простота использования, относительно быстрая скорость обучения. Менее эффективен, чем GloVe, для задач, требующих учета глобальной статистики.
Scikit-learn Библиотека для машинного обучения, включает алгоритмы классификации, кластеризации, регрессии, и понижения размерности. Python Анализ тональности текстов, классификация документов по жанрам, выявление авторства текстов. Определение положительной или отрицательной окраски отзыва о фильме, классификация новостных статей по категориям. Большое количество алгоритмов, простота использования, хорошая документация. Требует знаний в области машинного обучения, не предназначена для работы с текстом «из коробки».
Pandas Библиотека для анализа и манипулирования данными, особенно удобна для работы с табличными данными. Python Предобработка данных, текстовая аналитика, создание отчетов и таблиц. Загрузка и очистка данных из CSV-файла, создание таблиц с результатами анализа текста. Удобство работы с табличными данными, большое количество функций для анализа и манипулирования данными. Требует знаний в области python, может быть медленной для очень больших объемов данных.
Matplotlib и Seaborn Библиотеки для визуализации данных. Python Визуализация данных в гуманитарных науках, создание графиков и диаграмм для представления результатов анализа текста. Построение графиков частотности слов, диаграмм рассеяния для визуализации векторных представлений слов. Простота использования, большое количество вариантов визуализации. Требует знаний в области python, может быть сложно создавать сложные визуализации.

Эта таблица – лишь отправная точка. Каждый из этих инструментов имеет множество настроек и возможностей, которые стоит изучить более подробно. Главное – не бояться экспериментировать и искать то, что лучше всего подходит для ваших исследовательских целей в филологии и digital humanities. Помните, что компьютерная лингвистика – это мощный союз знаний о языке и технологий, открывающий новые горизонты для анализа и понимания текстов.

Например, по данным исследования, проведенного в 2023 году, использование векторных представлений слов в задачах анализа тональности текстов повышает точность классификации на 15-20% по сравнению с использованием простых методов на основе частотности слов. Это говорит о том, что освоение этих методов – важный шаг для любого филолога, стремящегося применять современные инструменты в своей работе.

Теперь, когда мы рассмотрели отдельные инструменты, давайте проведем более детальное сравнение ключевых подходов к векторному представлению слов: GloVe и Word2Vec. Это два наиболее популярных метода, и понимание их различий поможет вам сделать осознанный выбор в зависимости от ваших задач в области компьютерной лингвистики и обработки естественного языка.

Эта таблица сфокусирована на сравнении GloVe и Word2Vec с точки зрения их алгоритмов, требований к данным, вычислительной сложности, и применимости к различным задачам анализа текстов и машинного обучения для лингвистики. Мы также рассмотрим их сильные и слабые стороны, чтобы вы могли оценить, какой из этих подходов лучше всего подходит для ваших конкретных проектов в Digital Humanities.

Сравнительная таблица: GloVe vs. Word2Vec

Характеристика GloVe (Global Vectors for Word Representation) Word2Vec
Основной принцип Обучается на основе матрицы совместной встречаемости слов в корпусе. Учитывает глобальную статистику. Обучается на основе предсказания окружающих слов (CBOW) или предсказания центрального слова (Skip-gram). Учитывает локальный контекст.
Алгоритм Минимизирует ошибку при аппроксимации логарифма вероятности совместной встречаемости слов. Использует нейронные сети для предсказания окружающих слов.
Используемая статистика Глобальная статистика совместной встречаемости слов. Локальный контекст слов.
Вычислительная сложность Более высокая вычислительная сложность, особенно для больших данных. Требует больше памяти. Относительно менее вычислительно сложный, быстрее обучается.
Требования к данным Эффективен при работе с большими корпусами текстов, где важна глобальная статистика. Может быть эффективным даже при работе с небольшими корпусами.
Применение Хорошо подходит для задач, где важны семантические отношения между словами и учет глобального контекста, например, для улучшения качества анализа тональности текстов и semantic analysis. Хорошо подходит для задач, где важен локальный контекст и семантическая близость слов, например, для поиска синонимов и связанных понятий.
Преимущества Учитывает глобальную статистику, что позволяет создавать более качественные векторные представления для редких слов. Относительно прост в использовании и быстр в обучении, хорошо работает с небольшими корпусами.
Недостатки Более вычислительно сложный, требует больше памяти, может быть сложнее в настройке. Не учитывает глобальную статистику, что может привести к менее качественным векторным представлениям для редких слов.
Примеры использования в DH Анализ эволюции значений слов в исторических текстах, выявление семантических связей между персонажами в литературных произведениях. Кластеризация текстов по темам, поиск текстов, семантически близких к заданному запросу.
Инструменты Gensim, Stanford NLP GloVe Gensim, TensorFlow, PyTorch

Как видно из таблицы, выбор между GloVe и Word2Vec зависит от ваших конкретных потребностей и ресурсов. Если у вас есть большой корпус текстов и важна глобальная статистика, GloVe может быть лучшим выбором. Если же у вас ограниченные вычислительные ресурсы или вы работаете с небольшим корпусом, Word2Vec может быть более подходящим вариантом.

Например, исследование, опубликованное в Journal of Digital Humanities, показало, что GloVe превосходит Word2Vec в задачах semantic analysis исторических текстов, особенно при анализе редких слов и терминов. Это связано с тем, что GloVe лучше учитывает глобальную статистику встречаемости слов, что особенно важно для текстов, в которых некоторые слова могут встречаться относительно редко.

Важно помнить, что обе модели требуют тщательной настройки параметров для достижения наилучших результатов. Экспериментируйте с различными параметрами, такими как размерность векторных представлений, размер окна контекста, и количество эпох обучения, чтобы найти оптимальную конфигурацию для ваших данных.

Не забывайте также о возможностях визуализации данных. Используйте библиотеки вроде Matplotlib и Seaborn для визуализации векторных представлений слов и анализа семантических отношений между ними. Это поможет вам лучше понять ваши данные и получить новые инсайты.

У вас наверняка возникли вопросы. Давайте разберем самые распространенные из них, касающиеся использования python, NLTK, GloVe и других инструментов компьютерной лингвистики в Digital Humanities. Здесь мы ответим на вопросы о том, с чего начать, как выбрать подходящие инструменты, и какие ресурсы могут помочь вам в освоении этих технологий.

В этом разделе FAQ мы постарались собрать наиболее часто задаваемые вопросы, которые возникают у филологов, начинающих свой путь в обработке естественного языка и анализе текстов. Мы также включили вопросы о том, как использовать машинное обучение для лингвистики, как работать с большими данными, и как применять векторные представления слов в своих исследованиях.

  1. С чего начать изучение computational linguistics, если я филолог без опыта программирования?
  2. Начните с основ python. Есть множество бесплатных онлайн-курсов, например, на Coursera или Stepik. Затем освойте базовые функции NLTK (Natural Language Toolkit) – токенизацию, стемминг, tag-гинг. Постепенно переходите к более сложным темам, таким как векторные представления слов и машинное обучение. Важно практиковаться на реальных текстовых данных. По данным опроса, 70% филологов, успешно освоивших computational linguistics, начинали с простых задач, постепенно усложняя их.

  3. Какой инструмент лучше выбрать для анализа тональности текста: NLTK или что-то другое?
  4. NLTK предоставляет базовые инструменты для анализа тональности текстов, но для более точных результатов стоит использовать библиотеки, разработанные специально для этой задачи, например, VADER (Valence Aware Dictionary and sEntiment Reasoner) или TextBlob. Они содержат словари тональности и алгоритмы, оптимизированные для анализа тональности. Кроме того, можно использовать машинное обучение с использованием Scikit-learn для обучения собственных моделей на размеченных данных.

  5. Как использовать GloVe для анализа исторических текстов?
  6. Сначала необходимо собрать корпус исторических текстов. Затем обучите модель GloVe на этом корпусе. Полученные векторные представления слов можно использовать для semantic analysis, например, для выявления изменений в значениях слов со временем. Также можно использовать GloVe для кластеризации текстов по темам или для поиска текстов, семантически близких к заданному запросу. По данным исследования, использование GloVe для анализа исторических текстов позволяет выявить скрытые связи и закономерности, которые не видны при традиционном анализе.

  7. Как справиться с большим объемом текстовых данных (big data) в проектах Digital Humanities?
  8. Используйте инструменты для работы с большими данными, такие как Apache Spark или Dask. Они позволяют распределить вычисления на несколько компьютеров, что значительно ускоряет обработку. Также оптимизируйте свой код, используя эффективные алгоритмы и структуры данных. Рассмотрите возможность использования облачных сервисов, таких как Amazon AWS или Google Cloud, для хранения и обработки больших данных.

  9. Где найти готовые корпуса текстов для обучения моделей машинного обучения?
  10. Существует множество открытых корпусов текстов, доступных для скачивания. Например, Brown Corpus, Gutenberg Corpus, Reuters Corpus (доступны в NLTK), а также корпуса, представленные на Kaggle и других платформах. Также можно создавать собственные корпуса, собирая тексты из интернета или оцифровывая печатные издания. Важно убедиться, что у вас есть права на использование этих текстов.

  11. Какие навыки необходимы для успешной работы в computational linguistics?
  12. Необходимы знания в области лингвистики, программирования (python), машинного обучения, статистики и математики. Также важны навыки работы с командной строкой, базами данных и инструментами визуализации данных. Постоянно развивайтесь и следите за новыми технологиями в этой области. По данным опроса, 90% специалистов в computational linguistics считают непрерывное обучение ключевым фактором успеха.

  13. Как визуализировать результаты анализа текстовых данных?
  14. Используйте библиотеки визуализации данных, такие как Matplotlib, Seaborn или Plotly. Они позволяют создавать различные типы графиков и диаграмм для представления результатов анализа текстов. Например, можно построить графики частотности слов, диаграммы рассеяния для визуализации векторных представлений слов, или тепловые карты для визуализации матрицы совместной встречаемости слов. Важно выбирать тип визуализации, который наилучшим образом отражает ваши данные и позволяет получить новые инсайты.

Надеюсь, эти ответы помогут вам начать свой путь в увлекательный мир компьютерной лингвистики и Digital Humanities. Помните, что главное – это практика и постоянное обучение. Не бойтесь экспериментировать и задавать вопросы. Удачи!

Давайте рассмотрим различные задачи, которые можно решать с помощью инструментов компьютерной лингвистики, и определим, какие методы и библиотеки python наиболее подходят для каждой из них. Это поможет вам сориентироваться в многообразии возможностей и выбрать оптимальный подход для ваших исследований в области Digital Humanities и филологии.

Эта таблица охватывает широкий спектр задач, от базовой обработки естественного языка до продвинутого машинного обучения для лингвистики. Мы рассмотрим, какие библиотеки и методы подходят для каждой задачи, а также приведем примеры их применения и оценки результатов. Особое внимание будет уделено использованию векторных представлений слов (например, GloVe) для повышения качества анализа текстов. Также затронем текстовую аналитику и data mining для лингвистики.

Таблица: Задачи компьютерной лингвистики и инструменты для их решения

Задача Описание Методы Библиотеки Python Пример применения Метрики оценки
Токенизация Разбиение текста на отдельные слова или токены. Регулярные выражения, алгоритмы на основе правил. NLTK, SpaCy Разбиение текста романа на отдельные слова для дальнейшего анализа. Точность, полнота, F1-мера.
Стемминг и лемматизация Приведение слов к их базовой форме (стемминг – отсечение окончаний, лемматизация – приведение к словарной форме). Алгоритм Портера (стемминг), WordNet (лемматизация). NLTK, SpaCy Приведение слов «бежал», «бежит», «бегу» к форме «бежать» для анализа частотности слов. Точность, полнота, F1-мера (для оценки качества лемматизации).
Tag-гинг (определение частей речи) Определение части речи каждого слова в тексте. Алгоритмы на основе Hidden Markov Models (HMM) и Conditional Random Fields (CRF). NLTK, SpaCy Определение, какие слова в предложении являются существительными, глаголами, прилагательными и т.д. Точность, полнота, F1-мера. tagпреподавателями
Анализ тональности текстов Определение эмоциональной окраски текста (позитивная, негативная, нейтральная). Методы на основе словарей тональности, машинное обучение (классификация). NLTK (VADER), TextBlob, Scikit-learn Определение, является ли отзыв о фильме положительным или отрицательным. Точность, полнота, F1-мера, AUC-ROC.
Кластеризация текстов Разбиение коллекции текстов на группы (кластеры) на основе их содержания. Алгоритмы K-means, DBSCAN, иерархическая кластеризация. Scikit-learn, Gensim Автоматическое разделение новостных статей на категории (политика, экономика, спорт и т.д.). Silhouette score, Davies-Bouldin index.
Тематическое моделирование Выявление основных тем, обсуждаемых в коллекции текстов. Алгоритмы Latent Dirichlet Allocation (LDA), Non-negative Matrix Factorization (NMF). Gensim, Scikit-learn Автоматическое выявление основных тем в коллекции научных статей. Perplexity, coherence score.
Semantic analysis Анализ семантического содержания текста, включая определение семантических отношений между словами и понятиями. Векторные представления слов (GloVe, Word2Vec), семантические сети. Gensim, SpaCy Определение, какие слова семантически близки к слову «король». Оценка качества векторных представлений (например, с помощью задач Word Analogy).
Извлечение информации Извлечение структурированной информации из неструктурированного текста (например, извлечение именованных сущностей, фактов, отношений). Алгоритмы на основе правил, машинное обучение (Named Entity Recognition, Relation Extraction). SpaCy, NLTK, Scikit-learn Извлечение информации о датах рождения и смерти исторических личностей из биографических текстов. Точность, полнота, F1-мера.
Автоматический перевод Перевод текста с одного языка на другой. Нейронные сети (Seq2Seq модели, Transformers). TensorFlow, PyTorch Перевод текста с английского на русский. BLEU score, METEOR score.

Эта таблица предоставляет обзор основных задач компьютерной лингвистики и инструментов для их решения. Выбор конкретного метода и библиотеки зависит от ваших целей, доступных данных и вычислительных ресурсов. Важно помнить, что компьютерная лингвистика – это динамично развивающаяся область, и постоянно появляются новые методы и инструменты.

Например, исследование, опубликованное в Computational Linguistics Journal, показало, что использование векторных представлений слов (например, GloVe) в задачах извлечения информации повышает точность извлечения именованных сущностей на 10-15% по сравнению с использованием традиционных методов на основе правил.

По данным опроса, 80% специалистов в области Digital Humanities используют python и библиотеки компьютерной лингвистики для анализа и интерпретации текстов. Это говорит о том, что освоение этих инструментов – важный шаг для любого филолога, стремящегося применять современные технологии в своей работе.

Давайте сравним несколько популярных библиотек python для обработки естественного языка, чтобы помочь вам выбрать подходящий инструмент для ваших задач в области компьютерной лингвистики и Digital Humanities. Мы рассмотрим такие библиотеки, как NLTK, SpaCy, Gensim и TextBlob, и сравним их по таким параметрам, как скорость, функциональность, простота использования и применимость к различным задачам анализа текстов.

Эта сравнительная таблица поможет вам оценить сильные и слабые стороны каждой библиотеки и выбрать ту, которая лучше всего соответствует вашим потребностям и уровню знаний. Мы также рассмотрим, как эти библиотеки можно использовать для решения конкретных задач, таких как анализ тональности текстов, тематическое моделирование и извлечение информации. Кроме того, затронем машинное обучение для лингвистики и использование векторных представлений слов.

Сравнительная таблица: Библиотеки Python для обработки естественного языка

Библиотека Описание Скорость Функциональность Простота использования Применение Преимущества Недостатки
NLTK (Natural Language Toolkit) Широкий набор инструментов для обработки естественного языка, включая токенизацию, стемминг, tag-гинг, парсинг и многое другое. Относительно медленная. Обширная функциональность, множество встроенных корпусов и лексических ресурсов. Сравнительно простая в использовании для начинающих, но требует понимания основных концепций обработки естественного языка. Подходит для обучения и экспериментов, а также для задач, где требуется широкий спектр инструментов. Большое сообщество, множество учебных материалов, широкий спектр возможностей. Может быть медленной для больших данных, некоторые функции устарели.
SpaCy Современная библиотека для обработки естественного языка, ориентированная на скорость и эффективность. Очень быстрая. Хорошие модели по умолчанию, поддержка именованных сущностей, анализ зависимостей. Относительно простая в использовании, хорошо документирована. Подходит для задач, требующих высокой производительности, таких как анализ текстов в реальном времени. Высокая скорость, хорошие модели по умолчанию, простота интеграции с другими инструментами. Меньше встроенных функций, чем в NLTK, требует более продвинутых знаний для настройки.
Gensim Библиотека для тематического моделирования, анализа семантической близости и создания векторных представлений слов. Средняя. Хорошие алгоритмы для тематического моделирования (LDA, LSI), поддержка векторных представлений (Word2Vec, GloVe). Сравнительно простая в использовании для тематического моделирования и анализа семантической близости. Подходит для задач, связанных с анализом больших коллекций текстов и выявлением скрытых тем. Простота использования, хорошие алгоритмы для тематического моделирования, поддержка больших данных. Требует значительных вычислительных ресурсов для больших корпусов, требует тщательной настройки параметров.
TextBlob Простая в использовании библиотека для обработки естественного языка, предоставляющая простой интерфейс к NLTK и другим библиотекам. Относительно медленная. Базовая функциональность, включая токенизацию, tag-гинг, анализ тональности текстов. Очень простая в использовании, идеально подходит для начинающих. Подходит для простых задач и быстрого прототипирования. Очень простая в использовании, хороший выбор для начинающих. Ограниченная функциональность, медленная скорость.

Как видно из таблицы, каждая библиотека имеет свои сильные и слабые стороны. Выбор конкретной библиотеки зависит от ваших конкретных потребностей и целей. Если вам нужна максимальная скорость и производительность, SpaCy может быть лучшим выбором. Если вам нужен широкий спектр инструментов и ресурсов, NLTK может быть более подходящим вариантом. Если вы занимаетесь тематическим моделированием или анализом семантической близости, Gensim может быть лучшим выбором. А если вы только начинаете свой путь в обработке естественного языка, TextBlob может быть хорошей отправной точкой.

По данным опроса, 60% специалистов в области Digital Humanities используют NLTK в своих проектах, в то время как 40% используют SpaCy. Это говорит о том, что обе библиотеки являются популярными и востребованными в этой области.

Важно помнить, что эти библиотеки можно использовать в сочетании друг с другом. Например, вы можете использовать SpaCy для токенизации и tag-гинга, а затем использовать Gensim для тематического моделирования. Экспериментируйте с различными библиотеками и методами, чтобы найти оптимальное решение для ваших задач.

Кроме того, не забывайте о возможностях визуализации данных. Используйте библиотеки вроде Matplotlib и Seaborn для визуализации результатов анализа текстов и получения новых инсайтов.

FAQ

Остались вопросы? Отлично! Давайте разберем еще несколько часто задаваемых вопросов о применении компьютерной лингвистики и python в Digital Humanities. Здесь мы постараемся ответить на вопросы, касающиеся выбора алгоритмов, оценки результатов, и интеграции различных инструментов в единый рабочий процесс. Также обсудим этические аспекты работы с текстовыми данными.

В этом разделе FAQ мы уделим внимание вопросам, которые часто возникают у исследователей, уже имеющих некоторый опыт в обработке естественного языка и анализе текстов. Мы рассмотрим вопросы о том, как правильно оценивать качество моделей машинного обучения для лингвистики, как использовать векторные представления слов для решения конкретных задач, и как избежать распространенных ошибок при работе с большими данными. Не забудем и про текстовую аналитику и data mining для лингвистики.

  1. Как оценить качество модели анализа тональности текстов? Какие метрики использовать?
  2. Для оценки качества модели анализа тональности текстов используются различные метрики, такие как точность (accuracy), полнота (precision), F1-мера (F1-score) и AUC-ROC. Выбор метрики зависит от конкретной задачи и баланса между точностью и полнотой. Если важно избежать ложноположительных результатов, следует обратить внимание на точность. Если важно не пропустить ни одного положительного результата, следует обратить внимание на полноту. F1-мера является гармоническим средним между точностью и полнотой и является хорошим компромиссом. AUC-ROC позволяет оценить качество модели в целом, независимо от выбранного порога классификации. По данным исследования, использование AUC-ROC позволяет более надежно оценить качество модели анализа тональности текстов, особенно при несбалансированных данных.

  3. Как выбрать оптимальный размер векторного представления слов (например, для GloVe)?
  4. Оптимальный размер векторного представления слов зависит от размера корпуса текстов и сложности задачи. Обычно используются размеры от 100 до 300. Слишком маленький размер может не позволить модели захватить все нюансы семантики, а слишком большой размер может привести к переобучению. Рекомендуется экспериментировать с различными размерами и оценивать качество векторных представлений с помощью задач Word Analogy или Text Classification. По данным исследования, для большинства задач размер векторного представления 200-300 является оптимальным.

  5. Как интегрировать GloVe с другими инструментами компьютерной лингвистики (например, с NLTK)?
  6. Векторные представления слов, полученные с помощью GloVe, можно использовать в качестве входных данных для различных моделей машинного обучения, реализованных в NLTK. Например, можно использовать векторные представления для обучения классификатора тональности или для кластеризации текстов. Также можно использовать векторные представления для semantic analysis и поиска семантически близких слов. Интеграция GloVe с NLTK позволяетCombining the power of neural networks with genetic algorithms, we propose a new approach for the design of FIR filters with optimized magnitude and phase response.
    The effectiveness of the proposed approach is verified by means of examples. In this work we study the dynamics of complex networks constructed from weighted gene co-expression networks that are subjected to a threshold constraint on their adjacency matrix. We find that the resulting networks display small-world behavior as well as scale-free or exponential degree distributions.
    We also introduce a novel measure, the network transitivity significance (NTS), for evaluating the over-representation of transitive subgraphs in the resulting networks. These results could have important implications for identifying gene interactions with significant effects on complex biological systems. In this paper, we introduce the study of stability of a new class of dynamical neural networks with discrete time delays.
    By employing the Lyapunov functional approach and the mathematical inductive method, we obtain novel delay-dependent stability conditions, which depend not only on the time delays, but also on the discrete delay times. Finally, several illustrative examples are given to show the effectiveness of the obtained results.
    We demonstrate the feasibility of estimating the power spectral density (PSD) from extremely short data segments by applying the time-frequency averaging technique for short data segments. Using a set of well designed simulations, we show that the proposed technique can significantly reduce the estimation error, especially at low frequencies, compared to the Welch’s averaged periodogram method.

    We use a computer simulation to investigate the performance of several types of space time turbo code.
    The code is based on two dimensional interleaver, and two recursive systematic convolutional code are used as component code. The simulation results show that the performance of space time turbo code with two dimensional interleaver improves greatly compared to that of conventional space time turbo code with one dimensional interleaver.
    By investigating the nature of the interleavers, we have found that the performance of space time turbo codes is very sensitive to the design of the interleavers. In order to investigate the dependence of the spectrum of the adjacency matrix of a graph on the weights of its edges, we obtain several bounds for the eigenvalues of a matrix in terms of its entries.
    These results complement and improve upon several well known bounds for the eigenvalues of matrices. The main purpose of this paper is to develop some techniques for reducing the complexity of parallel implementation of a class of image processing algorithms.

    It is shown that parallel processing can be applied to some algorithms to achieve a significant reduction in the computational complexity of the algorithms.
    Numerical examples are given to demonstrate the advantages of the proposed techniques. A data fusion algorithm is proposed for face recognition, combining information from multiple modalities of facial feature images, e.g., thermal faces, color faces, and 3D faces.
    To do this, feature images of different modalities are first extracted from the face images, then these feature images are merged to create a new feature image, and finally the merged feature image is input into the probabilistic neural network for classification. Experimental results demonstrate that this algorithm can efficiently improve the performance of face recognition compared with the algorithms which use a single modality.
    A novel algorithm based on support vector machines (SVM) is presented for estimating time-varying AR parameters, which are important for characterizing non-stationary signals.

    At each time instant, we formulate the AR parameter estimation as an SVM regression problem and the SVM is trained with past time-series data. This algorithm can track the changing of the AR parameters quickly and accurately.
    Examples are provided to show the tracking capability.
    The classification problem of gene expression data using microarrays attracts much attention since it contributes to the cancer diagnosis and drug discovery. We propose a new classification method that classifies gene expression data by the AdaBoost algorithm with decision stump as a weak learner and simultaneously selects informative genes by using the SVM-RFE criterion in the AdaBoost learning procedure.
    Experimental results show that our classification method can provide a higher classification accuracy than the conventional methods with fewer genes, which proves the effectiveness of our classification method.

    We investigate the performance of the minimum bit-error-rate (MBER) linear equalizer (LE) for the multiple-input multiple-output (MIMO) antenna system.
    An approximated closed-form expression for the MBER LE is derived using Gaussian approximation (GA) on the transmitted data symbols. A simple MBER LE employing the derived approximated closed-form expression is presented, and its performance is investigated through computer simulation. A novel scheme for multiple description image coding (MDIC) is presented.

    Each description is generated by constructing an overcomplete wavelet frame of the original image and retaining different subsets of the wavelet coefficients. To fully exploit the correlation among multiple descriptions, we propose to reconstruct the image from multiple descriptions by minimizing the total variation (TV) of the reconstructed image subject to some data fidelity constraints.
    Experimental results demonstrate that the proposed scheme can achieve better coding performance compared with the conventional MDIC schemes.
    Based on the concept of the principal component analysis (PCA) network in the reproducing kernel Hilbert space (RKHS), this paper proposed a novel nonlinear PCA network (NLPCA-Net).

    The activation functions between neurons are not preseted, but adaptively generated by local data samples through solving an optimization function in the RKHS. Moreover, the output nodes of the first layer and the input nodes of the second layer of the network are connected by feedback links.
    We then prove that the proposed NLPCA-Net can extract the principal component features of data samples without knowing their distribution, and design an orthogonal learning algorithm to train the network. Finally, the effectiveness of the proposed algorithm is verified with simulation experiments.
    A novel scheme for blind separation of convolutive sources with colored Gaussian noises, which is based on the concept of the second-order statistics and joint approximate diagonalization of a set of correlation matrices, is presented.

    A major advantage of the proposed scheme is that the number of the correlation matrices required for ensuring the satisfactory performance does not depend on the number of the sources to be separated. The simulation results show that the proposed scheme can separate the convolutive sources with colored Gaussian noises effectively.
    A novel algorithm is developed in this paper to solve a convex optimization problem with linear inequality constraints. A sequence of dual variables is generated from the subgradient direction with Polyak’s step size.

    In this paper, we define the performance measure for evaluating the effectiveness of network intrusion detection system using receiver operating characteristic curve (ROC curve), and propose a new method for constructing ROC curve of network intrusion detection system.
    The results obtained from the practical test show that the ROC curve can present more exact information of the intrusion detection and reflect the practical effectiveness effectively.

    In this paper, we address the problem of designing optimal H ∞ filters for linear time-varying systems over a finite horizon with uncertain noises.
    We present a new approach to solving the H ∞ filtering problem. To overcome the difficulty of non-causality in the standard H ∞ filtering, we consider a relaxed causality for the error system such that the filtering error depends on the past and current measurements.
    A sufficient condition is derived to solve the filtering problem in terms of the solutions to a set of coupled Riccati equations, for which efficient numerical solvers exist. Examples are presented that validate the proposed algorithm.
    In this paper, we present a novel subspace method to extract the evoked potentials (EPs) from the electroencephalogram (EEG).

    The new subspace method, called linear prediction subspace method (LPSM), exploits the predictability of the EPs to attenuate the additive EEG noise and improve the signal to noise ratio. Numerical results show that LPSM algorithm has a robust performance on different simulated and real data sets, and can potentially be used in a real time brain computer interface. We propose a novel neural network architecture, the parallel hierarchical neural network (PHNN) for sequence classification.
    Different from the existing approaches, the proposed PHNN employs a tree structure and each node of the tree is a parallel combination of multiple neural networks, each of which extracts a different kind of local features.
    Each layer of the tree gradually integrates the decision outputs of its child nodes and passes the integrated decision to its parent node, and finally the root node generates the ultimate decision of the network. Experimental results show that the PHNN architecture can effectively extract the local features of a sequence and significantly improve the performance of sequence classification compared with the conventional classification approaches. A hybrid approach is presented to detect and classify microcalcifications on mammograms, which combines the discrete wavelet transform (DWT) and a neural network.
    The DWT is first used to enhance the microcalcifications in the mammogram. Then a gray-level thresholding is performed to separate out the potential microcalcifications, and finally a multilayer neural network is used to classify the clustered microcalcifications to reduce the false positives.
    The experimental results show that the proposed approach is effective in detecting and classifying microcalcifications on mammograms with relatively high accuracy.

    The problem of designing fixed-order filters for a given infinite impulse response (IIR) filter is considered.
    The purpose is to design a fixed-order filter with magnitude response that approximates the magnitude response of the given IIR filter. The fixed-order filter design problem is formulated as a least squares optimization problem and an efficient iterative algorithm is proposed to solve the resulting optimization problem.
    Simulation results show that the proposed algorithm can effectively design fixed-order filters that approximate the magnitude response of the given IIR filter.
    This paper considers the problem of distributed multi-target tracking (MTT) with heterogeneous sensor networks. We propose a novel target-behavior-aware track-to-track fusion method to improve the tracking accuracy.
    First, the target behavior is classified into two categories: maneuvering and non-maneuvering using the hidden Markov model. Then, different fusion strategies are applied according to the behavior of the target, i.e., the track covariance intersection filter is employed in the non-maneuvering case, while the track averaging filter is employed in the maneuvering case.
    Experimental results show that the proposed method outperforms the existing methods significantly. A novel algorithm is proposed for detecting moving cast shadows in a video sequence. In the proposed method, each pixel is modeled as a Gaussian distribution, which is updated adaptively.
    Based on the Gaussian model, we use the chromaticity and the brightness difference between the background and the current frame to detect the cast shadow. The simulation results demonstrate the effectiveness of the proposed algorithm.
    A new method is proposed for feature extraction based on local radon transformation (LRT) to recognize rotated texture images.

    In this paper, the rotated texture images are first decomposed by wavelet transformation, and then the high frequency sub-images of wavelet transformation are transformed by LRT. The mean and variance of LRT values are used as feature values, which are used for training.
    A feedforward neural network is trained and used as a classifier to classify the rotated texture images. The experimental results on brodatz texture database are given to demonstrate the effectiveness of the proposed method.
    A new method is presented to estimate the state of a linear system based on measurement obtained from a reduced number of sensors. A Kalman filter is used to derive an optimal estimate of the system states and to predict the evolution of the process.
    The optimal sensor locations are obtained by minimizing the trace of the covariance matrix of the estimation error, which measures the average estimation accuracy. The effectiveness of the proposed method is demonstrated through a numerical example.

    A new blind watermarking algorithm based on wavelet trees is presented for digital images, which effectively integrates the wavelet-based image decomposition and the tree-structure. The watermarking image is decomposed into multi-resolution wavelet trees.
    The relationships between the watermarking wavelet tree and the original image are established in a hierarchical way according to the principle of visual masking. Experimental results show that the algorithm has good invisibility and robustness.

VK
Pinterest
Telegram
WhatsApp
OK